Xem mẫu

VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

VIỆN CÔNG NGHỆ THÔNG TIN 18 Hoàng Quốc Việt, Hà Nội

BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI

NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT
Thời gian thực hiện: 2001- 6/2004

Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang

HÀ NÔI, 12/2004

Bản quyền 2004 thuộc Viện Công nghệ thông tin Đơn xin sao chép toàn bộ hoặc từng phần tài liệu này phải gửi đến Viện trưởng Viện Công nghệ thông tin trừ trường hợp sử dụng với mục đích nghiên cứu

VIỆN KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM

VIỆN CÔNG NGHỆ THÔNG TIN 18 Hoàng Quốc Việt, Hà Nội

BÁO CÁO TỔNG KẾT KHOA HỌC VÀ KỸ THUẬT ĐỀ TÀI

NGHIÊN CỨU PHÁT TRIỂN CÔNG NGHỆ NHẬN DẠNG, TỔNG HỢP VÀ XỬ LÝ NGÔN NGỮ TIẾNG VIỆT
Thời gian thực hiện: 2001- 6/2004

Chủ nhiệm đề tài: GS.TSKH. Bạch Hưng Khang

HÀ NỘI, 12/2004

Tài liệu này được chuẩn bị trên cơ sở kết quả thực hiện Đề tài cấp Nhà nước mã số KC01-03 2

DANH SÁCH NHỮNG NGƯỜI THỰC HIỆN CHÍNH
TT 1 2 3 4 5 6 7 8 9 10 Họ và tên Bạch Hưng Khang Ngô Cao Sơn Lương Chi Mai Ngô Quốc Tạo Lê Khánh Hùng Vũ Kim Bảng Hồ Tú Bảo Nguyễn Thị Minh Huyền Đàm Hiếu Dũng Ngô Hoàng Huy Chức vụ, học vị GS.TSKH NCVCC KS TS. NCVC PGS. TS. NCVC TS. TS GS. TSKH Thạc sĩ KS KS Đơn vị công tác Viện CNTT Viện CNTT Viện CNTT Viện CNTT Viện NCUDCN Trung tâm Ngữ âm học thực nghiệm Viện CNTT ĐHKHTN Hà nội Trung tâm kỹ thuật thông tấn Viện CNTT Nhiệm vụ thuộc đề tài Chủ nhiệm đề tài Thư ký Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Chủ trì nhánh nghiên cứu Trưởng nhóm

Đơn vị phối hợp
Hoạt động của các tổ chức phối hợp tham gia thực hiện dự án TT 1 Tên tổ chức Trung tâm Ngữ âm học thực nghiệm, Viện Ngôn ngữ học, Trung tâm khoa học xã hội và nhân văn. Địa chỉ 22 Lý Thái Tổ Hoạt động/đóng góp cho đề tài Xây dựng CSDL ngữ âm, phân tich các đặc trưng ngôn ngữ, ngữ âm, thanh điệu cho tiếng Việt: - Phân tích phổ của các âm vị khó. - Nghiên cứu cấu trúc nguyên âm. - Nghiên cứu cấu trúc âm tiếng Việt, tổng hợp giọng nói. Nghiên cứu và phát triển phương pháp dịch tự động Việt - Anh Nghiên cứu phương pháp dóng hàng trong các văn bản song ngữ Pháp - Việt / Việt – Pháp Xây dựng công nghệ Coding ngữ nghĩa của âm thanh

2

3 4

Trug tâm nghiên cứu ứng dụng quang điện tử, Viện nghiên cứu ứng dụng công nghệ. Khoa Toán – Cơ – Tin học, Bộ môn Tin học, ĐHKHTN Hà nội Trung tâm kỹ thuật thông tấn – TTXVN

C6 Thanh xuân bắc, Hà nội Nguyễn Trãi, Hà nội 5 Lý Thường Kiệt

3

5

Nhóm nghiên cứu triển khai của Công ty NetNam GS John-Paul Hosom, CSLU- Center of Spoken Language Understanding, OGI, USA

6

7

GS Hansjoerg Mixdorff, University of Applied Science, Berlin GS Hiroya Fujisaki, Frontier Informatics, School of Frontier Science, University of Tokyo

8

Tích hợp công nghệ tổng hợp và 18 Đường Hoàng Quốc nhận dạng tiếng Việt với các dịch vụ số của INTERNET thế Việt hệ hai và ứng dụng. Cung cấp công cụ và phương Cascade pháp nhận dạng bằng HMM và Building 20000 N.W. ANN, CSDL tiếng Việt qua mạng điện thoại. Walker Road Beaverton, OR 97006 Steinstr. 27 Phương pháp và mô hình Fujisaki cho các ngôn ngữ có A, 12307 thanh điệu Berlin Germany Phương pháp và mô hình 7-3-1 Fujisaki cho các ngôn ngữ có Hongo Bunkyo-ku, thanh điệu Tokyo 113003 Japan

4

TÓM TẮT
Kể từ thế hệ máy tính điện tử (MTĐT) đầu tiên, giới nghiên cứu và công nghệ đã ý thức được rằng muốn phát huy khả năng xử lý của MTĐT thì phải tìm cách để máy và người có thể giao tiếp với nhau bằng ngôn ngữ tự nhiên. Trong đó có rất nhiều vấn đề khác nhau cần giải quyết nhưng một số vấn đề mấu chốt trong giao tiếp người máy là xử lý ngôn ngữ tự nhiên, tổng hợp, nhận dạng tiếng nói, chữ viết, dịch tự động. Sau gần nửa thế kỷ nghiên cứu và thử nghiệm, hiện nay đã có một số phần mềm thương phẩm, chủ yếu cho tiếng Anh. Đối với tiếng Việt là một ngôn ngữ đơn âm có thanh điệu còn chưa có nhiều nghiên cứu và kết quả. Mục đích của đề tài là nghiên cứu khảo sát xây dựng các phương pháp hiệu quả cho tổng hợp, nhận dạng và xử lý ngôn ngữ tiếng Việt. Ba nội dung chính quan hệ chặt chẽ với nhau được nghiên cứu trong đề tài KC01-03 là: 1. Nhận dạng và tổng hợp tiếng Việt 2. Nhận dạng chữ Việt in và viết tay có hạn chế 3. Xử lý ngôn ngữ tự nhiên tiếng Việt (các giải pháp trong xử lý ngôn ngữ tự nhiên tiếng Việt, nhằm tới mục đích dịch tự động). Các nội dung của đề tài tập trung vào nghiên cứu đặc thù trong ngữ âm, thanh điệu, văn phạm tiếng Việt; kế thừa, phát triển các công cụ trong tổng hợp, nhận dạng, phân tích văn phạm, dịch tự động để áp dụng hiệu quả cho tiếng Việt. Đề tài vừa phát triển một số giải pháp, phương pháp và công cụ cơ bản, vừa từng bước tạo ra một số sản phẩm thiết thực phục vụ cho ứng dụng. Mỗi nhánh của đề tài đều có những sản phẩm phần mềm như phần mềm tổng hợp tiếng Việt VnVoice 2.0, phần mềm nhận dạng lệnh VnCommand, phần mềm viết chính tả phụ thuộc giọng đọc VnDictator; phần mềm nhận dạng chữ Việt in VnDOCR 3.0; phần mềm nhận dạng phiếu điều tra MarkRead 2.0 có modul tích hợp chữ viết tay hạn chế; phần mềm dịch tự động Việt – Anh EVTRAN 2.5. Ngoài những sản phẩm nói trên còn có các kết quả ở dạng công cụ phục vụ cho nghiên cứu tiếng Việt như phương pháp và công nghệ xây dựng CSDL ngữ âm tiếng Việt, dóng hàng song ngữ, mô hình từ điển điện tử cho xử lý ngôn ngữ tự nhiên. Đề tài cũng đã đóng góp các bài nghiên cứu đã được công bố ở các tạp chí, hội nghị trong và ngoài nước,làm phong phú thêm về mặt lý thuyết cho tổng hợp và nhận dạng ngôn ngữ đơn âm đa thanh điệu, một mảng chưa có thật nhiều kết quả trên thế giới.

5

nguon tai.lieu . vn