Xem mẫu

  1. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ VIỆT - Ê ĐÊ GÁN NHÃN THEO NGỮ CẢNH SOLUTIONS TO BUILDING THE VIET - EDE MUTILINGUAL CORPUS WITH THE CONTEXTUAL LABEL Hoàng Thị Mỹ Lệ1 , Phan Huy Khánh2 1 Trường Cao đẳng Công nghệ, Đại học Đà Nẵng; Email: kquynhdn@yahoo.com 2 Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: khanhph29@gmail.com Tóm tắt – Trong lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN), kho Abstract – In the natural language processing (NLP), the ngữ liệu đa ngữ là một tài nguyên rất cần thiết. Chất lượng của kho multilingual corpus is a necessary resource. The quality of ngữ liệu đa ngữ đóng vai trò quyết định đến chất lượng đầu ra của multilingual corpus plays a decisive role in the output quality of the hệ dịch. Hệ dịch sẽ không cho kết quả tốt nếu kho ngữ liệu đa ngữ translational system. The translational system will not produce a sử dụng trong quá trình huấn luyện có chất lượng không tốt cho good output, if the the quality of multilingual corpus in the training dù được áp dụng các phương pháp học máy tiên tiến nhất. Hiện process is not good, though the most advanced machine learning nay chưa có một kho ngữ liệu song ngữ Việt-ÊĐê với phông chữ methods are applied. Currently, there is no Vietnamese-EDe Unicode nào đã được công bố chính thức và cho phép cộng đồng multilingual corpus using Unicode fonts, which has been officially nghiên cứu có thể chia sẽ sử dụng để nghiên cứu. Từ đó, bài báo announced and allows the research community to share and use đề xuất giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê với phông for research purposes. For this reason, the propose of this paper chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách is to develop a solution to building a Vietnamese-EDe multilingual gán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục corpus using the Unicode font which can process the ambiguity and về chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ,... cho các multi - meaning words by labeling each word with the context in the đồng bào các dân tộc thiểu số Việt Nam. educational field such as education in animal husbandry, cultivation, forest preservation, health care, etc. ... for the ethnic minorities (EM) in Vietnam. Từ khóa – Kho ngữ liệu đa ngữ; dân tộc thiểu số; ÊĐê; unicode; Key words – multilingual corpus; the ethnic minorities; Ede; tách từ. unicode; word segmentation. 1. Đặt vấn đề học máy tiên tiến nhất. Bên cạnh đó việc khử nhập nhằng là bài toán không thể không kể đến trong dịch máy. Cho Trong số 55 dân tộc Việt Nam có 26 dân tộc đã có đến nay vẫn chưa có một kho ngữ liệu đa ngữ Việt-ÊĐê với chữ viết. Một điều dễ nhận thấy, cùng với tiếng phổ thông phông chữ Unicode nào đã được công bố chính thức và cho (tiếng Việt), tiếng dân tộc thiểu số (DTTS) cũng đang chứng phép cộng đồng nghiên cứu có thể chia sẻ sử dụng cho các tỏ vai trò của mình trong các lĩnh vực hoạt động tại các vùng mục tiêu nghiên cứu. đồng bào DTTS, nhất là trong việc gìn giữ và phát triển văn hoá dân tộc, xây dựng cuộc sống mới. Đảng và Nhà nước Xuất phát từ các vấn đề đã nêu, bài báo đề xuất giải pháp đã đưa ra rất nhiều chủ chương chính sách nhằm bảo tồn và phát triển công cụ xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê phát huy văn hóa dân tộc thiểu số. với phông chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng giải pháp gán nhãn theo ngữ cảnh thuộc lĩnh vực Hiện nay, Đài Tiếng nói Việt Nam và hầu hết các Đài giáo dục như giáo dục về chăn nuôi, trồng trọt, bảo vệ rừng, Phát thanh và Truyền hình (PT&TH) địa phương trong nước chăm sóc sức khoẻ, . . . cho các đồng bào DTTS Việt Nam. đều có các chương trình PT&TH bằng tiếng dân tộc, như Đài PT&TH tiếng ÊĐê tại các tỉnh Đăk Lăk. Những nội 2. Kho ngữ liệu dung PT&TH hiện nay nhằm giúp đồng bào dân tộc có thêm 2.1. Giới thiệu kho ngữ liệu vốn hiểu biết, kinh nghiệm về phát triển kinh tế, chăn nuôi, trồng trọt, bảo vệ rừng, khoáng sản, chăm sóc sức khoẻ, bảo Việc xây dựng ngân hàng dữ liệu để chứa hình ảnh, âm tồn và phát huy các giá trị văn hoá của mình, giữ vững an thanh, tiếng nói, văn bản, số liệu, bảng biểu, lược đồ, . . . đã ninh biên giới, nắm bắt được tình hình khí hậu, thời tiết, thổ có từ lâu, và được gọi chung là cơ sở dữ liệu. Với dữ liệu là nhưỡng, .... Tuy nhiên, việc đào tạo cán bộ, nhân viên, nhất chất liệu ngôn ngữ thì thường được tổ chức thành một loại là trong lĩnh vực PT&TH, am hiểu được văn hóa và tiếng riêng, gọi là kho ngữ liệu (corpus) hay kho văn bản. Một tập DTTS nói chung và tiếng ÊĐê nói riêng, đang gặp rất nhiều hợp gồm nhiều kho ngữ liệu gọi là Corpora. Các kho dữ liệu khó khăn. Quy trình sản xuất một chương trình phát thanh được nhiều nhà nghiên cứu biết đến là kho ngữ liệu quốc tế từ tiếng Việt sang tiếng ÊĐê vẫn còn thủ công, tốn nhiều Anh quốc (ICE: International Corpus of English), kho ngữ thời gian và công sức. Vì vậy cần có sự hỗ trợ của lĩnh vực liệu quốc gia Anh quốc (BNC: British National Corpus), Công nghệ Thông tin trong công việc dịch tự động các văn kho ngữ liệu quốc gia Hoa Kỳ (ANC: American National bản từ tiếng Việt sang tiếng ÊĐê. Corpus), v.v.... Đến tháng 7 năm 2012 Sketch Engine có Trong xử lý ngôn ngữ tự nhiên, chúng ta thấy rằng chất hơn 130 kho ngữ liệu trong đó có kho ngữ liệu BNC, và đặc lượng của máy dịch tự động sẽ không cho kết quả tốt nếu biệt là kho ngữ liệu tiếng Việt (VietnameseWaC) [5]. kho ngữ liệu sử dụng trong quá trình huấn luyện có chất Kho ngữ liệu với một thứ tiếng đơn lẻ gọi là kho ngữ lượng không tốt cho dù được áp dụng các phương pháp liệu đơn ngữ, hoặc với nhiều thứ tiếng gọi là kho ngữ liệu 38
  2. Hoàng Thị Mỹ Lệ, Phan Huy Khánh đa ngữ. Các kho ngữ liệu đa ngữ được định dạng đặc thù 2.3. Các kho ngữ liệu song ngữ tiếng Việt-tiếng DTTS để có thể so sánh cạnh nhau được gọi là kho ngữ liệu song hiện nay song có gióng hàng. Để kho ngữ liệu trở nên hữu ích cho - Bộ từ điển điện tử Việt-ÊĐê do Cơ quan thường trú việc nghiên cứu ngôn ngữ, đặc biệt là trong việc biên soạn Đài Tiếng nói Việt Nam khu vực Tây Nguyên thực hiện từ điển, các văn bản thường được làm giàu thêm bằng việc năm 2007. chú giải các thông tin tri thức. Chẳng hạn, các từ trong cụm từ sẽ được chú giải thông tin về từ loại gọi là gắn nhãn từ - Từ điển điện tử phương ngữ Gia Rai-Việt là đề tài khoa loại. Các cụm từ trong câu sẽ được phân tách và gắn nhãn học của sở Thông tin-Truyền thông tỉnh Gia Lai. gọi là phân đoạn cụm từ. Với các ngôn ngữ đơn lập như tiếng - Từ điển điện tử Mnông-Việt và Mơnông-Việt của sở Việt, do ranh giới của từ không được xác định rõ ràng bằng khoa học và công nghệ Đăk Nông. hình thức, nên ngữ liệu thường phải trải qua quá trình xác - Kho ngữ vựng song ngữ Việt-Cơ Tu và Cơ Tu-Việt của định đơn vị từ và gắn nhãn khu biệt gọi là phân đoạn từ [5]. ThS.Nguyễn Trọng Tùng. Một số kho ngữ liệu có cấp độ cấu trúc sâu hơn để cho - Kho ngữ vựng từ vựng đa ngữ Việt-Anh-ÊĐê của ThS. sự phân tích được hiệu lực. Đặc biệt, kho ngữ liệu có thể Nguyễn Thị Tuyết. được phân tích ngữ pháp và gán nhãn cú pháp đầy đủ. Kho - Kho ngữ vựng song ngữ Việt-Mường của ThS. Huỳnh ngữ liệu như vậy được gọi là Treebank, nó thường có dung Nguyễn Ái Nhân. lượng nhỏ chứa khoảng 1 đến 3 triệu từ, do công việc phân - Từ điển Hrê-Việt và Việt-Hrê của ThS. Võ Đình Tá. tích ngữ pháp và gắn nhãn cú pháp chủ yếu làm bằng tay, đòi hỏi độ chính xác cao nên mất rất nhiều công sức cũng - Kho ngữ vựng song ngữ Việt-ÊĐê của ThS. Phan Thị như kinh phí. Các cấp độ khác của ngôn ngữ được chú giải Thu Nhân. có thể bao gồm cả hình thái, ngữ nghĩa và ngữ dụng. Nhìn chung cho đến nay việc xây dựng kho ngữ liệu tiếng DTTS chỉ dừng lại ở một số kết quả nghiên cứu của 2.2. Xây dựng kho ngữ liệu song song một số trường Đại học, đó là những đề tài tốt nghiệp Đại Xây dựng kho dữ liệu song ngữ song song gồm hai bước học, Thạc sĩ, mang tính chất tìm hiểu, chưa hệ thống và cơ bản là: xây dựng nguồn tài liệu song song và gióng hàng định hướng rõ ràng. Với tiếng ÊĐê, nguồn ngữ liệu hiện có các tài liệu song song [2][3]. ở dạng từ điển Việt-ÊĐê trên giấy viết, từ điển ÊĐê-Việt ở dạng tập tin văn bản. Với tiếng các DTTS có các kí tự Xây dựng nguồn tài liệu song song không có trong tiếng Việt, các tác giả không dùng chung Chọn nguồn tài liệu phù hợp với lĩnh vực xác định trước phông chữ Unicode có hỗ trợ tiếng Việt mà hầu hết đều xây hoặc bao phủ nhiều lĩnh vực khác nhau. dựng bộ phông chữ và bộ gõ riêng để sử dụng. Nhập vào máy tính từ các tài liệu trên giấy hoặc mua các 3. Giải pháp phát triển công cụ xây dựng kho ngữ liệu kho ngữ liệu song ngữ điện tử như sách song ngữ, báo chí song ngữ, . . . . Thu thập dữ liệu song ngữ từ Internet. đa ngữ Việt-ÊĐê Hiện nay nguồn tài liệu song ngữ Việt-ÊĐê chủ yếu chỉ 3.1. Tiêu chí xây dựng kho ngữ liệu song ngữ Việt-Êđê có ở từ điển Việt-ÊĐê trên giấy, tài liệu điện tử của các Kho ngữ liệu song ngữ song song Việt-ÊĐê được chúng bài giảng tiếng ÊĐê và tự điển ÊĐê-Việt trong tập tin .PDF tôi xây dựng theo các tiêu chí sau: được tải lên mạng phục vụ cho việc học tiếng ÊĐê. - Lĩnh vực của kho ngữ liệu liên quan đến lĩnh vực giáo Gióng hàng các tài liệu song song dục về trồng trọt, chăn nuôi, bảo vệ rừng, y tế, . . . để phổ Các tài liệu song ngữ trong kho ngữ liệu song ngữ có biến những kiến thức cần thiết trong cuộc sống thực tế hằng thể ở các mức như sau: ngày cho đồng bào các DTTS. - Mức tài liệu: Các tài liệu trong kho ngữ liệu được - Các từ trong kho ngữ liệu là có nghĩa và biểu diễn được gióng hàng đôi một, tài liệu này là bản dịch của tài liệu kia. trong các tài liệu khoa học. - Mức đoạn: Các đoạn trong hai tài liệu của hai ngôn - Tài liệu xây dựng kho ngữ liệu chúng tôi truy cập trên ngữ sẽ được gióng hàng, đoạn này sẽ là bản dịch của mạng và chọn những tài liệu liên quan đến lĩnh vực giáo dục đoạn kia. trong cuộc sống thực tế hằng ngày cho đồng bào các DTTS trong khoảng thời gian gần đây nhất. - Mức câu: Các tài liệu song ngữ được gióng hàng ở mức câu. - Kho ngữ liệu song ngữ Việt-ÊĐê chúng tôi thực hiện gióng hàng theo mức các từ hay các cụm từ có nghĩa của - Mức ngữ: Các ngữ trong cặp câu sẽ được gióng hàng tiếng Việt được chọn ra theo lĩnh vực và gióng hàng theo từng đôi một. mức các từ hay cụm từ của tiếng ÊĐê, có gán nhãn theo lĩnh - Mức từ hay cụm từ: Các từ hay cụm từ trong câu sẽ vực của từ hay cụm từ được dùng. được gióng hàng từng đôi một. - Trong kho ngữ liệu này chúng tôi có gán nhãn theo Trong bài báo này chúng tôi xây dựng kho ngữ liệu đa ngữ cảnh và tần suất xuất hiện của từ có nghĩa trong các tài ngữ Việt-ÊĐê với mức các từ có nghĩa của tiếng Việt được liệu liên quan đến từng lĩnh vực. Qua đó, việc gióng hàng gióng hàng theo các từ của tiếng ÊĐê và có gán nhãn theo từ tiếng Việt với tiếng ÊĐê sẽ chú trọng vào lĩnh vực và tần lĩnh vực. suất xuất hiện của từ đó trong tài liệu. 39
  3. TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II - Kho ngữ liệu song ngữ Việt-ÊĐê được lưu trữ trong một khuôn mẫu nhất định, nội dung thuộc về lĩnh vực, ngôn máy tính với phông chữ Unicode có hỗ trợ tiếng Việt. từ cụ thể, rõ ràng, ít nhập nhằng. Đây là vấn đề mà các kho ngữ liệu tiếng DTTS trước Để góp phần nâng cao chất lượng kho ngữ liệu 1, chúng đây chưa được đề cập đến. tôi chọn giải pháp trong khi tách từ MVECCL lọc ra các từ không có trong kho ngữ liệu 1 và cho phép người sử dụng 3.2. Xây dựng kho ngữ liệu Việt-ÊĐê với bộ công cụ lựa chọn để cập nhật vào kho ngữ liệu 1. MVECCL Giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê gán Trên cơ sở kho ngữ liệu tiếng Việt đã được tách từ được nhãn theo ngữ cảnh được thể hiện qua Hình 1. chia sẻ trên mạng [4], với bộ công cụ MVECCL (Make Viet-Ede Corpus Context Label) sẽ tạo ra kho ngữ liệu Việt-ÊĐê theo các tiêu chí đã được đặt ra. 3.2.1. Chuẩn bị dữ liệu cho MVECCL Kho ngữ liệu tiếng Việt đã được tách từ [4] ở dạng tập tin văn bản, chúng tôi chuyển thành kho ngữ liệu dưới dạng bảng (đặt tên là kho ngữ liệu 1). Kho ngữ liệu ÊĐê-Việt ở dạng tập tin văn bản được chia sẽ trên mạng với mục đích dùng để học tiếng ÊĐê [6], cũng được chuyển thành kho ngữ liệu dưới dạng bảng (đặt tên là kho ngữ liệu 2). Những tài liệu liên quan đến lĩnh vực giáo dục trong Hình 1: Hoạt động của MVECCL cuộc sống thực tế hằng ngày cho đồng bào các DTTS. Ví dụ 3.2.3. Kho ngữ liệu Việt-ÊĐê từ MVECCL như những tài liệu liên quan đến giáo dục về trồng trọt trên Internet, chúng tôi chọn các bài viết như kỹ thuật trồng cà Kho ngữ liệu tiếng Việt sau khi tương tác với MVECCL phê, cao su, ca cao, . . . . qua tài liệu theo ngữ cảnh sẽ tạo nên kho ngữ liệu tiếng Việt được gán nhãn theo ngữ cảnh và tần suất xuất hiện của mỗi 3.2.2. Hoạt động của bộ công cụ MVECCL từ theo ngữ cảnh. Cũng với MVECCL, kho ngữ liệu 1 sẽ Tài liệu khi qua bộ công cụ được xử lý như sau: được bổ sung thêm các từ nếu trong kho ngữ liệu 1 chưa có và được gióng hàng các từ ÊĐê tương ứng. Cấu trúc kho Đầu tiên MVECCL tiến hành tách từ trên tài liệu đưa ngữ liệu đa ngữ Việt-ÊĐê được thể hiện ở Bảng 1. vào, phương pháp tách từ được áp dụng cho MVECCL là phương pháp so khớp cực đại (Maximum Matching) dựa Bảng 1: CấuTẠP CHÍngữ trúc kho KHOA HỌC VÀ CÔNG NGH liệu Việt-ÊĐê vào kho ngữ liệu 1. Chúng tôi chọn phương pháp này là vì đã kế thừa được kho ngữ liệu tiếng Việt đã được tách từ. Trong quá trình tách từ MVECCL cũng đã thực hiện gán nhãn lĩnh vực cho từ tách được theo ngữ cảnh của tài liệu được chọn, và cũng gán tần suất xuất hiện của từ đó theo lĩnh vực. Với phương pháp gán nhãn theo ngữ cảnh và tần suất xuất hiện vào kho ngữ liệu 1 giúp người sử dụng chọn lựa từ thích hợp khi thực hiện việc gióng hàng. Tiếp theo là công việc gióng hàng theo từ (từ tiếng Việt được gán nhán sẽ được gióng hàng với từ tiếng ÊĐê). Công việc này được thực hiện bán thủ công, với MVECCL người sử dụng có thể chọn để gióng hàng tự động từ ÊĐê với các từ tiếng Việt có trong kho ngữ liệu 2. Việc cập nhật gióng hàng tự động này cũng phải có sự can thiệp người sử dụng để chọn ra từ tiếng ÊĐê gióng hàng thích hợp. Công việc này cũng góp phần giải quyết vấn đề đa nghĩa giữa từ tiếng Việt và tiếng ÊĐê. Còn với các từ tiếng Việt không có trong kho ngữ liệu 2, người sử dụng phải tiến hành cập nhật thủ công dựa vào sách từ điển Việt-ÊĐê [1][7][8]. Để xử lý nhập nhằng, chúng tôi đã chọn giải pháp tách từ với các tài liệu trong ngữ cảnh hạn chế đó là các tài liệu KếtKết 3.3.3.3. quả thử quả thửnghiệm nghiệm thuộc về một lĩnh vực chuyên ngành cụ thể, với các câu từ đơn giản, ít nhập nhằng, không có tính trừu tượng. Ví dụ Với những kếtkết Với những quảquả bướcbước đầu, đầu, từ khotừngữkholiệu ngữđơnliệu ngữđơn như các tài liệu kỹ thuật trồng của các loại cây, phương pháp tiếng Việt gồm 31248 từ có nghĩa, chúng tôi đã xây dựngxây ngữ tiếng Việt gồm 31248 từ có nghĩa, chúng tôi đã chăn nuôi gia súc, gia cầm, thông báo cảnh báo cháy rừng, dựngbộ bộ côngcông cụ MVECCL cụ MVECCL để ngữ để tạo kho tạo liệu khođangữngữ liệu đa ngữ Việt-ÊĐê Việt-ÊĐê . . . . Đây là các loại tài liệu tương đối đặc biệt. Nó tuân theo được gán được nhãngán lĩnhđược nhãn vực, tần lĩnh suất xuấtvực, hiệntần và suất gióngxuất hànghiện và gióng hàng từ ÊĐê tương ứng với lĩnh vực vào kho 40 ngữ liệu 1. Bảng 2 trình bày kết quả thực hiện tách từ trên
  4. ngữ tiếng Việt gồm 31248 từ có nghĩa, chúng tôi đã xây liệu. dựng bộ công cụ MVECCL để tạo kho ngữ liệu đa ngữ Giải pháp xây dựng Hoàng Thị Mỹ Lệ, Phan Huy Khánh kho ngữ liệu đa ngữ Việt-ÊĐê Việt-ÊĐê được gán được nhãn lĩnh vực, tần suất xuất hiện gán áp nhãn theo từ ÊĐê và gióngtương hàngứng với lĩnh từ ÊĐê vựcứng tương vào với kho lĩnh ngữ vựcliệu vào 1. Bảng kho được dụng cácngữ cảnhpháp phương mang họctính máythựctiêntiễn, vì giảiViệc tiến nhất. pháp này đã góp phần tạo nên kho ngữ liệu đa ngữ Việt-ÊĐê ngữ liệu 1. Bảng 2 trình bày kết quả thực hiện tách từ ngữ 2 trình bày kết quả thực hiện tách từ trên tài liệu theo trên khử nhập nhằng và từ đa ngữ cũng là bài toán không thể với phông cảnh tài tương liệu theotácngữ vàocảnh kho ngữ liệutác tương 1 đểvào thực hiện kho ngữgánliệu nhãn 1 và để không kể đến chữtrongUnicode dịch máy.mà Vớicác giảinghiên pháp đượccứuđặttrước ra, bàiđây tần suất xuất hiện qua MVECCL. chưa thực hiện. Giải pháp này báo đã thực hiện và đạt được một số kết quả: cũng đã góp một phần vào thực hiện gán nhãn và tần suất xuất hiện qua MVECCL. bài toán xử lý nhập nhằng và từ đa nghĩa trong kho ngữ Bảng Bảng 2. 2:Thống Thống kê kê số số từ từ được tách theo theo ngữ ngữ cảnh cảnhtừ từMVECCL MVECCL 1. Tương tác với kho ngữ liệu đơn ngữ tiếng Việt để liệu đa ngữ. tạo kho ngữ liệu đa ngữ Việt-ÊĐê với phông chữ Đây chỉ là những kết quả nghiên cứu bước đầu, Unicode. chúng tôi 2. Gán nhãnsẽ tiếp tụcngữ theo nghiên cảnh cứu và tầnvàsuất phátxuất triểnhiện theovới hướng: mỗi Chia sẽ MVECCL trên từ trong kho ngữ liệu đa ngữ Việt-ÊĐê.mạng, để các chuyên gia về ngôn 3. BổngữsungÊĐê vàocókho thể ngữ kiểmliệutra,tiếng đánhViệt giá các và cập nhậtcócác từ chưa từ ÊĐê góptrong phần nângkho ngữcao liệu chất đa lượngngữcủa Việt-ÊĐê kho ngữtạoliệu.kho ngữ liệu Việt-ÊĐê Giải pháp xâycódựng chấtkho lượngngữcao.liệu đa ngữ Việt-ÊĐê gán nhãn theoPhát MVECCL triển mang ngữ cảnh tính thực cho cácvì giải tiễn, ngônphápngữnàyDTTSđã khác. góp phần tạo nên kho ngữ liệu đa ngữ Việt-ÊĐê với phông chữ UnicodeQua mà bài các báonghiên cứu trước này, chúng đây chưa tôi muốn gửithực gắmhiện. thông điệppháp Giải đếnnàycáccũngchuyên gia một đã góp ngôn phầnngữvàoDTTS góp xử bài toán phần chung lý nhập tay hoàn nhằng và từthiện kho ngữ đa nghĩa trongliệu khođangữ ngữliệutiếng Việt. đa ngữ. Đây chỉ là những kết quả nghiên cứu bước đầu, chúng tôi sẽ tiếp tục nghiênTÀI cứu LIỆU và phátTHAMtriển theo KHẢO: hướng: ĐoànsẽVăn 1. Chia [1] Phúc, Ngữ MVECCL trênâmmạng, tiếng đểÊĐê,cácNxb Khoagia chuyên họcvềXã hội, TP. ngữHồ ChícóMinh, 1997. tra, đánh giá và cập nhật VớiVới khokho ngữngữliệuliệu khi khi được được gángán nhãnnhãn theotheo ngữngữ cảnhcảnh và ngôn ÊĐê thể kiểm [2] cácHồ từQuốc ÊĐêBảo,trongĐinh kho Điền, Đặng đa Bác ngữ Văn, Lương tạoVỹ tần suất xuất hiện của từ, MVECCL thực hiện gióng gióng và tần suất xuất hiện của từ, MVECCL thực hiện hàng ngữ liệu Việt-ÊĐê hàng từ ÊĐêtừ với ÊĐê sựvới kết sự hợpkếtcủa hợp của sử người người sử dụng. dụng. Minh kho ngữBáo liệu cáo kỹ thuật Việt-ÊĐê có chấtđề lượng tài nhánh cao. SP.74, 2008, http://www.jaist.ac.jp/~bao/VLSPtext- 2. Phát triển MVECCL cho các ngôn ngữ DTTS khác. Hình Hình 2 là2 giao là giao diệndiện của của bộ công bộ công cụ kho cụ tạo tạo ngữ kho liệu ngữ /March2008/SP7.4_Baocaokythuat2008thang3.pdf liệu Việt-ÊĐê gán nhãn theo Việt-ÊĐê gán nhãn theo ngữ cảnh. ngữ cảnh. Qua bài báo này, chúng tôi muốn gửi gắm thông điệp [3] Hồ Tú Bảo, Lương Chi Mai, Xử lý tiếng Việt trong công đến cácnghệchuyên gia ngôn ngữ DTTS thông góp phần chung taytin, hoàn thiện kho ngữ liệu đa ngữ tiếng Việt. http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%2 0-%20Final.pdf [4] Lưu Tuấn Tài liệu tham Anh, khảo Natural Language Vietnamese Processing, 2012, http://viet.jnlp.org/dongdu [1] Đoàn Văn Phúc, Ngữ âm tiếng ÊĐê, Nxb Khoa học Xã hội, TP. Hồ [5]Chí Vũ Minh, Xuân 1997.Lương, Xây dựng kho ngữ liệu áp dụng cho [2] Hồ phân Quốc tích, xử líĐiền, Bảo, Đinh ngônĐặngngữBácvàVăn,biênLương soạnVỹ từ Minh,điển,Báo cáo kỹ thuật đề tài nhánh SP.74, 2008, http://www.vietlex.com/xu-li-ngon-ngu/123- http://www.jaist.ac.jp/ bao/VLSPtext-/March2008/SP7.4_Baocaoky Xay_dung_kho_ngu_lieu_ap_dung_cho_phan_tich,_xu_li thuat2008thang3.pdf _ngon_ngu_va_bien_soan_tu_dien#_ftn4 Hình 2. Giao diện bộ công cụ MVECCL [3] Hồ Tú Bảo, Lương Chi Mai, Xử lý tiếng Việt trong công nghệ thông Thư viện giáo bao/Writings/VLSPwhitepaper [6]tin, http://www.jaist.ac.jp/ án điện tử, Tự điển ÊĐê-Việt Hình 2: Giao diện bộ công cụ MVECCL 4. Kết luận [4] Lưuhttp://giaoan.violet.vn/present/show?entry_id=9339030 Tuấn Anh, Vietnamese Natural Language Processing, 2012, 4. Kết luận Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự [7]http://viet.jnlp.org/dongdu [5] Vũ Xuân Lương, Xây dựng kho ngữ liệu áp dụng Kho4 ngữ liệu đa ngữ là nguồn tài nguyên rất cần thiết cho phân tích, xử lí ngôn ngữ và biên soạn từ điển, trong lĩnh vực xử lý tự nhiên. Các kho ngữ liệu đa ngữ có http://www.vietlex.com/xu-li-ngon-ngu/123-Xay_dung_kho_ngu_ lieu_ap_dung_cho_phan_tich,_xu_li_ ngon_ngu_va_bien_soan_tu_ thể được sử dụng cho nhiều bài toán khác như: tìm kiếm dien#_ftn4 thông tin xuyên ngữ, dịch máy, . . . . Kết quả của các bài toán [6] Thư viện giáo án điện tử, Tự điển ÊĐê-Việt http://giaoan.violet này đều phụ thuộc rất nhiều vào độ lớn và chất lượng của .vn/present/show?entry_id=9339030 [7] Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự điển Việt-ÊĐê kho ngữ liệu đa ngữ được sử dụng. Chất lượng của máy dịch (tập 1), Nhà xuất bản Giáo dục, 1993. tự động sẽ không cho kết quả tốt nếu kho ngữ liệu sử dụng [8] Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự điển Việt-ÊĐê trong quá trình huấn luyện có chất lượng không tốt cho dù (tập 2), Nhà xuất bản Giáo dục, 1993. (BBT nhận bài: 13/01/2014, phản biện xong: 30/01/2014) 41
nguon tai.lieu . vn