Xem mẫu
- TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II
GIẢI PHÁP XÂY DỰNG KHO NGỮ LIỆU ĐA NGỮ VIỆT - Ê ĐÊ
GÁN NHÃN THEO NGỮ CẢNH
SOLUTIONS TO BUILDING THE VIET - EDE
MUTILINGUAL CORPUS WITH THE CONTEXTUAL LABEL
Hoàng Thị Mỹ Lệ1 , Phan Huy Khánh2
1
Trường Cao đẳng Công nghệ, Đại học Đà Nẵng; Email: kquynhdn@yahoo.com
2
Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: khanhph29@gmail.com
Tóm tắt – Trong lĩnh vực xử lý ngôn ngữ tự nhiên (XLNNTN), kho Abstract – In the natural language processing (NLP), the
ngữ liệu đa ngữ là một tài nguyên rất cần thiết. Chất lượng của kho multilingual corpus is a necessary resource. The quality of
ngữ liệu đa ngữ đóng vai trò quyết định đến chất lượng đầu ra của multilingual corpus plays a decisive role in the output quality of the
hệ dịch. Hệ dịch sẽ không cho kết quả tốt nếu kho ngữ liệu đa ngữ translational system. The translational system will not produce a
sử dụng trong quá trình huấn luyện có chất lượng không tốt cho good output, if the the quality of multilingual corpus in the training
dù được áp dụng các phương pháp học máy tiên tiến nhất. Hiện process is not good, though the most advanced machine learning
nay chưa có một kho ngữ liệu song ngữ Việt-ÊĐê với phông chữ methods are applied. Currently, there is no Vietnamese-EDe
Unicode nào đã được công bố chính thức và cho phép cộng đồng multilingual corpus using Unicode fonts, which has been officially
nghiên cứu có thể chia sẽ sử dụng để nghiên cứu. Từ đó, bài báo announced and allows the research community to share and use
đề xuất giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê với phông for research purposes. For this reason, the propose of this paper
chữ Unicode có xử lý nhập nhằng và từ đa ngữ nghĩa, bằng cách is to develop a solution to building a Vietnamese-EDe multilingual
gán nhãn theo từng ngữ cảnh thuộc lĩnh vực giáo dục như giáo dục corpus using the Unicode font which can process the ambiguity and
về chăn nuôi, trồng trọt, bảo vệ rừng, chăm sóc sức khoẻ,... cho các multi - meaning words by labeling each word with the context in the
đồng bào các dân tộc thiểu số Việt Nam. educational field such as education in animal husbandry, cultivation,
forest preservation, health care, etc. ... for the ethnic minorities (EM)
in Vietnam.
Từ khóa – Kho ngữ liệu đa ngữ; dân tộc thiểu số; ÊĐê; unicode; Key words – multilingual corpus; the ethnic minorities; Ede;
tách từ. unicode; word segmentation.
1. Đặt vấn đề học máy tiên tiến nhất. Bên cạnh đó việc khử nhập nhằng
là bài toán không thể không kể đến trong dịch máy. Cho
Trong số 55 dân tộc Việt Nam có 26 dân tộc đã có đến nay vẫn chưa có một kho ngữ liệu đa ngữ Việt-ÊĐê với
chữ viết. Một điều dễ nhận thấy, cùng với tiếng phổ thông phông chữ Unicode nào đã được công bố chính thức và cho
(tiếng Việt), tiếng dân tộc thiểu số (DTTS) cũng đang chứng phép cộng đồng nghiên cứu có thể chia sẻ sử dụng cho các
tỏ vai trò của mình trong các lĩnh vực hoạt động tại các vùng mục tiêu nghiên cứu.
đồng bào DTTS, nhất là trong việc gìn giữ và phát triển văn
hoá dân tộc, xây dựng cuộc sống mới. Đảng và Nhà nước Xuất phát từ các vấn đề đã nêu, bài báo đề xuất giải pháp
đã đưa ra rất nhiều chủ chương chính sách nhằm bảo tồn và phát triển công cụ xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê
phát huy văn hóa dân tộc thiểu số. với phông chữ Unicode có xử lý nhập nhằng và từ đa ngữ
nghĩa, bằng giải pháp gán nhãn theo ngữ cảnh thuộc lĩnh vực
Hiện nay, Đài Tiếng nói Việt Nam và hầu hết các Đài giáo dục như giáo dục về chăn nuôi, trồng trọt, bảo vệ rừng,
Phát thanh và Truyền hình (PT&TH) địa phương trong nước chăm sóc sức khoẻ, . . . cho các đồng bào DTTS Việt Nam.
đều có các chương trình PT&TH bằng tiếng dân tộc, như
Đài PT&TH tiếng ÊĐê tại các tỉnh Đăk Lăk. Những nội 2. Kho ngữ liệu
dung PT&TH hiện nay nhằm giúp đồng bào dân tộc có thêm
2.1. Giới thiệu kho ngữ liệu
vốn hiểu biết, kinh nghiệm về phát triển kinh tế, chăn nuôi,
trồng trọt, bảo vệ rừng, khoáng sản, chăm sóc sức khoẻ, bảo Việc xây dựng ngân hàng dữ liệu để chứa hình ảnh, âm
tồn và phát huy các giá trị văn hoá của mình, giữ vững an thanh, tiếng nói, văn bản, số liệu, bảng biểu, lược đồ, . . . đã
ninh biên giới, nắm bắt được tình hình khí hậu, thời tiết, thổ có từ lâu, và được gọi chung là cơ sở dữ liệu. Với dữ liệu là
nhưỡng, .... Tuy nhiên, việc đào tạo cán bộ, nhân viên, nhất chất liệu ngôn ngữ thì thường được tổ chức thành một loại
là trong lĩnh vực PT&TH, am hiểu được văn hóa và tiếng riêng, gọi là kho ngữ liệu (corpus) hay kho văn bản. Một tập
DTTS nói chung và tiếng ÊĐê nói riêng, đang gặp rất nhiều hợp gồm nhiều kho ngữ liệu gọi là Corpora. Các kho dữ liệu
khó khăn. Quy trình sản xuất một chương trình phát thanh được nhiều nhà nghiên cứu biết đến là kho ngữ liệu quốc tế
từ tiếng Việt sang tiếng ÊĐê vẫn còn thủ công, tốn nhiều Anh quốc (ICE: International Corpus of English), kho ngữ
thời gian và công sức. Vì vậy cần có sự hỗ trợ của lĩnh vực liệu quốc gia Anh quốc (BNC: British National Corpus),
Công nghệ Thông tin trong công việc dịch tự động các văn kho ngữ liệu quốc gia Hoa Kỳ (ANC: American National
bản từ tiếng Việt sang tiếng ÊĐê. Corpus), v.v.... Đến tháng 7 năm 2012 Sketch Engine có
Trong xử lý ngôn ngữ tự nhiên, chúng ta thấy rằng chất hơn 130 kho ngữ liệu trong đó có kho ngữ liệu BNC, và đặc
lượng của máy dịch tự động sẽ không cho kết quả tốt nếu biệt là kho ngữ liệu tiếng Việt (VietnameseWaC) [5].
kho ngữ liệu sử dụng trong quá trình huấn luyện có chất Kho ngữ liệu với một thứ tiếng đơn lẻ gọi là kho ngữ
lượng không tốt cho dù được áp dụng các phương pháp liệu đơn ngữ, hoặc với nhiều thứ tiếng gọi là kho ngữ liệu
38
- Hoàng Thị Mỹ Lệ, Phan Huy Khánh
đa ngữ. Các kho ngữ liệu đa ngữ được định dạng đặc thù 2.3. Các kho ngữ liệu song ngữ tiếng Việt-tiếng DTTS
để có thể so sánh cạnh nhau được gọi là kho ngữ liệu song hiện nay
song có gióng hàng. Để kho ngữ liệu trở nên hữu ích cho
- Bộ từ điển điện tử Việt-ÊĐê do Cơ quan thường trú
việc nghiên cứu ngôn ngữ, đặc biệt là trong việc biên soạn
Đài Tiếng nói Việt Nam khu vực Tây Nguyên thực hiện
từ điển, các văn bản thường được làm giàu thêm bằng việc
năm 2007.
chú giải các thông tin tri thức. Chẳng hạn, các từ trong cụm
từ sẽ được chú giải thông tin về từ loại gọi là gắn nhãn từ - Từ điển điện tử phương ngữ Gia Rai-Việt là đề tài khoa
loại. Các cụm từ trong câu sẽ được phân tách và gắn nhãn học của sở Thông tin-Truyền thông tỉnh Gia Lai.
gọi là phân đoạn cụm từ. Với các ngôn ngữ đơn lập như tiếng - Từ điển điện tử Mnông-Việt và Mơnông-Việt của sở
Việt, do ranh giới của từ không được xác định rõ ràng bằng khoa học và công nghệ Đăk Nông.
hình thức, nên ngữ liệu thường phải trải qua quá trình xác - Kho ngữ vựng song ngữ Việt-Cơ Tu và Cơ Tu-Việt của
định đơn vị từ và gắn nhãn khu biệt gọi là phân đoạn từ [5]. ThS.Nguyễn Trọng Tùng.
Một số kho ngữ liệu có cấp độ cấu trúc sâu hơn để cho - Kho ngữ vựng từ vựng đa ngữ Việt-Anh-ÊĐê của ThS.
sự phân tích được hiệu lực. Đặc biệt, kho ngữ liệu có thể Nguyễn Thị Tuyết.
được phân tích ngữ pháp và gán nhãn cú pháp đầy đủ. Kho - Kho ngữ vựng song ngữ Việt-Mường của ThS. Huỳnh
ngữ liệu như vậy được gọi là Treebank, nó thường có dung Nguyễn Ái Nhân.
lượng nhỏ chứa khoảng 1 đến 3 triệu từ, do công việc phân
- Từ điển Hrê-Việt và Việt-Hrê của ThS. Võ Đình Tá.
tích ngữ pháp và gắn nhãn cú pháp chủ yếu làm bằng tay,
đòi hỏi độ chính xác cao nên mất rất nhiều công sức cũng - Kho ngữ vựng song ngữ Việt-ÊĐê của ThS. Phan Thị
như kinh phí. Các cấp độ khác của ngôn ngữ được chú giải Thu Nhân.
có thể bao gồm cả hình thái, ngữ nghĩa và ngữ dụng. Nhìn chung cho đến nay việc xây dựng kho ngữ liệu
tiếng DTTS chỉ dừng lại ở một số kết quả nghiên cứu của
2.2. Xây dựng kho ngữ liệu song song một số trường Đại học, đó là những đề tài tốt nghiệp Đại
Xây dựng kho dữ liệu song ngữ song song gồm hai bước học, Thạc sĩ, mang tính chất tìm hiểu, chưa hệ thống và
cơ bản là: xây dựng nguồn tài liệu song song và gióng hàng định hướng rõ ràng. Với tiếng ÊĐê, nguồn ngữ liệu hiện có
các tài liệu song song [2][3]. ở dạng từ điển Việt-ÊĐê trên giấy viết, từ điển ÊĐê-Việt
ở dạng tập tin văn bản. Với tiếng các DTTS có các kí tự
Xây dựng nguồn tài liệu song song
không có trong tiếng Việt, các tác giả không dùng chung
Chọn nguồn tài liệu phù hợp với lĩnh vực xác định trước phông chữ Unicode có hỗ trợ tiếng Việt mà hầu hết đều xây
hoặc bao phủ nhiều lĩnh vực khác nhau. dựng bộ phông chữ và bộ gõ riêng để sử dụng.
Nhập vào máy tính từ các tài liệu trên giấy hoặc mua các
3. Giải pháp phát triển công cụ xây dựng kho ngữ liệu
kho ngữ liệu song ngữ điện tử như sách song ngữ, báo chí
song ngữ, . . . . Thu thập dữ liệu song ngữ từ Internet. đa ngữ Việt-ÊĐê
Hiện nay nguồn tài liệu song ngữ Việt-ÊĐê chủ yếu chỉ 3.1. Tiêu chí xây dựng kho ngữ liệu song ngữ Việt-Êđê
có ở từ điển Việt-ÊĐê trên giấy, tài liệu điện tử của các
Kho ngữ liệu song ngữ song song Việt-ÊĐê được chúng
bài giảng tiếng ÊĐê và tự điển ÊĐê-Việt trong tập tin .PDF
tôi xây dựng theo các tiêu chí sau:
được tải lên mạng phục vụ cho việc học tiếng ÊĐê.
- Lĩnh vực của kho ngữ liệu liên quan đến lĩnh vực giáo
Gióng hàng các tài liệu song song dục về trồng trọt, chăn nuôi, bảo vệ rừng, y tế, . . . để phổ
Các tài liệu song ngữ trong kho ngữ liệu song ngữ có biến những kiến thức cần thiết trong cuộc sống thực tế hằng
thể ở các mức như sau: ngày cho đồng bào các DTTS.
- Mức tài liệu: Các tài liệu trong kho ngữ liệu được - Các từ trong kho ngữ liệu là có nghĩa và biểu diễn được
gióng hàng đôi một, tài liệu này là bản dịch của tài liệu kia. trong các tài liệu khoa học.
- Mức đoạn: Các đoạn trong hai tài liệu của hai ngôn - Tài liệu xây dựng kho ngữ liệu chúng tôi truy cập trên
ngữ sẽ được gióng hàng, đoạn này sẽ là bản dịch của mạng và chọn những tài liệu liên quan đến lĩnh vực giáo dục
đoạn kia. trong cuộc sống thực tế hằng ngày cho đồng bào các DTTS
trong khoảng thời gian gần đây nhất.
- Mức câu: Các tài liệu song ngữ được gióng hàng ở
mức câu. - Kho ngữ liệu song ngữ Việt-ÊĐê chúng tôi thực hiện
gióng hàng theo mức các từ hay các cụm từ có nghĩa của
- Mức ngữ: Các ngữ trong cặp câu sẽ được gióng hàng
tiếng Việt được chọn ra theo lĩnh vực và gióng hàng theo
từng đôi một.
mức các từ hay cụm từ của tiếng ÊĐê, có gán nhãn theo lĩnh
- Mức từ hay cụm từ: Các từ hay cụm từ trong câu sẽ vực của từ hay cụm từ được dùng.
được gióng hàng từng đôi một. - Trong kho ngữ liệu này chúng tôi có gán nhãn theo
Trong bài báo này chúng tôi xây dựng kho ngữ liệu đa ngữ cảnh và tần suất xuất hiện của từ có nghĩa trong các tài
ngữ Việt-ÊĐê với mức các từ có nghĩa của tiếng Việt được liệu liên quan đến từng lĩnh vực. Qua đó, việc gióng hàng
gióng hàng theo các từ của tiếng ÊĐê và có gán nhãn theo từ tiếng Việt với tiếng ÊĐê sẽ chú trọng vào lĩnh vực và tần
lĩnh vực. suất xuất hiện của từ đó trong tài liệu.
39
- TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 1(74).2014.QUYỂN II
- Kho ngữ liệu song ngữ Việt-ÊĐê được lưu trữ trong một khuôn mẫu nhất định, nội dung thuộc về lĩnh vực, ngôn
máy tính với phông chữ Unicode có hỗ trợ tiếng Việt. từ cụ thể, rõ ràng, ít nhập nhằng.
Đây là vấn đề mà các kho ngữ liệu tiếng DTTS trước Để góp phần nâng cao chất lượng kho ngữ liệu 1, chúng
đây chưa được đề cập đến. tôi chọn giải pháp trong khi tách từ MVECCL lọc ra các từ
không có trong kho ngữ liệu 1 và cho phép người sử dụng
3.2. Xây dựng kho ngữ liệu Việt-ÊĐê với bộ công cụ
lựa chọn để cập nhật vào kho ngữ liệu 1.
MVECCL
Giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê gán
Trên cơ sở kho ngữ liệu tiếng Việt đã được tách từ được nhãn theo ngữ cảnh được thể hiện qua Hình 1.
chia sẻ trên mạng [4], với bộ công cụ MVECCL (Make
Viet-Ede Corpus Context Label) sẽ tạo ra kho ngữ liệu
Việt-ÊĐê theo các tiêu chí đã được đặt ra.
3.2.1. Chuẩn bị dữ liệu cho MVECCL
Kho ngữ liệu tiếng Việt đã được tách từ [4] ở dạng tập
tin văn bản, chúng tôi chuyển thành kho ngữ liệu dưới dạng
bảng (đặt tên là kho ngữ liệu 1).
Kho ngữ liệu ÊĐê-Việt ở dạng tập tin văn bản được chia
sẽ trên mạng với mục đích dùng để học tiếng ÊĐê [6], cũng
được chuyển thành kho ngữ liệu dưới dạng bảng (đặt tên là
kho ngữ liệu 2).
Những tài liệu liên quan đến lĩnh vực giáo dục trong Hình 1: Hoạt động của MVECCL
cuộc sống thực tế hằng ngày cho đồng bào các DTTS. Ví dụ 3.2.3. Kho ngữ liệu Việt-ÊĐê từ MVECCL
như những tài liệu liên quan đến giáo dục về trồng trọt trên
Internet, chúng tôi chọn các bài viết như kỹ thuật trồng cà Kho ngữ liệu tiếng Việt sau khi tương tác với MVECCL
phê, cao su, ca cao, . . . . qua tài liệu theo ngữ cảnh sẽ tạo nên kho ngữ liệu tiếng Việt
được gán nhãn theo ngữ cảnh và tần suất xuất hiện của mỗi
3.2.2. Hoạt động của bộ công cụ MVECCL từ theo ngữ cảnh. Cũng với MVECCL, kho ngữ liệu 1 sẽ
Tài liệu khi qua bộ công cụ được xử lý như sau: được bổ sung thêm các từ nếu trong kho ngữ liệu 1 chưa
có và được gióng hàng các từ ÊĐê tương ứng. Cấu trúc kho
Đầu tiên MVECCL tiến hành tách từ trên tài liệu đưa
ngữ liệu đa ngữ Việt-ÊĐê được thể hiện ở Bảng 1.
vào, phương pháp tách từ được áp dụng cho MVECCL là
phương pháp so khớp cực đại (Maximum Matching) dựa Bảng 1: CấuTẠP CHÍngữ
trúc kho KHOA HỌC VÀ CÔNG NGH
liệu Việt-ÊĐê
vào kho ngữ liệu 1. Chúng tôi chọn phương pháp này là vì
đã kế thừa được kho ngữ liệu tiếng Việt đã được tách từ.
Trong quá trình tách từ MVECCL cũng đã thực hiện gán
nhãn lĩnh vực cho từ tách được theo ngữ cảnh của tài liệu
được chọn, và cũng gán tần suất xuất hiện của từ đó theo
lĩnh vực. Với phương pháp gán nhãn theo ngữ cảnh và tần
suất xuất hiện vào kho ngữ liệu 1 giúp người sử dụng chọn
lựa từ thích hợp khi thực hiện việc gióng hàng.
Tiếp theo là công việc gióng hàng theo từ (từ tiếng Việt
được gán nhán sẽ được gióng hàng với từ tiếng ÊĐê). Công
việc này được thực hiện bán thủ công, với MVECCL người
sử dụng có thể chọn để gióng hàng tự động từ ÊĐê với các
từ tiếng Việt có trong kho ngữ liệu 2. Việc cập nhật gióng
hàng tự động này cũng phải có sự can thiệp người sử dụng
để chọn ra từ tiếng ÊĐê gióng hàng thích hợp. Công việc
này cũng góp phần giải quyết vấn đề đa nghĩa giữa từ tiếng
Việt và tiếng ÊĐê. Còn với các từ tiếng Việt không có trong
kho ngữ liệu 2, người sử dụng phải tiến hành cập nhật thủ
công dựa vào sách từ điển Việt-ÊĐê [1][7][8].
Để xử lý nhập nhằng, chúng tôi đã chọn giải pháp tách
từ với các tài liệu trong ngữ cảnh hạn chế đó là các tài liệu KếtKết
3.3.3.3. quả thử
quả thửnghiệm
nghiệm
thuộc về một lĩnh vực chuyên ngành cụ thể, với các câu
từ đơn giản, ít nhập nhằng, không có tính trừu tượng. Ví dụ Với những kếtkết
Với những quảquả
bướcbước
đầu, đầu,
từ khotừngữkholiệu
ngữđơnliệu
ngữđơn
như các tài liệu kỹ thuật trồng của các loại cây, phương pháp tiếng Việt gồm 31248 từ có nghĩa, chúng tôi đã xây dựngxây
ngữ tiếng Việt gồm 31248 từ có nghĩa, chúng tôi đã
chăn nuôi gia súc, gia cầm, thông báo cảnh báo cháy rừng, dựngbộ bộ
côngcông cụ MVECCL
cụ MVECCL để ngữ
để tạo kho tạo liệu
khođangữngữ liệu đa ngữ
Việt-ÊĐê
Việt-ÊĐê
. . . . Đây là các loại tài liệu tương đối đặc biệt. Nó tuân theo được gán được
nhãngán
lĩnhđược nhãn
vực, tần lĩnh
suất xuấtvực,
hiệntần
và suất
gióngxuất
hànghiện
và gióng hàng từ ÊĐê tương ứng với lĩnh vực vào kho
40
ngữ liệu 1. Bảng 2 trình bày kết quả thực hiện tách từ trên
- ngữ tiếng Việt gồm 31248 từ có nghĩa, chúng tôi đã xây liệu.
dựng bộ công cụ MVECCL để tạo kho ngữ liệu đa ngữ Giải pháp xây dựng Hoàng Thị Mỹ Lệ, Phan Huy Khánh
kho ngữ liệu đa ngữ Việt-ÊĐê
Việt-ÊĐê được gán được nhãn lĩnh vực, tần suất xuất hiện gán áp
nhãn theo
từ ÊĐê
và gióngtương
hàngứng với lĩnh
từ ÊĐê vựcứng
tương vào với
kho lĩnh
ngữ vựcliệu vào
1. Bảng
kho được dụng cácngữ cảnhpháp
phương mang họctính
máythựctiêntiễn, vì giảiViệc
tiến nhất. pháp
này đã góp phần tạo nên kho ngữ liệu đa ngữ Việt-ÊĐê
ngữ liệu 1. Bảng 2 trình bày kết quả thực hiện tách từ ngữ
2 trình bày kết quả thực hiện tách từ trên tài liệu theo trên khử nhập nhằng và từ đa ngữ cũng là bài toán không thể
với phông
cảnh
tài tương
liệu theotácngữ
vàocảnh
kho ngữ liệutác
tương 1 đểvào
thực hiện
kho ngữgánliệu
nhãn
1 và
để không kể đến chữtrongUnicode
dịch máy.mà Vớicác giảinghiên
pháp đượccứuđặttrước
ra, bàiđây
tần suất xuất hiện qua MVECCL. chưa thực hiện. Giải pháp này
báo đã thực hiện và đạt được một số kết quả: cũng đã góp một phần vào
thực hiện gán nhãn và tần suất xuất hiện qua MVECCL. bài toán xử lý nhập nhằng và từ đa nghĩa trong kho ngữ
Bảng
Bảng 2.
2:Thống
Thống kê
kê số
số từ
từ được tách theo
theo ngữ
ngữ cảnh
cảnhtừ
từMVECCL
MVECCL 1. Tương tác với kho ngữ liệu đơn ngữ tiếng Việt để
liệu đa ngữ.
tạo kho ngữ liệu đa ngữ Việt-ÊĐê với phông chữ
Đây chỉ là những kết quả nghiên cứu bước đầu,
Unicode.
chúng tôi
2. Gán nhãnsẽ tiếp tụcngữ
theo nghiên
cảnh cứu
và tầnvàsuất
phátxuất
triểnhiện
theovới
hướng:
mỗi
Chia sẽ MVECCL trên
từ trong kho ngữ liệu đa ngữ Việt-ÊĐê.mạng, để các chuyên gia về
ngôn
3. BổngữsungÊĐê vàocókho
thể ngữ
kiểmliệutra,tiếng
đánhViệt giá các
và cập nhậtcócác
từ chưa
từ ÊĐê
góptrong
phần nângkho ngữcao liệu
chất đa
lượngngữcủa Việt-ÊĐê
kho ngữtạoliệu.kho ngữ
liệu Việt-ÊĐê
Giải pháp xâycódựng chấtkho
lượngngữcao.liệu đa ngữ Việt-ÊĐê gán
nhãn theoPhát MVECCL
triển mang
ngữ cảnh tính thực cho cácvì giải
tiễn, ngônphápngữnàyDTTSđã
khác.
góp phần tạo nên kho ngữ liệu đa ngữ Việt-ÊĐê với phông
chữ UnicodeQua mà bài các
báonghiên cứu trước
này, chúng đây chưa
tôi muốn gửithực
gắmhiện.
thông
điệppháp
Giải đếnnàycáccũngchuyên gia một
đã góp ngôn phầnngữvàoDTTS góp xử
bài toán phần chung
lý nhập
tay hoàn
nhằng và từthiện kho ngữ
đa nghĩa trongliệu
khođangữ ngữliệutiếng Việt.
đa ngữ.
Đây chỉ là những kết quả nghiên cứu bước đầu, chúng
tôi sẽ tiếp tục nghiênTÀI cứu LIỆU
và phátTHAMtriển theo KHẢO:
hướng:
ĐoànsẽVăn
1. Chia
[1] Phúc, Ngữ
MVECCL trênâmmạng,
tiếng đểÊĐê,cácNxb Khoagia
chuyên họcvềXã
hội, TP.
ngữHồ ChícóMinh, 1997. tra, đánh giá và cập nhật
VớiVới
khokho
ngữngữliệuliệu
khi khi được
được gángán
nhãnnhãn
theotheo
ngữngữ
cảnhcảnh
và ngôn ÊĐê thể kiểm
[2] cácHồ từQuốc
ÊĐêBảo,trongĐinh
kho Điền, Đặng đa Bác
ngữ Văn, Lương tạoVỹ
tần suất xuất hiện của từ, MVECCL thực hiện gióng gióng
và tần suất xuất hiện của từ, MVECCL thực hiện hàng ngữ liệu Việt-ÊĐê
hàng
từ ÊĐêtừ với
ÊĐê sựvới
kết sự
hợpkếtcủa
hợp của sử
người người sử dụng.
dụng.
Minh
kho ngữBáo liệu cáo kỹ thuật
Việt-ÊĐê có chấtđề lượng
tài nhánh
cao. SP.74, 2008,
http://www.jaist.ac.jp/~bao/VLSPtext-
2. Phát triển MVECCL cho các ngôn ngữ DTTS khác.
Hình
Hình 2 là2 giao
là giao
diệndiện
của của bộ công
bộ công cụ kho
cụ tạo tạo ngữ
kho liệu
ngữ /March2008/SP7.4_Baocaokythuat2008thang3.pdf
liệu Việt-ÊĐê gán nhãn theo
Việt-ÊĐê gán nhãn theo ngữ cảnh. ngữ cảnh. Qua bài báo này, chúng tôi muốn gửi gắm thông điệp
[3] Hồ Tú Bảo, Lương Chi Mai, Xử lý tiếng Việt trong công
đến cácnghệchuyên gia ngôn ngữ DTTS thông góp phần chung taytin,
hoàn thiện kho ngữ liệu đa ngữ tiếng Việt.
http://www.jaist.ac.jp/~bao/Writings/VLSPwhitepaper%2
0-%20Final.pdf
[4] Lưu Tuấn Tài liệu tham
Anh, khảo Natural Language
Vietnamese
Processing, 2012, http://viet.jnlp.org/dongdu
[1] Đoàn Văn Phúc, Ngữ âm tiếng ÊĐê, Nxb Khoa học Xã hội, TP. Hồ
[5]Chí Vũ
Minh, Xuân
1997.Lương, Xây dựng kho ngữ liệu áp dụng cho
[2] Hồ phân
Quốc tích, xử líĐiền,
Bảo, Đinh ngônĐặngngữBácvàVăn,biênLương
soạnVỹ từ
Minh,điển,Báo cáo kỹ thuật đề tài nhánh SP.74, 2008,
http://www.vietlex.com/xu-li-ngon-ngu/123-
http://www.jaist.ac.jp/ bao/VLSPtext-/March2008/SP7.4_Baocaoky
Xay_dung_kho_ngu_lieu_ap_dung_cho_phan_tich,_xu_li
thuat2008thang3.pdf
_ngon_ngu_va_bien_soan_tu_dien#_ftn4
Hình 2. Giao diện bộ công cụ MVECCL [3] Hồ Tú Bảo, Lương Chi Mai, Xử lý tiếng Việt trong công nghệ thông
Thư viện giáo bao/Writings/VLSPwhitepaper
[6]tin, http://www.jaist.ac.jp/ án điện tử, Tự điển ÊĐê-Việt
Hình 2: Giao diện bộ công cụ MVECCL
4. Kết luận [4] Lưuhttp://giaoan.violet.vn/present/show?entry_id=9339030
Tuấn Anh, Vietnamese Natural Language Processing, 2012,
4. Kết luận Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự
[7]http://viet.jnlp.org/dongdu
[5] Vũ Xuân Lương, Xây dựng kho ngữ liệu áp dụng
Kho4 ngữ liệu đa ngữ là nguồn tài nguyên rất cần thiết cho phân tích, xử lí ngôn ngữ và biên soạn từ điển,
trong lĩnh vực xử lý tự nhiên. Các kho ngữ liệu đa ngữ có http://www.vietlex.com/xu-li-ngon-ngu/123-Xay_dung_kho_ngu_
lieu_ap_dung_cho_phan_tich,_xu_li_ ngon_ngu_va_bien_soan_tu_
thể được sử dụng cho nhiều bài toán khác như: tìm kiếm dien#_ftn4
thông tin xuyên ngữ, dịch máy, . . . . Kết quả của các bài toán [6] Thư viện giáo án điện tử, Tự điển ÊĐê-Việt http://giaoan.violet
này đều phụ thuộc rất nhiều vào độ lớn và chất lượng của .vn/present/show?entry_id=9339030
[7] Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự điển Việt-ÊĐê
kho ngữ liệu đa ngữ được sử dụng. Chất lượng của máy dịch
(tập 1), Nhà xuất bản Giáo dục, 1993.
tự động sẽ không cho kết quả tốt nếu kho ngữ liệu sử dụng [8] Viện ngôn ngữ học - Sở giáo dục Đào tạo Dăk Lăk, Tự điển Việt-ÊĐê
trong quá trình huấn luyện có chất lượng không tốt cho dù (tập 2), Nhà xuất bản Giáo dục, 1993.
(BBT nhận bài: 13/01/2014, phản biện xong: 30/01/2014)
41
nguon tai.lieu . vn