Xem mẫu

  1. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Đánh giá bộ nhãn ngữ nghĩa LLOCE Hồ Xuân Vinh∗ , Nguyễn Thị Thanh Thảo† , Đinh Điền‡ ∗‡ Khoa Công nghệ thông tin - Đại Học Khoa Học Tự Nhiên TP. Hồ Chí Minh †Khoa Công nghệ thông tin - Cao Đẳng Kinh Tế Kỹ Thuật TP. Hồ Chí Minh Email: ∗ hovinh39@gmail.com, † nguyenthithanhthao@hotec.edu.vn, ‡ ddien@fit.hcmus.edu.vn Tóm tắt—Theo đà phát triển của các phương pháp dịch Nói đến các bộ nhãn ngữ nghĩa ta có thể liệt kê như máy, dịch máy thống kê dựa trên ngữ nghĩa (semantics- sau: based Statistical Machine Translation) được đánh giá là sẽ có triển vọng nhiều nhất. Tuy nhiên, phương pháp này • LLOCE (Longman Lexicon of Contemporary En- đòi hỏi bộ ngữ liệu song ngữ lớn mà có gán nhãn ngữ glish): từ điển về chủ đề, mỗi chủ đề được chia nghĩa (semantic-tag). Xây dựng bộ ngữ liệu như thế bằng thành nhiều nhóm, mỗi nhóm chứa nhiều lớp ngữ phương pháp thủ công sẽ tốn nhiều thời gian và công sức. nghĩa với từ thuộc lớp nghĩa đó. Tên của mỗi lớp Vì vậy, việc nghiên cứu xây dựng bộ ngữ liệu tự động cũng chính là nhãn ngữ nghĩa. Từ điển bao gồm đang được các nước quan tâm. Tuy nhiên đối với Tiếng Việt thì vấn đề này chưa được giải quyết. Trong bài báo, 14 chủ đề, 129 nhóm, 2.449 lớp ngữ nghĩa với hơn chúng tôi trình bày mô hình khảo sát tính hiệu quả của bộ 16.000 mục từ. nhãn ngữ nghĩa thuộc từ điển LLOCE (Longman Lexicon • LDOCE (Longman Dictionary of Contemporary Of Contemporary English) trong quá trình gán nhãn ngữ English): mỗi từ được phân loại dựa trên từ loại, mã nghĩa tự động cho ngữ liệu song ngữ Anh-Việt. cú pháp, mã ngữ nghĩa, mã chủ đề và mã phong Từ khóa—LLOCE, sense tag, semantic annotation, nhãn ngữ nghĩa... cách. Từ điển bao gồm 100 chủ đề, 19 mã ngữ nghĩa, 13 mã ngữ nghĩa phái sinh, 45.000 mục từ I. GIỚI THIỆU với hơn 65.000 nghĩa. • WordNet: hệ thống tri thức khổng lồ về ngữ nghĩa Xử lý ngôn ngữ tự nhiên(Natural Language trong Tiếng Anh với 117.000 ý niệm khác nhau. Processing-NLP) là lĩnh vực quan tâm đến tương tác Được xây dựng bởi đơn vị cơ bản là các tập từ người máy về mặt ngôn ngữ. Khởi động từ năm 1950 đồng nghĩa, nó chứa đựng cả những quan hệ ngôn với phép thử Turing và bài toán dịch máy, nhiều bài toán ngữ phức tạp tương tác đa chiều. mới đã được phát hiện và nghiên cứu. Độ khó cũng tỉ lệ thuận theo thời gian, nhiều vấn đề không có thuật toán Ngoại trừ những ngôn ngữ giàu tài nguyên như Tiếng tối ưu tồn tại, đơn giản vì ngôn ngữ luôn mang tính Anh (đơn cử là Wordnet [1], [2], [3], [4]), hầu hết các nhập nhằng và dường như không thể tìm được một bộ ngôn ngữ còn lại không có bộ nhãn ngữ nghĩa cho riêng luật tổng quát nào cho máy có thể tra cứu và thực hiện. mình. Những năm gần đây, nhiều nỗ lực từ phía ngôn Riêng đối với bài toán dịch máy, hướng tiếp cận được ngữ học lẫn tin học đã xây dựng những bộ nhãn riêng mô hình hóa theo dạng kim tự tháp từ thấp lên cao: dựa dựa trên WordNet như EuroWordNet [5] (khối Châu trên từ (word-based), dựa trên cụm từ (phrase-based), Âu), Japanese Wordnet [6](Nhật). . . Như liệt kê ở trên, dựa trên cú pháp (syntax-based) và dựa trên ngữ nghĩa ngoài Wordnet với bộ nhãn khá mịn (ngay cả con người (semantic-based). Người ta nhận thấy rằng, càng lên cao cũng khó phân biệt một số nhãn trong từ điển này) và thì độ chính xác càng tăng, tuy nhiên hiện nay phát triển có chi phí xây dựng cực kì mắc, có những bộ nhãn sôi động nhất chỉ mới ở tầng phrase-based. Sẽ cực kì tiềm năng khác có thể phục vụ cho mục đích gán nhãn. hiệu quả nếu chúng ta nằm ở đỉnh trên cùng của tháp, Không phổ biến như Wordnet, tuy nhiên LLOCE có bộ khi đó đồng nghĩa với việc tồn tại bộ ngữ liệu song ngữ nhãn không quá thô cùng bộ từ vựng tương đối lớn, do được gán nhãn ngữ nghĩa toàn bộ. Độ hiệu quả của các đó chúng tôi chọn bộ nhãn này làm đối tượng khảo sát phương pháp trước đây sẽ được đẩy lên một giới hạn và đặt ra những tiêu chí mà bộ nhãn cần đạt yêu cầu. mới. Để có ngữ liệu gán nhãn quý giá đó, cần có bộ Sau khi tiến hành thí nghiệm, kết quả thống kê sẽ được nhãn để gán. Do đó, chúng tôi quan tâm đến tầng ngữ đối chứng với điều kiện ban đầu, giúp ta có những nhận nghĩa với 2 câu hỏi chính: cần chọn bộ nhãn ngữ nghĩa xét về tính thực tiễn của bộ nhãn và các ứng dụng phù nào để gán nhãn và liệu nó có đạt được những đặc tính hợp. mà chúng tôi đề xuất hay không? Bài báo sẽ khảo sát LLOCE về khả năng khử nhập 336 ISBN: 978-604-67-0635-9 336
  2. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) nhằng( hay tính đa nghĩa) của từ trong 90.000 cặp câu “Sự sống và vật thể sống” (Life and living things); chủ song ngữ Anh –Việt. Ngữ liệu trong 2 ngôn ngữ được đề B là về “Cơ thể: chức năng và sự chăm sóc” (The xử lý tách từ độc lập, sau đó đưa qua từ điển LLOCE Body: its Functions and Welfare); chủ đề L là “Không để xử lý một lần nữa. Sử dụng toolkit GIZA++ (Och gian và thời gian”. Chủ đề A được tiếp tục phân thành và Ney, 2003[7]) với 60.000 cặp câu đầu làm hạt giống, 10 nhóm con: “Sự sống và sự chết” chứa các lớp từ A1 30.000 cặp câu còn lại làm đối tượng khảo sát chính, đến A20; “Các sinh vật nói chung”, có chứa các lớp từ chúng tôi kì vọng độ chính xác khi gióng hàng sẽ tăng A30 đến A43; “Động vật và động vật có vú” chứa các cao với ngữ liệu này. Dữ liệu sau gióng hàng sẽ được lớp từ A50 đến A61... gán nhãn độc lập và giao với nhau. Chúng tôi thống kê Mỗi lớp ngữ nghĩa trong LLOCE thường gắn với một các kết quả giao bộ nhãn của các từ được gióng, đặc từ loại và mang một ý nghĩa cụ thể nào đó. Trong mỗi biệt quan tâm đến các cặp có chung từ 2 bộ nhãn trở lớp này sẽ chứa một số từ thoả điều kiện từ loại và lên. Theo như hiểu biết của chúng tôi, hiện tại chưa có ngữ nghĩa chung của lớp. Trong LLOCE sử dụng 3 từ khảo sát tương tự đối với các bộ nhãn khác, do đó các loại chính là: danh từ, động từ và tính từ. Ví dụ: Lớp đánh giá chỉ dựa trên số liệu, chưa có đối tượng so sánh. A1 gắn với động từ, có ý nghĩa: “Tồn tại và tạo sự tồn Chúng tôi đưa ra các nhận xét, đánh giá kết quả và đưa tại”, lớp này bao gồm các động từ sau: exist, be(tồn tại), ra các định hướng tương lai áp dụng kết quả này. Trong create(tạo ra), animate(tạo sự sống),. . . phần còn lại của bài báo, chúng tôi sẽ giới thiệu cấu Mỗi lớp thường được liên kết chéo (cross-reference) trúc từ điển LLOCE và tính chất cần khảo sát. Chúng với các lớp ngữ nghĩa khác theo các quan hệ logic – tôi cũng trình bày bộ ngữ liệu song ngữ Anh - Việt sử ngữ nghĩa. Từ điển LLOCE đã được dịch sang tiếng dụng và mô hình khảo sát tính hiệu quả bộ nhãn. Cuối Việt[9], do đó tồn tại bộ nhãn cho cả hai ngôn ngữ cùng, kết quả sau thí nghiệm được đánh giá, lý giải và Anh và Việt. chúng tôi sẽ đề xuất các hướng phát triển tương lai cho bộ nhãn này. 2) Tính chất của bộ nhãn phù hợp: Từ những năm 2010 trở đi, cách tiếp cận thông dụng nhất trong NLP II. NGỮ LIỆU VÀ TÀI NGUYÊN là Máy học, do đó bộ nhãn phải phù hợp với việc huấn Wordnet là hệ thống nhãn ngữ nghĩa lớn nhất hiện luyện. Một bộ nhãn tốt không nên quá nhỏ vì sẽ làm nay, tuy nhiên chi phí xây dựng cực kì tốn kém. Chúng mất mát đi nhiều thông tin về nghĩa hữu ích. Tuy nhiên tôi tiến hành khảo sát các tính chất của bộ nhãn LLOCE nếu quá lớn, cần phải có một ngữ liệu lớn tương ứng để tìm hiểu xem nó có thể là giải pháp thay thế được hay để huấn luyện, hơn nữa phải được đánh nhãn bằng tay không. Chúng tôi phỏng đoán đối với các cặp từ được để đảm bảo độ chính xác. Bên cạnh đó, ta cũng quan gióng, nếu chúng tồn tại trong bộ từ vựng của LLOCE, tâm đến khả năng khử nhập nhằng của bộ nhãn bằng khả năng khử nhập nhằng, tức có một nhãn đồng nhất sử dụng lợi thế ràng buộc song ngữ với giả định: giao trong cặp từ là từ 70% trở lên. Nếu đúng, đây có thể là bộ nhãn của cùng một từ ở hai ngôn ngữ luôn là 1. đối tượng phù hợp cho các ngôn ngữ nghèo tài nguyên Hai yếu tố then chốt kích thước và khả năng khử nhập xây dựng bộ nhãn ngữ nghĩa cho riêng mình. nhằng là lý do chúng tôi chọn LLOCE tiếng Anh trong A. Từ điển LLOCE và tính chất của bộ nhãn phù hợp các bộ nhãn bởi nó không quá mịn như Wordnet (2.449 so với 117.000 nhãn), cộng với bộ từ điển Tiếng Việt 1) Từ điển LLOCE: LLOCE (Longman Lexicon Of tương ứng, phù hợp cho việc gán nhãn bằng tay. Câu Contemporary English)[8] là một từ điển ý niệm được hỏi còn để ngỏ chính là nó có đủ chi tiết để khử nhập xây dựng dựa trên từ điển ý niệm LDOCE. Từ điển nhằng trong các trường hợp song ngữ hay không. Đây LLOCE không sắp xếp các mục từ tiếng Anh theo thứ là tính chất quan trọng nhất và cần quan tâm sau thí tự từ điển, mà sắp xếp thành các chủ đề, mỗi chủ đề nghiệm. Với đặc trưng bộ nhãn LLOCE, chúng tôi kì được chia thành nhiều nhóm, mỗi nhóm được chia thành vọng khoảng 70% cặp từ sau khi gióng sẽ được gán nhiều lớp (tạm gọi là lớp ngữ nghĩa) và mỗi lớp gồm các nhãn. mục từ có quan hệ về nghĩa (nghĩa biểu vật hay nghĩa biểu niệm) với nhau (như: đồng nghĩa, gần nghĩa,..). Tên B. Ngữ liệu song ngữ của mỗi lớp chính là nhãn ngữ nghĩa và các lớp này có mối liên hệ ngữ nghĩa (qua đường kết nối bên trong) với 91.983 cặp câu song ngữ Anh-Việt được trích từ 2 các lớp khác (có thể thuộc chủ đề khác) trong từ điển. ngữ liệu sau: Tổng số LLOCE gồm 14 chủ đề, 129 nhóm, 2449 lớp • 60.032 cặp lấy từ Trung tâm Dữ liệu Đa ngữ Kim ngữ nghĩa với hơn 16.000 mục từ. Ví dụ: chủ đề A là về từ điển (KMDC). 337 337
  3. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) mỗi chữ cũng là từ nên chúng tôi không thực hiện tách. Sau đó, chúng tôi tách từ một lần nữa bằng kĩ thuật tham lam LRMM (Left Right Maximum Matching) với LLOCE: duyệt các chữ trong câu, ở mỗi chữ tìm từ vựng dài nhất trong từ điển LLOCE bắt đầu bởi chữ này và chứa những từ liền nó. Ngữ liệu sẽ nối các chữ cấu thành từ bởi dấu ‘_’. Ví dụ: ‘có thể’ thành ‘có_ thể’, ‘tam thừa’ thành ‘tam_thừa’. . . Để thực hiện bước lọc này, chúng tôi đã thống kê từ vựng dài nhất trong từ điển LLOCE ở cả 2 ngôn ngữ. Kết quả như sau: • LLOCE Tiếng Anh: “come down on smb. like a ton of bricks” với 9 chữ, tỉ lệ từ cấu tạo từ 2 chữ trở lên chiếm 29,83%. • LLOCE Tiếng Việt: “thay đổi từ một trạng thái sang một trạng thái khác theo một trình tự đều đều” với 17 chữ, tỉ lệ từ cấu tạo từ 2 chữ trở lên Hình 1. Sơ đồ mô hình khảo sát bộ nhãn LLOCE. chiếm 92,44%. Có thể thấy “từ vựng” trong cả 2 từ điển khác với quan niệm thông thường. Đối với từ điển gốc, nó cũng chứa • 31.951 cặp lấy từ những câu ví dụ vốn trong từ điển cả những cụm từ và thành ngữ. Với Tiếng Việt, có những LLOCE Tiếng Anh, sau đó được dịch thủ công bởi khái niệm không được từ vựng hóa, khiến người dịch Bộ môn Phiên dịch- Khoa Ngữ văn Anh trường phải giải thích bằng một cụm từ do không có từ vựng Đại học Khoa học xã hội và nhân văn TP.HCM tương ứng trong Tiếng Việt, đây là khác biệt đặc trưng với chính bộ từ vựng tương ứng trong từ điển. Do văn hóa giữa các ngôn ngữ, chẳng hạn “Ông Táo” trong đó ngữ liệu này chính xác hơn so với 60.032 câu. Tiếng Việt không tồn tại trong Tiếng Anh. Bảng I cho thấy 1 cặp câu song ngữ đã biến đổi như thế nào sau III. MÔ HÌNH khi qua 2 lớp tách từ. Nếu làm ngược lại, tách từ bằng Mục tiêu của mô hình là gióng hàng từng từ trong LLOCE trước kết quả sẽ không cao, ví như trường hợp song ngữ với nhau và gán nhãn độc lập cho từng ngôn ‘của chúng tôi’ sẽ tách thành ‘của_chúng tôi’ thay vì ngữ. Kết quả được đánh giá bằng việc kiểm tra bao ‘của chúng_tôi’. nhiêu từ không được gán nhãn, bao nhiêu từ được gán B. Gióng hàng song ngữ nhãn và khả năng khử nhập nhằng. Hình 1 mô tả các bước chính của mô hình: Mô hình IBM là mô hình dịch thống kê được đề xuất để tính xác suất P (f |e) và P (a|f, e) thông qua • Tiền xử lý ngữ liệu Anh – Việt bằng công cụ tách P (f, a|e) với e, f , a lần lượt là ngôn ngữ đích, ngôn từ và từ điển LLOCE. ngữ nguồn và kết quả được gióng giữa 2 bên. Hoàn toàn • Gióng hàng bằng GIZA++. dựa trên thống kê, mô hình không cần cung cấp các tri • Gán nhãn cho từng cặp từ được gióng và thống kê thức đặc thù của mỗi ngôn ngữ để giải quyết bài toán kết quả. dịch. Đặc biệt, xác suất P (f, a|e) có thể được dùng như mô hình dịch hoặc mô hình gióng hàng. Lưu ý mô hình A. Tiền xử lý tách từ chỉ giải quyết các trường hợp gióng 0:1, 1:0, 1:1 và 1:n. Để đạt hiệu quả cao khi gióng hàng, cần thực hiện Mô hình dịch: tách từ trong ngữ liệu trước. Tách từ tức nối những  chữ thuộc cùng một từ bằng dấu ‘_’. Ví dụ: ‘họa P (f |e) = P (f, a|e) (1) phẩm’ thành ‘họa_ phẩm’, ‘khách sạn’ thành ‘khách_ a sạn’. . . Với Tiếng Việt, chúng tôi sử dụng công cụ Mô hình gióng hàng: tách từ được nhóm phát triển riêng áp dụng cả 5 đặc P (f, a|e) P (f, a|e) trưng để tách: BMM: Backward-Maximum Matching, P (a|e, f ) = =  (2) P (f |e) a P (f, a |e) FMM: Forward-Maximum Matching, ORTH: Ortho- graphic Feature, STL: Surface Token Lower-case và Mô hình IBM gồm IBM1, IBM2, IBM3, IBM4 và STU: Surface Token Upper-case. Tiếng Anh có đặc trưng IBM5. Mỗi phiên bản sau bổ sung cải tiến cho những 338 338
  4. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Bảng I Bảng II VÍ DỤ MỘT CẶP CÂU TIẾNG ANH VÀ TIẾNG VIỆT QUA 2 LẦN TÁCH KẾT QUẢ MẪU SAU KHI GIÓNG HÀNG NGỮ LIỆU SONG NGỮ BẰNG TỪ . GIZA++ Nguyên mẫu Công cụ tách từ LLOCE LRMM 10 bảng Anh là đủ tiền xăng cho cuộc_hành_trình của_chúng_tôi . An articulated ve- An articulated ve- An articulated ve- hicle is usually a hicle is usually a hicle is usually a NULL £ 10 will cover our petrol for the journey . large one in which large one in which large one in which the front part with the front part with the front part_with {NULL - là}, {£ - bảng Anh}, {10 - 10}, {our - the engine can be the engine can be the engine can_be của_chúng_tôi}, {petrol - đủ, tiền, xăng}, {for - cho}, {jour- separated from the separated from the separated from the ney - cuộc_hành_trình}, {. - .} large carrying part large carrying part large carrying part and which can bend and which can bend and which can bend Bảng III or turn easily where or turn easily where or turn easily where KẾT QUẢ MẪU SAU KHI GIAO BỘ NHÃN CỦA CÁC CẶP TỪ GIÓNG the two parts join . the two parts join . the two parts join . HÀNG TRONG TRƯỜNG HỢP CÓ 1 NHÃN CHUNG VÀ 2 NHÃN CHUNG TRỞ LÊN. Một xe có khớp nối Một xe có khớp Một xe thường là một xe nối thường là một có_khớp_nối lớn phần phía trước xe lớn phần phía thường là một 1 Nhãn chung 2 Nhãn chung trở lên chứa động cơ có thể trước chứa động_cơ xe_lớn phần family – gia đình(C11) view – thấy(F263),- cảnh(F265) tách khỏi bộ phận có_thể tách khỏi phía_trước chứa journey - cuộc hành trình(M75) page – trang(G153),- giấy(G153) lớn dùng để chở bộ_phận lớn dùng động_cơ có_thể official – chính thức(C189) bankrupt – phá sản(J120),- mất(N105) và dễ dàng rẽ được để chở và dễ_dàng tách_khỏi bộ_phận hoặc quay lại được rẽ được hoặc quay lớn dùng để chở và if – nếu(G288) lucid – dễ hiểu(F270),-có thể hiểu được(G40) nhờ ở hai bộ phận lại được nhờ ở hai dễ_dàng rẽ được area – vùng(C79) a lot – nhiều(N96),- quá(N96) nối lại với nhau đó bộ_phận nối lại với hoặc quay_lại được . nhau đó . nhờ ở hai_bộ_phận nối_lại_với_nhau đó . được kết quả tốt hơn so với chỉ huấn luyện bằng 30.000 câu sạch. Kết quả thu được có dạng như Bảng II. Những từ Tiếng Việt không có từ tương ứng với Tiếng Anh sẽ thiếu sót của phiên bản trước đó. được nối với NULL. Hầu hết các từ này là hư từ.  P (f, a|e) = P (J|I) P (aj )P (fj |eaj )  j C. Gán nhãn cho từng cặp từ gióng và thống kê = P (aj )P (fj |eaj ) 1) Tiền xử lý: Trong từ điển LLOCE Tiếng Anh và j  (3) Tiếng Việt, bộ nhãn có định dạng: 1 # ,,. . . ., = P (fj |eaj ) j I + 1 Trường hợp một từ đa nghĩa khá cao trong bộ từ vựng   của từ điển (Tiếng Anh: 1,673 nhãn/từ, Tiếng Việt: 1,715 = P (fj |eaj ) (I + 1)J j nhãn/từ) do đó nếu tìm đủ tập nhãn của một từ, bắt buộc phải duyệt hết từ điển, dẫn đến thời gian chạy tăng cao. • IBM1 – sử dụng xác suất từ vựng (thông số trong Do đó chúng tôi sắp xếp chúng theo định dạng khác công thức 3) để việc tìm bộ nhãn của 1 từ có chi phí tuyến tính: • IBM2 – bổ sung từ vựng kết hợp vị trí tuyệt đối # ,,. . . , của từ 2) Gán nhãn: Chúng tôi tiến hành duyệt từng cặp • IBM3 – bổ sung fertilities(khả năng mà 1 từ có thể từ đã được gióng hàng và liệt kê nhãn tương ứng của gióng được với các từ khác) chúng. Sau đó tiến hành giao 2 tập hợp và đếm số bộ • IBM4 – bổ sung gióng hàng theo vị trí ngược tương nhãn chung cũng như đếm số trường hợp các từ không đối thuộc từ vựng trong từ điển. Bảng III cho 1 số ví dụ về • IBM5 – phiên bản gióng hàng đầy đủ của IBM4 các cặp từ có 1 nhãn chung và 2 nhãn chung trở lên. Với các mô hình xác suất, độ chính xác phụ thuộc vào Trong Bảng III, ở trường hợp 2 nhãn chung trở lên, độ sạch cũng như độ lớn của dữ liệu, dữ liệu càng nhiều lấy ví dụ đầu tiên, thì sau khi gióng hàng, ‘view’ được thì độ chính xác càng cao. Khi chạy GIZA++, chúng tôi gióng với 2 từ ‘thấy’ và ‘cảnh’. Cặp ‘view-thấy’ có nhãn sử dụng mô hình IBM4 đã được cài đặt sẵn. 60.000 cặp chung là F263, cặp ‘view-cảnh’ có nhãn chung là F265. câu được sử dụng làm hạt giống, kết hợp với 30.000 cặp Như vậy ta không tìm được một nhãn duy nhất cho câu sạch lấy từ LLOCE, tập hợp 90.000 cặp câu sẽ đạt cặp từ được gióng này, đồng nghĩa tính nhập nhằng của 339 339
  5. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Bảng VI ‘view’ chưa được giải quyết. Xét thêm ví dụ cuối: cặp SỐ LƯỢNG VÀ TỈ LỆ CÁC CẶP ĐƯỢC GÁN NHÃN XẾP THEO SỐ LOẠI ‘a lot-nhiều’ và ‘a lot-quá’ đều có chung 1 nhãn là N96, NHÃN CHUNG TĂNG DẦN. như vậy ‘a lot’ tuy gióng hàng với 2 từ nhưng vẫn giữ lại 1 nhãn duy nhất, như vậy tính nhập nhằng của từ ‘a 90.000 Anh-Việt 30.000 Anh-Việt lot’ đã được giải quyết. Cặp từ 2 phía có nhãn 334.019 (65,06%) 109.179 (65,33%) khác nhau hoặc chỉ 1 phía có nhãn IV. KẾT QUẢ - THẢO LUẬN Cặp từ có 1 nhãn 178.215 (34.71%) 57.348 (34,32%) Ở bước tiền xử lý tách từ, ta gọi mỗi đơn vị từ cách chung nhau bởi khoảng trắng là token. Nếu 2 token được nối Cặp từ có 2 nhãn 1.199 (0,23%) 582 (0,35%) với nhau bởi dấu ‘_’ thì trở thành 1 token. Bảng IV cho chung trở lên thấy tỉ lệ token đạt được ở mỗi bước tách từ so với số token gốc. Đối với Tiếng Anh, các từ đa phần là từ đơn, Bảng VII cộng với tỉ lệ từ có 2 tiếng trở lên trong từ vựng của THỐNG KÊ TỈ LỆ CẶP TỪ CÓ 2 NHÃN TRỞ LÊN CÓ CHUNG 1 LOẠI VÀ CÓ CHUNG TỪ 2 LOẠI TRỞ LÊN SO VỚI TỔNG SỐ CẶP TỪ ĐƯỢC GÁN từ điển chỉ chiếm 29,83%, do đó sau khi tách từ, không NHÃN. có thay đổi lớn. Tiếng Việt ngược lại, tỉ lệ từ ghép lớn, tỉ lệ từ vựng có 2 tiếng trở lên trong từ điển là 92,44% 90.000 Anh-Việt 30.000 Anh-Việt nên đến 25,34% token bị mất đi so với số token gốc. Cặp từ 2 phía có 2 1.199 (0,23%) 582 (0,35%) nhãn chung trở lên Bảng IV Cặp từ có 2 nhãn 595 (0,11%) 278 (0,17%) SỐ LƯỢNG VÀ TỈ LỆ CÁC TOKEN SAU KHI THỰC HIỆN 2 BƯỚC TÁCH chung trở lên cùng 1 TỪ . loại Nguyên mẫu Công cụ tách từ LLOCE LRMM Cặp từ có 2 nhãn 604 (0,12%) 304 (0,18%) Token Tỉ lệ Token Tỉ lệ Token Tỉ lệ chung trở lên lớn hơn 1 loại 30k-Eng 276.927 100% 276.927 100% 271.892 99,18% 30k-Viet 371.663 100% 324.618 81,34% 294.027 79,11% 90k-Eng 873.804 100% 873.804 100% 858.179 99,21% 90k-Viet 1.135.844 100% 948.064 83,47% 847.356 74,66% Theo phân tích ở đầu bài báo, chúng tôi quan tâm đến khả năng khử nhập nhằng của bộ nhãn ngữ nghĩa. Kết quả thu được sau khi gióng hàng và gán nhãn Kết hợp số liệu Bảng VI và Bảng VII, nếu tạm thời khá thú vị. Bảng V cho thấy 40,17% cặp từ trong bộ không xét đến các cặp không được gán nhãn, thì ta có 90.000 câu song ngữ không tồn tại trong từ điển nên 34,82% số cặp không nhập nhằng(34.71% cặp từ có 1 không được gán nhãn. Trung bình có 9,3 token/cặp câu, nhãn chung và 0.11% cặp từ có 2 nhãn chung nhưng chỉ giả sử dấu câu chiếm 1 token, thì số lượng từ không cùng 1 loại). tồn tại trong LLOCE chiếm 29,41%. Con số này cho Các trường hợp khác đều không phân định được nhãn, thấy từ điển có vẻ không chứa đựng đầy đủ những từ do đó xem như thất bại trong việc khử nhập nhằng. Bộ vựng thông dụng. Hơn nữa, LLOCE khi được dịch sang 30.000 câu lấy từ chính LLOCE có tỉ lệ cặp được gán Tiếng Việt chưa chắc liệt kê hết tất cả những từ tương nhãn không những thấp, mà còn thấp hơn bộ 60.000 câu ứng, như trường hợp từ A bên Tiếng Anh có thể dịch (34,49% so với 35,00%). Tổng quan hơn, nếu tính đến sang từ B hay C bên Tiếng Việt, nhưng người dịch chỉ toàn bộ cặp từ được gióng thì tỉ lệ không gán nhãn của chọn B mà thôi. Một số khái niệm không tồn tại trong 90.000 câu lên đến 79,17%, cho thấy độ bao phủ cực kì Tiếng Việt cũng giới hạn lại tính khả dụng của bộ từ thấp trong từ điển, mặc dù trong đó có 30.000 câu sạch vựng trong LLOCE Tiếng Việt. thuộc cùng lĩnh vực. Tuy nhiên, theo hiểu biết hiện tại của chúng tôi, chưa có kết quả khảo sát với các bộ nhãn Bảng V khác nên chưa thể kết luận kết quả này phản ánh tính SỐ LƯỢNG VÀ TỈ LỆ CÁC CẶP SAU KHI GIÓNG HÀNG ĐƯỢC GÁN chất bộ nhãn, hay là tình hình chung của hầu hết các bộ NHÃN VÀ KHÔNG GÁN NHÃN nhãn. Trong tương lai, quy trình này cần được áp dụng 90.000 Anh-Việt 30.000 Anh-Việt với các bộ nhãn như LDOCE, WordNet với cùng bộ dữ Cặp từ không có nhãn 344.746(40.17%) 104.783(38,54%) liệu song ngữ để ta có góc nhìn tổng quát và có cơ sở so sánh các bộ nhãn. Để lý giải cho kết quả thu được, Cặp từ có nhãn 513.433(59,83%) 167.109(61,46%) chúng tôi kiểm tra lại toàn bộ quy trình và có một số nhận xét sau: 340 340
  6. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) • Nhiều trường hợp từ điển không phủ hết những từ nghiệm. Mô hình kiểm nghiệm khả năng gán nhãn được tương ứng trong Tiếng Việt. Từ “sinh học” không đề xuất với 2 lớp tách từ, gióng hàng bằng GIZA++ và có trong bộ từ vựng, nhưng “bộ môn sinh học” lại thống kê tỉ lệ các cặp từ có nhãn chung. Kết quả thu có, mặc dù chúng là như nhau. được thấp hơn dự đoán ban đầu khi xét khả năng khử • Tiếng Việt với đặc trưng nhiều từ ghép trở thành nhập nhằng (34,82% so với dự đoán 70%), đặc biệt hiệu trở ngại lớn khi tra từ điển. “Run machine”E không suất còn thấp hơn nữa với ngữ liệu song ngữ trích xuất thể chia thành “run/chạy” và “machine/máy” bởi từ trong chính từ điển. Chúng tôi chưa kết luận khả năng không tìm được từ “máy” trong từ điển. Tuy nhiên, của LLOCE do không có các dữ liệu tương ứng ở các bộ lại xuất hiện cụm “cho chạy máy”. nhãn còn lại để đối xứng. Tuy nhiên có thể nói LLOCE • Một số từ Tiếng Anh không có từ Tiếng Việt tương tỏ ra yếu kém cho việc gán nhãn các câu thông dụng ứng, dẫn đến phải dùng một cụm từ thay thế để giải bởi số lượng từ vựng khiêm tốn cũng như sự khác biệt nghĩa, làm giảm số từ khả dụng trong bộ từ vựng trong hai phiên bản Tiếng Việt và Tiếng Anh. Trong Tiếng Việt. tương lai, quy trình cơ bản này cần được thử nghiệm • Bộ từ vựng trong 2 từ điển không chính xác là từ với WordNet, LDOCE... để có cái nhìn tổng quan hơn vựng khi nó bao gồm cả các cụm từ, thành ngữ về độ bao phủ và khả năng khử nhập nhằng của các tập cộng với số lượng mục từ chỉ có 16.000 khiến cho nhãn. gần 1 nửa các cặp từ được gióng không có nhãn TÀI LIỆU THAM KHẢO tương ứng để gán. [1] G. A. Miller et al., “Five papers on wordnet,” 1993. [Online]. • Việc áp dụng kĩ thuật tham lam cho bước tách từ Available: /bib/miller/Miller1993/5papers.pdf thứ hai có thể làm cho kết quả bị sai lệch. [2] E. Niemann and I. Gurevych, “The people’s web • Số lượng cặp từ phụ thuộc vào chất lượng và số meets linguistic knowledge: Automatic sense alignment of wikipedia and wordnet,” in Proceedings of the Ninth lượng của ngữ liệu tham gia gióng hàng. Có thể International Conference on Computational Semantics, ser. 90.000 cặp câu vẫn chưa đủ lớn để có kết quả chính IWCS ’11. Stroudsburg, PA, USA: Association for xác. Computational Linguistics, 2011, pp. 205–214. [Online]. Available: http://dl.acm.org/citation.cfm?id=2002669.2002691 LLOCE là bộ nhãn kích cỡ trung bình so với các [3] F. M. Suchanek, G. Kasneci, and G. Weikum, “Yago: A bộ nhãn đã giới thiệu ở phần đầu. Tuy nhiên, kết quả large ontology from wikipedia and wordnet,” Web Semantics: Science, Services and Agents on the World Wide Web, thu được sau thí nghiệm thấp hơn kì vọng ban đầu khá vol. 6, no. 3, pp. 203 – 217, 2008, world Wide Web nhiều. Trong tương lai, để giải quyết những vấn đề trên, Conference 2007Semantic Web Track. [Online]. Available: chúng tôi đề nghị những hướng sau: http://www.sciencedirect.com/science/article/pii/S1570826808000437 [4] E. Agirre, E. Alfonseca, K. Hall, J. Kravalova, M. Pas¸ca, • Xây dựng bộ ngữ liệu song ngữ lớn hơn. and A. Soroa, “A study on similarity and relatedness using • Thêm từ vựng cho cả 2 từ điển để phục vụ cho việc distributional and wordnet-based approaches,” in Proceedings of Human Language Technologies: The 2009 Annual Conference of gán nhãn. Có thể bổ sung dựa theo 2 hướng: một the North American Chapter of the Association for Computational là bộ từ vựng và nhãn của LDOCE hoặc WordNet, Linguistics, ser. NAACL ’09. Stroudsburg, PA, USA: Association hai là dựa trên từ điển Hoàng Phê để tìm danh sách for Computational Linguistics, 2009, pp. 19–27. [Online]. Available: http://dl.acm.org/citation.cfm?id=1620754.1620758 các từ chưa được đánh nhãn, sau đó gán nhãn dựa [5] P. Vossen, “Eurowordnet: A multilingual database of trên bộ nhãn có sẵn hoặc bổ sung bộ nhãn mới dựa autonomous and language-specific wordnets connected via trên quy định phân loại nhãn của LLOCE. an inter-lingualindex,” International Journal of Lexicography, vol. 17, no. 2, pp. 161–173, 2004. [Online]. Available: • Xây dựng một dữ liệu lớn nếu chọn WordNet làm http://ijl.oxfordjournals.org/content/17/2/161.abstract bộ nhãn thay thế. [6] F. Bond, H. Isahara, S. Fujita, K. Uchimoto, T. Kuribayashi, • Phát triển các bộ phân lớp xác định cặp từ nhập and K. Kanzaki, “Enhancing the japanese wordnet,” in Proceedings of the 7th Workshop on Asian Language nhằng và lựa chọn bộ nhãn chung ở các cặp có từ Resources, ser. ALR7. Stroudsburg, PA, USA: Association for 2 nhãn chung trở lên. Computational Linguistics, 2009, pp. 1–8. [Online]. Available: • Kiểm tra bộ dữ liệu song ngữ 90.000 cặp câu với http://dl.acm.org/citation.cfm?id=1690299.1690300 [7] F. J. Och and H. Ney, “A systematic comparison of các bộ nhãn như LDOCE, WordNet để có cơ sở various statistical alignment models,” Comput. Linguist., đánh giá khả năng bao phủ và khả năng khử nhập vol. 29, no. 1, pp. 19–51, Mar. 2003. [Online]. Available: nhằng của từng bộ nhãn. http://dx.doi.org/10.1162/089120103321337421 [8] Đinh Điền, “Xây dựng và khai thác ngữ liệu song ngữ anh việt,” Ph.D. dissertation, ĐH Khoa học Xã hội & Nhân văn - ĐHQG V. KẾT LUẬN – ĐỀ NGHỊ Tp.HCM, 2005. [9] T. M. Arthur, Longman Lexicon Of Contemporary English (bản Chúng tôi đã trình bày mục tiêu của bộ nhãn ngữ dịch tiếng Việt: “từ vựng tiếng Anh hiện đại” do Trần Tất Thắng nghĩa và lý do lựa chọn LLOCE làm đối tượng thử chủ biên). NXB Giaó Dục, 1997. 341 341
nguon tai.lieu . vn