Xem mẫu

  1. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Một Phương Pháp Dịch Từ Mới Trong Dịch Máy Hoa-Việt Trần Thanh Phước Nguyễn Thị Thanh Thảo Khoa Công nghệ Thông tin Khoa Công nghệ Thông tin Trường Đại Học Tôn Đức Thắng Trường Cao Đẳng Kinh Tế Kỹ Thuật TPHCM tranthanhphuoc@tonducthang.edu.vn nguyenthithanthao@hotec.edu.vn Trịnh Thanh Duy Đinh Điền Khoa Kinh tế Kỹ thuật Khoa Công nghệ Thông tin Trường Bách Khoa Sài Gòn Trường Đại Học Khoa Học Tự Nhiên, TP.HCM trinhthanhduy@gmail.com ddien@fit.hcmus.edu.vn Tóm tắt — Từ mới (UKW: Unknown word) là vấn đề Không giống như các ngôn ngữ phương Tây (điển hiển nhiên trong dịch máy nói chung và trong dịch hình là tiếng Anh), từ trong tiếng Hoa và tiếng Việt thống kê Hoa-Việt nói riêng. Hơn nữa, so với các ngôn không được phân định bởi khoảng trắng. Một câu ngữ giàu tài nguyên khác như tiếng Hoa, Anh thì kho tiếng Hoa bao gồm một dãy các ký tự nằm liên tiếp ngữ liệu song ngữ Hoa-Việt còn hạn chế, vì vậy, UKW nhau và không có khoảng trắng giữa các ký tự này. trong dịch máy Hoa-Việt lại càng nhiều hơn. Mặt khác, ranh giới từ trong tiếng Hoa và tiếng Việt không được Trong tiếng Việt, các từ chính tả được cách với nhau phân định bởi khoảng trắng, phân đoạn từ thường được bởi một khoảng trắng, dấu câu nằm liền sau từ chính thực hiện đầu tiên trong dịch máy Hoa, Việt sang các tả. Do đó, việc phân đoạn từ thường được giải quyết ngôn ngữ khác hoặc ngược lại. Việc phân đoạn từ làm đầu tiên trong dịch máy Hoa, Việt sang các ngôn ngữ tăng chất lượng dịch chung cuộc nhưng lại phát sinh khác. Việc phân đoạn từ làm tăng chất lượng dịch nhiều UKW. Chúng tôi chia UKW làm hai phần là nhưng thường phát sinh nhiều UKW hơn so với hệ UKW dạng thực thể có tên và UKW không thuộc thực dịch cơ sở (hệ dịch không phân đoạn từ, xem mỗi ký thể có tên (NNE-UKW). Trong bài báo này, chúng tôi sẽ tự tiếng Hoa và từ chính tả tiếng Việt là đơn vị độc trình bày một phương pháp dịch NNE-UKW dựa vào lập). Một ví dụ trong ngữ liệu thử nghiệm của chúng việc phân rã từ và mô hình ngôn ngữ. Kết quả thử nghiệm cho thấy phương pháp của chúng tôi đã tăng tôi như sau: từ tiếng Hoa 车票 (vé xe: bus ticket) là điểm BLEU so với hệ dịch cơ sở và hệ dịch phân đoạn một UKW đối với hệ dịch phân đoạn từ nhưng không từ. là UKW trong hệ dịch cơ sở (Hình 1). Từ khóa — NNE-UKW, unknown word, dịch máy Hoa- Việt, phân rã từ, mô hình ngôn ngữ. I. GIỚI THIỆU Hiệu suất dịch máy thống kê phụ thuộc vào độ lớn và chất lượng của kho ngữ liệu song ngữ. Kho ngữ liệu càng lớn và càng tinh khiết thì chất lượng của hệ Hình 1. Một ví dụ về hệ dịch cơ sở (dựa vào ký tự) dịch sẽ càng cao. Để có được ngữ liệu song ngữ cho Từ 2 câu của ngữ ngữ liệu huấn luyện, chúng ta hệ dịch máy thống kê (SMT: statistical machine có được một gióng hàng ký tự 车 (xe) và 票 (vé) translation), bên cạnh phương pháp thu thập bằng tay (chúng tôi không quan tâm đến các gióng hàng ký tự tốn kém thì phương pháp rút trích tự động từ các website song ngữ ngày càng được sử dụng rộng rãi. khác). Do đó, ở câu kiểm tra, khi gặp hai ký tự 车 và Phương pháp rút trích tự động này được thực hiện 票, hệ thống sẽ dịch được chúng. Ngược lại, khi phân bằng cách dò tìm các các trang web song ngữ là bản đoạn từ, 2 character 车 và 票 kết hợp thành một từ dịch của nhau. Các trang web song ngữ Hoa-Việt duy nhất 车票, hệ thống sẽ không dịch được từ này hoặc Việt-Hoa hiện tại không nhiều, và nếu có thì các do ngữ liệu huấn luyện không tồn tại nó. Do đó, bản dịch của nhau thường chưa thực sự song song. UKW 车票 sẽ được phát sinh. Do đó, việc thu thập tự động ngữ liệu song ngữ Hoa- Việt từ web hiện nay còn khó khăn và chất lượng ngữ Chúng tôi chia UKW tiếng Hoa thành hai loại: liệu thu được thường không cao. Hiện tại, kho ngữ UKW dạng thực thể có tên và UKW không thuộc liệu của hệ thống dù chất lượng khá tốt nhưng số thực thể có tên (NNE-UKW: Not Named Entity lượng cặp câu chưa nhiều. Với kho ngữ liệu hạn chế UKW). Một từ tiếng Hoa có thể là một ký tự có nghĩa như thế, thì từ mới (UKW: Unknown word) trong hệ hoặc bao gồm nhiều ký tự kết hợp lại với nhau và dịch Hoa-Việt càng hiển nhiên hơn so với các hệ dịch UKW thường là những từ bao gồm nhiều ký tự hợp cho cặp ngôn ngữ giàu tài nguyên khác. lại. Chúng tôi sẽ phân rã UKW thành những từ con nhỏ hơn và dịch các từ con này. Sau đó, chúng tôi sẽ ISBN: 978-604-67-0635-9 206 206
  2. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) chọn ra nghĩa tiếng Việt tốt nhất dựa vào xác suất theo kiểu: “A is to B as C is to D”, ví dụ như: đồng xuất hiện của các nghĩa tiếng Việt của các từ [comfortable : uncomfortable = translatable : con. untranslatable] trong tiếng Anh. Nhóm tác giả phát hiện rằng phương pháp của họ có thể dịch chính xác Bài báo này được trình bày như sau: ở Phần 2, đến 80% các UKW không thuộc thực thể có tên. chúng tôi sẽ trình bày các công trình liên quan đến Phương pháp này đã được thử nghiệm trên các cặp bài toán xử lý UKW trong dịch máy. Phần nhận dạng ngôn ngữ như: Pháp-Anh, Đức-Anh và Tây Ban Nha- cũng như dịch UKW sẽ được trình bày ở Phần 3. Anh. Trong khi đó, ở Phần 4, chúng tôi sẽ mô tả các thử nghiệm cũng như một số thảo luận. Phần kết luận sẽ Riêng đối với các cặp ngôn ngữ giàu hình thái thì được trình bày ở Phần 5. nhóm tác giả Karunesh Arora và đồng sự [5] đã sử dụng các kỹ thuật xấp xỉ từ vựng để nhận diện chính II. CÔNG TRÌNH LIÊN QUAN tả cũng như các biến thể của từ trong kho ngữ liệu Hiện nay có rất nhiều nghiên cứu với các hướng huấn luyện. Tất cả UKW trong câu nguồn sẽ được tiếp cận khác nhau nhằm dịch lại UKW, nâng cao thay thế bằng các từ biến thể tương ứng được tìm hiệu suất dịch máy. Dựa vào phép chính tả của từ, thấy trong ngữ liệu huấn luyện, điều này đã làm giảm nhóm tác giả Joao Silva và các đồng sự [1] đã đề xuất khá nhiều số lượng UKW trong câu đầu vào. Phương hai phương pháp nhằm khắc phục các UKW, đó là: pháp này được các tác giả thử nghiệm trên cặp ngôn phát hiện từ cùng nguồn gốc (cognates’ detection) và ngữ Hin Đi - Nhật. độ tương tự hợp lý (logical analogy) để dịch lại UKW. Hướng tiếp cận này đã thực hiện thành công cho cặp III. PHƯƠNG PHÁP DỊCH NNE-UKW ngôn ngữ biến hình Anh - Bồ Đào Nha. Chúng tôi phân đoạn từ cho ngữ liệu tiếng Hoa và tiếng Việt trước khi huấn luyện và dịch bởi công cụ Một hướng tiếp cận khác để xử lý UKW được SMT. Trong thử nghiệm, chúng tôi sử dụng công cụ thực hiện bởi tác giả Matthias Eck và các đồng sự [2]. Stanfor Segmenter1 để phân đoạn từ tiếng Hoa, công Nhóm tác giả này đã tìm các định nghĩa của các cụ VnTokenizer2 để phân đoạn từ tiếng Việt, công cụ UKW ở ngôn ngữ nguồn và dịch các định nghĩa của MOSES3 để thực hiện huấn luyện và dịch. Kết quả UKW này (thay vì dịch các UKW). Các định nghĩa dịch của SMT tiếp tục được chúng tôi nhận diện của UKW sẽ được rút trích tự động từ các từ điển NNE-UKW và dịch lại theo mô hình ở Hình 2. trực tuyến và các bách khoa toàn thư, sau đó chúng được dịch lại qua hệ thống SMT. Kết quả dịch này sẽ thay thế các UKW ở bản dịch cũ. Phương pháp đã được các tác giả thử nghiệm trên cặp ngôn ngữ Anh – Tây Ban Nha. Trong bài báo này, chúng tôi cũng có áp dụng từ điển trực tuyến để tìm và dịch nghĩa cho UKW. Ở khía cạnh khác, tác giả Ruiqiang Zhang và đồng sự [6] đã dịch lại các UKW bằng cách phân rã các UKW thành các từ con (subwords). Nhóm tác giả đã phân rã các UKW tiếng Hoa thành các từ con và dịch dựa vào các từ con này (subword-based translation). Từ con là một đơn vị ở giữa ký tự và từ. Bên cạnh đó, nhóm tác giả còn phát hiện ra rằng, chất lượng dịch sẽ tăng đáng kể nếu áp dụng nhận dạng tên riêng (Named Entity recognition: NER) để dịch các UKW trước khi áp dụng dịch dựa vào từ con. Hình 2. Mô hình dịch NNE-UKW WordNet và phiên âm quốc tế (IPA) cũng được sử dụng để xử lý UKW. Khan MD và đồng sự [3] đã sử  Bước 1: Chúng tôi tìm kiếm nghĩa của NNE- dụng hai yếu tố này để dịch UKW trong dịch máy UKW trên từ điển Hoa-Việt trực tuyến. Chúng tôi dựa trên ví dụ (EBMT) từ tiếng Anh sang tiếng tận dụng sự phong phú từ vựng của từ điển trực Bangla. Đầu tiên, hệ thống sẽ tìm trong WordNet các tuyến với mong muốn có thể tìm được nghĩa tiếng từ tiếng Anh có nghĩa liên quan đến UKW. Từ những Việt của UKW. Trong thử nghiệm, chúng tôi sử từ có nghĩa liên quan này, hệ thống sẽ chọn ra từ có nghĩa gần nhất nhất tồn tại trong từ điển Anh-Bangla. 1 Giả sử như không tìm được từ thỏa mãn, hệ thống sẽ Download tại: sử dụng phiên âm quốc tế để chuyển ngữ cho UKW. http://nlp.stanford.edu/software/segmenter.shtml 2 Download tại: Bên cạnh đó, tác giả Philippe Langlais và các http://vlsp.vietlp.org:8080/demo/?page=resources đồng sự [4] đã sử dụng phương pháp học tương tự để 3 Download at: dịch lại UKW. Khái niệm về sự tương tự được định http://www.statmt.org/moses/?n=Moses.Releases nghĩa như sau: [A : B = C : D], thể hiện mối quan hệ 207 207
  3. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) dụng từ điển Hoa-Việt trực tuyến từ trang web 𝑃𝑃(𝑤𝑤𝑖𝑖3 |𝑤𝑤𝑖𝑖2 ) + ⋯ + 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖 |𝑤𝑤𝑖𝑖(𝑛𝑛−1) ) “https://vi.glosbe.com/zh/vi/” để tra cứu các Nghĩa tiếng Việt tốt nhất là nghĩa có tổng xác suất UKW. Ví dụ như từ 咖哩 (món cà ri: curry), từ lớn nhất. Hình 3 minh họa quá trình phân rã và dịch này là UKW đối với kho ngữ liệu song ngữ Hoa- Việt nhưng lại là từ vựng có trong từ điển Hoa- UKW 手提包 (túi xách tay: handbag), từ này không Việt trực tuyến. tồn tại trong từ điển Hoa-Việt trực tuyến.  Giả sử phương pháp sử dụng từ điển ở bước (1) vẫn không giải quyết được UKW, hệ thống phân rã UKW thành các từ con và dịch nghĩa của các từ con này. Phương pháp phân rã và dịch từ con như sau: ─ Phân rã một UKW thành các từ con dựa vào từ điển. Từ con ở đây có thể là một từ gồm nhiều ký tự (hiển nhiên là nhỏ hơn UKW), cũng có thể là một ký tự riêng biệt. Một ký tự tiếng Hoa đều có nghĩa tương ứng ở tiếng Việt và Hình 3. Minh họa phân rã và dịch NNE-UKW chúng ta hoàn toàn có thể xem ký tự tiếng Hoa là một từ có nghĩa độc lập. Từ tiếng Hoa là vô “túi xách tay” là từ có tổng xác suất 2-gram cao nhất, hạn nhưng ký tự tiếng Hoa là hữu hạn và được vì vậy từ này sẽ thay thế UKW 手提包 trong bản lưu trữ trong từ điển. Do đó, khi đã phân rã dịch tiếng Việt cuối cùng. UKW đến mức ký tự thì vấn đề UKW là không còn. IV. THỬ NGHIỆM VÀ THẢO LUẬN ─ Bước kế tiếp, hệ thống sẽ dịch các từ con này dựa vào từ điển. Một từ con có thể có nhiều A. Ngữ liệu thử nghiệm nghĩa, có nghĩa phổ biến và có một số nghĩa ít Kho ngữ liệu thử nghiệm của chúng tôi bao gồm xuất hiện. Để hạn chế không gian từ phát sinh, 30.000 cặp căp Hoa-Việt được lấy từ các sách dạy trong thử nghiệm, chúng tôi chỉ chọn nghĩa đầu đàm thoại tiếng Hoa, các diễn đàn tiếng Hoa trực tiên trong từ điển. Sau bước này, một tập hợp tuyến và các website song ngữ Hoa-Việt. Cụ thể như: nghĩa của các từ con sẽ được phát sinh. sách “301 câu đàm thoại tiếng Hoa” website “http://www.dantiengtrung.com.vn”, website song ─ Từ tập hợp nghĩa của các từ con, hệ thống ngữ “http://www.dongnai.gov.vn”, ... Chúng tôi sử phát sinh tập hợp nghĩa tiếng Việt bằng cách kết dụng 90% cặp câu cho huấn luyện, 5% cho kiểm tra hợp không theo thứ tự tất cả các nghĩa của các và 5% cho điều chỉnh tham số. Các kho ngữ liệu huấn từ con của một UKW. Sau bước này, chúng ta luyện được huấn luyện bởi công cụ Moses với các đã có được tập hợp nghĩa tiếng Việt của UKW. tham số mặc định. Chúng tôi sử dụng ngữ liệu của ─ Kế tiếp, hệ thống lọc ra nghĩa tốt nhất từ tập nhóm VLSP với 212.454 câu tiếng Việt để huấn hợp nghĩa của các từ con. Giả sử rằng từ wi (wi luyện mô hình ngôn ngữ tiếng Việt. = wi1wi2...win) là một trong các nghĩa tiếng Việt B. Thực hiện thử nghiệm của UKW, với wij (𝑗𝑗 𝑗 𝑗𝑗𝑗 𝑗𝑗𝑗) là một nghĩa tiếng Chúng tôi sử dụng các ngữ liệu này để thực hiện Việt của từ con và n là tổng số từ chính tả trong ba thử nghiệm sau: từ wi. Chúng tôi sử dụng mô hình ngôn ngữ n- gram được huấn luyện trên ngữ liệu tiếng Việt  Hệ dịch cơ sở (1): chúng tôi xem ký tự tiếng như sau: (công thức (1)). Hoa và từ chính tả tiếng Việt như những đơn vị 𝑃𝑃(𝑤𝑤𝑖𝑖1 … 𝑤𝑤𝑖𝑖𝑖𝑖 ) = 𝑃𝑃(𝑤𝑤𝑖𝑖1 )𝑃𝑃(𝑤𝑤𝑖𝑖2 |𝑤𝑤𝑖𝑖1 )𝑃𝑃(𝑤𝑤𝑖𝑖3 |𝑤𝑤𝑖𝑖1 𝑤𝑤𝑖𝑖2 ) độc lập có nghĩa. Chúng tôi chèn một khoảng (1) trắng vào giữa các ký tự tiếng Hoa và chèn một … 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖 |𝑤𝑤𝑖𝑖1 𝑤𝑤𝑖𝑖2 … 𝑤𝑤𝑖𝑖(𝑛𝑛−1) ) khoảng trắng vào giữa dấu câu và từ chính tả Trong thử nghiệm, chúng tôi sử dụng công cụ trong tiếng Việt. SRILM 4 với mô hình ngôn ngữ 2-gram để chọn ra  Hệ dịch phân đoạn từ (2): chúng tôi phân đoạn nghĩa tiếng Việt phù hợp nhất. Để tránh xác suất 2- từ tiếng Hoa bằng công cụ Stanford Segmenter, gram bằng không, chúng tôi tiến hành cộng các xác và công cụ VnTokenizer cho tiếng Việt. suất với nhau thay vì nhân chúng lại (công thức (2).  Sau đó, chúng tôi tiến hành dịch ngữ liệu kiểm tra tiếng Hoa bằng công cụ Moses cho cả hai 𝑃𝑃(𝑤𝑤𝑖𝑖1 … 𝑤𝑤𝑖𝑖𝑖𝑖 ) = 𝑃𝑃(𝑤𝑤𝑖𝑖2 |𝑤𝑤𝑖𝑖1 ) + (2) trường hợp (1) và (2). Kết quả dịch của trường hợp (2) tiếp tục được nhận dạng và dịch lại NNE- UKW. 4 Download tại: Tùy thuộc vào việc chọn lựa các câu trong ngữ http://www.speech.sri.com/projects/srilm/download.htm liệu kiểm tra mà điểm BLEU có giá trị khác nhau. l Hình 4 minh họa điểm BLEU cho cách chọn lựa ngữ 208 208
  4. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) liệu kiểm tra theo định dạng như sau: mỗi 20 câu Kết quả dịch NNE-UKW trong 1.500 câu kiểm tra trong kho ngữ liệu thì 18 câu đầu tiên dành cho huấn được trình bày ở Bảng 1. luyện, câu thứ 19 cho điều chỉnh tham số và câu thứ 20 cho kiểm tra. Bảng 1. Độ chính xác của dịch NNE-UKW Tổng Dịch Độ chính UKW đúng xác (P) Dịch dựa vào từ 95 60 63,15% điển trực tuyến Dịch dựa vào từ 1220 599 49,09% con All NNE-UKW 1315 659 50.11% C. Thảo luận Với kết quả thử nghiệm như trên, chúng tôi nhận thấy rằng kết quả dịch trong hệ dịch phân đoạn từ thường tốt hơn so với hệ dịch cơ sở. Tuy nhiên, hệ dịch phân đoạn từ lại xuất hiện UKW nhiều hơn. Bên cạnh đó, chất lượng của hệ thống dịch lại UKW của chúng tôi thường tốt hơn so với trường hợp dịch phân đoạn từ. Điều này cũng dễ hiểu vì chất lượng của hệ dịch lại UKW đã bao gồm chất lượng của hệ dịch Hình 4. Các kết quả thử nghiệm phân đoạn từ cộng với chất lượng dịch UKW. Giả sử kết quả dịch lại sai hoàn toàn thì chất lượng của hệ Bên cạnh đó, chúng tôi cũng đánh giá độ chính dịch lại cũng không thấp hơn hệ dịch phân đoạn từ. xác của việc dịch NNE-UKW dựa vào công thức 3 Bảng 2 trình bày sáu trường hợp trong ngữ liệu kiểm như sau: tra. 𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺đượ𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 đú𝒏𝒏𝒏𝒏 𝑷𝑷 𝑷 (3) 𝑻𝑻𝑻𝒏𝒏𝒏𝒏 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔đượ𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 Bảng 2. Một số kết quả dịch qua ba hệ thống Câu tiếng Hoa Nghĩa đúng Hệ dịch cơ sở Hệ dịch phân Hệ dịch lại tiếng Việt doạn từ NNE-UKW 1. 能 给 我 一张 Có thể cho tôi Có thể cho tôi 1 Có thể cho tôi Có thể cho tôi 说明书 吗 ? một bản thuyết tờ cho thấy sách một 说 明 书 một bản thuyết minh không? không ? không ? minh không? 2. 去 美术馆 在 Đi phòng tranh Đi tàng mỹ thuật Đi 美术馆 ở đây đi phòng tranh ở 这 乘车吗? đón xe ở đây phải ở đây đón xe phải đi xe phải đây đón xe phải không? không ? không ? không? 3. 我 想 知道 票 Tôi muốn biết giá Tôi muốn biết giá Tôi muốn biết 票 Tôi muốn biết giá 价 从 上海 到 北 vé từ Thượng Hải vé từ Thượng Hải 价 từ Thượng vé từ Thượng Hải 京 đến Bắc Kinh đến Bắc Kinh Hải đến Bắc đến Bắc Kinh Kinh 4. 你 喜欢 平面 Bạn thích loại bạn thích bình bạn thích 平 面 Bạn thích mặt 银幕 的 吗 ? màn hình phẳng diện bạc mạc của 银幕 không ? bằng của màn không? không ? hình không? 5. 越南 有 很多 Việt Nam có rất Việt Nam có rất Việt Nam có rất Việt Nam có rất 传统 节日 , 如 nhiều ngày lễ nhiều truyền nhiều ngày hội nhiều ngày hội 端午节 、 中秋 truyền thống , thống như lễ tết , truyền thống, như truyền thống, như như tết đoan lễ trung thu 端午节 , 中秋节 tết đoan ngọ , 节 ngọ , tết trung thu chương. trung thu liên hoan 6. 这 件 晚装 我 Bộ đồ dạ hội này tôi muốn cái này Cái này 晚装 tôi Cái này tối hóa 要 在 今晚 的 宴 tôi cần mặc trong trang tối nay muốn ở tối của trang tôi muốn ở 会上穿 buổi tiệc tối nay chúng tôi mặc 宴会 trên mặc tối của yến hội trên mặc Tất cả hệ dịch đều có lỗi về nghĩa và trật tự từ, tuy cơ sở đã dịch được tất cả 6 trường hợp, nhưng kết quả nhiên, chúng tôi không đề cập về những lỗi này. Ở dịch của hệ dịch này thường không chính xác trừ câu đây, chúng tôi chỉ tập trung về những lỗi của các hệ số 3 (nhận dạng, dịch và đảo trật tự đúng hai ký tự 票 thống khi dịch các câu có chứa NNE-UKW. Hệ dịch /“vé” và 价/ “giá”). Trong những trường hợp còn lại, 209 209
  5. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) các ký tự trong câu tiếng Hoa đều tồn tại trong kho sở nên số lượng gióng hàng từ cũng như khả năng ngữ liệu huấn luyện, vì thế hệ dịch cơ sở đã chọn nhận dạng từ của hệ dịch này kém hơn so với hệ dịch nghĩa tiếng Việt có xác suất cao nhất làm kết quả dịch. cơ sở. Và kết quả là hệ dịch này phát sinh nhiều Tuy nhiên, những nghĩa này thường bị sai. Điển hình UKW hơn. Mặc khác, từ trong ngôn ngữ tự nhiên là như từ tiếng Hoa 说明书 ở trường hợp 1, nghĩa dịch tập mở nên dù kho ngữ liệu có lớn đến mức nào đi đúng của từ này là “bản thuyết minh”. Tuy nhiên, hệ nữa cũng không thể bao phủ hơn tất cả các từ, vì vậy dịch cơ sở lại dịch thành “cho thấy sách”. Sở dĩ như việc phát sinh UKW là điều không thể tránh khỏi vậy là vì nghĩa ký tự tương ứng “明/thấy” và “书 trong dịch máy. Kết quả dịch ở trường hợp phân đoạn /sách” có xác suất cao nhất trong kho ngữ liệu ở hệ từ được dịch lại qua hệ thống của chúng tôi. dịch cơ sở. Các lỗi sai tương tự ở những trường hợp Chúng ta tiếp tục thảo luận về sự cải tiến của hệ còn lại. thống dịch lại thông qua các câu ví dụ bên trên. Bảng Ở hệ dịch phân đoạn từ, do tổng số từ trong kho 3 sẽ minh họa các bước xử lý của hệ dịch lại đối với ngữ liệu của trường hợp này ít hơn so với hệ dịch cơ những trường hợp ở Bảng 3. Bảng 3. Minh họa các bước nhận dạng và dịch NNE-UKW Phân đoạn 1. 能 给 我 2. 去 美术 3. 我 想 知道 票 4. 你 喜 5. 越南 有 很 6. 这 件 晚装 từ 一张 说明 馆 在 这 价 从 上海 到 北 欢 平面 多 传统 节 我 要 在 今晚 书吗? 乘车吗? 京 银幕 的 日 , 如 端午 的 宴会 上 穿 吗? 节 、 中秋节 Kết quả dịch Có thể cho Đi 美术馆 Tôi muốn biết 票 bạn thích Việt Nam có Cái này 晚 装 phân đoạn tôi một 说 ở đây đi xe 价 từ Thượng 平 面 của rất nhiều ngày tôi muốn ở tối từ 明 书 phải không Hải đến Bắc 银 幕 hội truyền của 宴 会 trên không ? ? Kinh không ? thống, như 端 mặc 午节 , 中秋节 Nhận dạng Có thể cho đi 美 术 馆 Tôi muốn biết 票 bạn thích Việt Nam có Cái này 晚 装 NNE-UKW tôi một 说 /UKW ở 价 /UKW từ 平 面 rất nhiều ngày /UKW tôi muốn 明 书/UKW đây đi xe Thượng Hải đến /UKW hội truyền ở tối của 宴会 không ? phải Bắc Kinh của 银 幕 thống, như 端 /UKW trên mặc không ? /UKW 午 节 /UKW , không ? 中秋节/UKW Dịch NNE- ...说明书... … 美 术 … 票价 … ... 平面 ... ... 端午节 , 中 ... 晚 装 ... 宴 UKW 馆… 银幕 ... 秋节 会 ... ... bản ... phòng … giá vé … ... mặt ... tết đoan ... tối hóa thuyết tranh … bằng ... ngọ, trung thu trang ... yến minh ... màn liên hoan hội ... hình ... Giải thích sơ - Dịch dựa - Dịch dựa - Phân rã UKW - Dịch - Dịch dựa - 宴 会 được lược vào từ điển vào từ điển và dịch dựa vào dựa vào vào từ điển dịch dựa vào từ trực tuyến trực tuyến từ con và mô từ điển trực tuyến điển hình ngôn ngữ trực tuyến - 晚 装 được dịch dựa vào từ con và mô hình ngôn ngữ Bên cạnh những cải tiến như trên, chúng tôi cũng từ con này dựa vào từ điển và mô hình ngôn ngữ. Để phát hiện một số trường hợp dịch lại bị sai. Lỗi sai ở hạn chế không gian từ phát sinh, chúng tôi chỉ lấy trường hợp dịch dựa vào từ điển trực tuyến thường là nghĩa tiếng Việt đầu tiên trong từ điển và kết hợp sai ngữ cảnh. Ví dụ như UKW 平面 (ở câu 4 của không theo thứ tự các nghĩa này lại với nhau. Việc Bảng 2). Theo từ điển thì từ này có nghĩa lần lượt là chọn lựa như vậy có thể bị sai nếu nghĩa đúng của từ “mặt bằng”, “mặt phẳng”, “phẳng”. Hệ thống dịch lại con không phải là nghĩa đầu tiên trong từ điển. Bên đã chọn nghĩa “mặt bằng” để thay thế cho UKW. Tuy cạnh đó, hệ thống dịch lại sẽ chọn nghĩa tiếng Việt tốt nhiên, nghĩa thứ ba “phẳng” mới là sự chọn lựa đúng nhất dựa vào xác suất 2-gram cao nhất. Tuy nhiên ở cho trường hợp này. Mặc dù nghĩa “mặt bằng” không một số trường hợp thì xác suất cao nhất không đi đôi phù hợp với ngữ cảnh nhưng nó cũng gần với nghĩa với nghĩa tốt nhất. Điển hình như UKW 晚装 ở câu 6 của từ “phẳng”. Bảng 2 có nghĩa là “đồ dạ hội” hay “trang phục dạ hội” nhưng xác suất 2-gram cao nhất tương ứng của từ này Đối với các UKW không tồn tại trong từ điển, là “tối hóa trang”. chúng tôi phân rã chúng thành các từ con và dịch các 210 210
  6. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) V. KẾT LUẬN TÀI LIỆU THAM KHẢO Trong bài báo này, chúng tôi đã đề xuất một [1] Joao Silva, Luisa Coheur, Angela Costa, Isabel Trancoso, Dealing with unknown words in statistical machine phương pháp dịch NNE-UKW trong dịch máy Hoa- translation, in proceedings of the Eight International Việt dựa vào từ điển và mô hình ngôn ngữ. Kết quả Conference on Language Resources and Evaluation thực nghiệm cho thấy hệ dịch lại của chúng tôi đã cho (LREC'12), pp. 176-187, 2012. chất lượng dịch tốt hơn so với hệ dịch cơ sở, đã dịch [2] Matthias Eck, Stephan Vogel, Alex Waibel, Communicating đúng nhiều UKW của trường hợp phân đoạn từ, góp Unknown words in machine translation, in International Conference on Language Resources and Evaluation, pp.1542- phần làm tăng hiệu suất dịch máy. Bên cạnh đó, 1547, 2008. chúng tôi cũng thấy rằng hệ dịch lại UKW còn nhập [3] Khan Md. Anwarus Salam, Setsuo Yamada and Setsuo nhằng về nghĩa ở cả hai trường hợp: dịch dựa vào từ Yamada, How to Translate Unknown Words for English to điển trực tuyến cũng như dịch dựa vào phân rã thành Bangla Machine Translation Using Transliteration, Journal of từ con. computers, vol. 8, no. 5, pp.481-486, 2013. [4] Philippe Langais and Alexandre Patry, Translating Unknown Trong tương lai, chúng tôi sẽ tích hợp thêm thông Words by Analogical Learning, Conference on Empirical tin từ đồng nghĩa và mô hình ngôn ngữ vào hệ thống Methods in Natural Language Processing, pp.877-886, 2007. để khắc phục các lỗi của trường hợp dịch dựa vào từ [5] Karunesh Arora and Michael Paul and Eiichiro Sumita, Translation of unknown words in phrase-based statistical điển trực tuyến. Đối với phương pháp dịch dựa vào machine translation for languages of rich morphology, The phân rã thành từ con, chúng tôi sẽ điều chỉnh phân rã first International Workshop on Spoken Languages cách phân rã NNE-UKW cũng như mở rộng không Technologies for Under-resourced languages (SLTU - 2008), p.70-75, 2008. gian từ tiếng Việt để tìm nghĩa tiếng Việt phù hợp [6] Ruiqiang Zhang, Eiichiro Sumita, Chinese Unknown word nhất. Translation by Subword Re-segmentation, in International Joint Conference on Natural Language Processing, pp.225- 232, 2008. 211 211
nguon tai.lieu . vn