Xem mẫu
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Một Phương Pháp Dịch Từ Mới Trong
Dịch Máy Hoa-Việt
Trần Thanh Phước Nguyễn Thị Thanh Thảo
Khoa Công nghệ Thông tin Khoa Công nghệ Thông tin
Trường Đại Học Tôn Đức Thắng Trường Cao Đẳng Kinh Tế Kỹ Thuật TPHCM
tranthanhphuoc@tonducthang.edu.vn nguyenthithanthao@hotec.edu.vn
Trịnh Thanh Duy Đinh Điền
Khoa Kinh tế Kỹ thuật Khoa Công nghệ Thông tin
Trường Bách Khoa Sài Gòn Trường Đại Học Khoa Học Tự Nhiên, TP.HCM
trinhthanhduy@gmail.com ddien@fit.hcmus.edu.vn
Tóm tắt — Từ mới (UKW: Unknown word) là vấn đề Không giống như các ngôn ngữ phương Tây (điển
hiển nhiên trong dịch máy nói chung và trong dịch hình là tiếng Anh), từ trong tiếng Hoa và tiếng Việt
thống kê Hoa-Việt nói riêng. Hơn nữa, so với các ngôn không được phân định bởi khoảng trắng. Một câu
ngữ giàu tài nguyên khác như tiếng Hoa, Anh thì kho tiếng Hoa bao gồm một dãy các ký tự nằm liên tiếp
ngữ liệu song ngữ Hoa-Việt còn hạn chế, vì vậy, UKW
nhau và không có khoảng trắng giữa các ký tự này.
trong dịch máy Hoa-Việt lại càng nhiều hơn. Mặt khác,
ranh giới từ trong tiếng Hoa và tiếng Việt không được Trong tiếng Việt, các từ chính tả được cách với nhau
phân định bởi khoảng trắng, phân đoạn từ thường được bởi một khoảng trắng, dấu câu nằm liền sau từ chính
thực hiện đầu tiên trong dịch máy Hoa, Việt sang các tả. Do đó, việc phân đoạn từ thường được giải quyết
ngôn ngữ khác hoặc ngược lại. Việc phân đoạn từ làm đầu tiên trong dịch máy Hoa, Việt sang các ngôn ngữ
tăng chất lượng dịch chung cuộc nhưng lại phát sinh khác. Việc phân đoạn từ làm tăng chất lượng dịch
nhiều UKW. Chúng tôi chia UKW làm hai phần là nhưng thường phát sinh nhiều UKW hơn so với hệ
UKW dạng thực thể có tên và UKW không thuộc thực dịch cơ sở (hệ dịch không phân đoạn từ, xem mỗi ký
thể có tên (NNE-UKW). Trong bài báo này, chúng tôi sẽ tự tiếng Hoa và từ chính tả tiếng Việt là đơn vị độc
trình bày một phương pháp dịch NNE-UKW dựa vào
lập). Một ví dụ trong ngữ liệu thử nghiệm của chúng
việc phân rã từ và mô hình ngôn ngữ. Kết quả thử
nghiệm cho thấy phương pháp của chúng tôi đã tăng tôi như sau: từ tiếng Hoa 车票 (vé xe: bus ticket) là
điểm BLEU so với hệ dịch cơ sở và hệ dịch phân đoạn một UKW đối với hệ dịch phân đoạn từ nhưng không
từ. là UKW trong hệ dịch cơ sở (Hình 1).
Từ khóa — NNE-UKW, unknown word, dịch máy Hoa-
Việt, phân rã từ, mô hình ngôn ngữ.
I. GIỚI THIỆU
Hiệu suất dịch máy thống kê phụ thuộc vào độ lớn
và chất lượng của kho ngữ liệu song ngữ. Kho ngữ
liệu càng lớn và càng tinh khiết thì chất lượng của hệ Hình 1. Một ví dụ về hệ dịch cơ sở (dựa vào ký tự)
dịch sẽ càng cao. Để có được ngữ liệu song ngữ cho Từ 2 câu của ngữ ngữ liệu huấn luyện, chúng ta
hệ dịch máy thống kê (SMT: statistical machine
có được một gióng hàng ký tự 车 (xe) và 票 (vé)
translation), bên cạnh phương pháp thu thập bằng tay
(chúng tôi không quan tâm đến các gióng hàng ký tự
tốn kém thì phương pháp rút trích tự động từ các
website song ngữ ngày càng được sử dụng rộng rãi. khác). Do đó, ở câu kiểm tra, khi gặp hai ký tự 车 và
Phương pháp rút trích tự động này được thực hiện 票, hệ thống sẽ dịch được chúng. Ngược lại, khi phân
bằng cách dò tìm các các trang web song ngữ là bản đoạn từ, 2 character 车 và 票 kết hợp thành một từ
dịch của nhau. Các trang web song ngữ Hoa-Việt duy nhất 车票, hệ thống sẽ không dịch được từ này
hoặc Việt-Hoa hiện tại không nhiều, và nếu có thì các do ngữ liệu huấn luyện không tồn tại nó. Do đó,
bản dịch của nhau thường chưa thực sự song song. UKW 车票 sẽ được phát sinh.
Do đó, việc thu thập tự động ngữ liệu song ngữ Hoa-
Việt từ web hiện nay còn khó khăn và chất lượng ngữ Chúng tôi chia UKW tiếng Hoa thành hai loại:
liệu thu được thường không cao. Hiện tại, kho ngữ UKW dạng thực thể có tên và UKW không thuộc
liệu của hệ thống dù chất lượng khá tốt nhưng số thực thể có tên (NNE-UKW: Not Named Entity
lượng cặp câu chưa nhiều. Với kho ngữ liệu hạn chế UKW). Một từ tiếng Hoa có thể là một ký tự có nghĩa
như thế, thì từ mới (UKW: Unknown word) trong hệ hoặc bao gồm nhiều ký tự kết hợp lại với nhau và
dịch Hoa-Việt càng hiển nhiên hơn so với các hệ dịch UKW thường là những từ bao gồm nhiều ký tự hợp
cho cặp ngôn ngữ giàu tài nguyên khác. lại. Chúng tôi sẽ phân rã UKW thành những từ con
nhỏ hơn và dịch các từ con này. Sau đó, chúng tôi sẽ
ISBN: 978-604-67-0635-9 206
206
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
chọn ra nghĩa tiếng Việt tốt nhất dựa vào xác suất theo kiểu: “A is to B as C is to D”, ví dụ như:
đồng xuất hiện của các nghĩa tiếng Việt của các từ [comfortable : uncomfortable = translatable :
con. untranslatable] trong tiếng Anh. Nhóm tác giả phát
hiện rằng phương pháp của họ có thể dịch chính xác
Bài báo này được trình bày như sau: ở Phần 2,
đến 80% các UKW không thuộc thực thể có tên.
chúng tôi sẽ trình bày các công trình liên quan đến
Phương pháp này đã được thử nghiệm trên các cặp
bài toán xử lý UKW trong dịch máy. Phần nhận dạng
ngôn ngữ như: Pháp-Anh, Đức-Anh và Tây Ban Nha-
cũng như dịch UKW sẽ được trình bày ở Phần 3.
Anh.
Trong khi đó, ở Phần 4, chúng tôi sẽ mô tả các thử
nghiệm cũng như một số thảo luận. Phần kết luận sẽ Riêng đối với các cặp ngôn ngữ giàu hình thái thì
được trình bày ở Phần 5. nhóm tác giả Karunesh Arora và đồng sự [5] đã sử
dụng các kỹ thuật xấp xỉ từ vựng để nhận diện chính
II. CÔNG TRÌNH LIÊN QUAN tả cũng như các biến thể của từ trong kho ngữ liệu
Hiện nay có rất nhiều nghiên cứu với các hướng huấn luyện. Tất cả UKW trong câu nguồn sẽ được
tiếp cận khác nhau nhằm dịch lại UKW, nâng cao thay thế bằng các từ biến thể tương ứng được tìm
hiệu suất dịch máy. Dựa vào phép chính tả của từ, thấy trong ngữ liệu huấn luyện, điều này đã làm giảm
nhóm tác giả Joao Silva và các đồng sự [1] đã đề xuất khá nhiều số lượng UKW trong câu đầu vào. Phương
hai phương pháp nhằm khắc phục các UKW, đó là: pháp này được các tác giả thử nghiệm trên cặp ngôn
phát hiện từ cùng nguồn gốc (cognates’ detection) và ngữ Hin Đi - Nhật.
độ tương tự hợp lý (logical analogy) để dịch lại UKW.
Hướng tiếp cận này đã thực hiện thành công cho cặp III. PHƯƠNG PHÁP DỊCH NNE-UKW
ngôn ngữ biến hình Anh - Bồ Đào Nha. Chúng tôi phân đoạn từ cho ngữ liệu tiếng Hoa và
tiếng Việt trước khi huấn luyện và dịch bởi công cụ
Một hướng tiếp cận khác để xử lý UKW được
SMT. Trong thử nghiệm, chúng tôi sử dụng công cụ
thực hiện bởi tác giả Matthias Eck và các đồng sự [2].
Stanfor Segmenter1 để phân đoạn từ tiếng Hoa, công
Nhóm tác giả này đã tìm các định nghĩa của các
cụ VnTokenizer2 để phân đoạn từ tiếng Việt, công cụ
UKW ở ngôn ngữ nguồn và dịch các định nghĩa của
MOSES3 để thực hiện huấn luyện và dịch. Kết quả
UKW này (thay vì dịch các UKW). Các định nghĩa
dịch của SMT tiếp tục được chúng tôi nhận diện
của UKW sẽ được rút trích tự động từ các từ điển
NNE-UKW và dịch lại theo mô hình ở Hình 2.
trực tuyến và các bách khoa toàn thư, sau đó chúng
được dịch lại qua hệ thống SMT. Kết quả dịch này sẽ
thay thế các UKW ở bản dịch cũ. Phương pháp đã
được các tác giả thử nghiệm trên cặp ngôn ngữ Anh –
Tây Ban Nha. Trong bài báo này, chúng tôi cũng có
áp dụng từ điển trực tuyến để tìm và dịch nghĩa cho
UKW.
Ở khía cạnh khác, tác giả Ruiqiang Zhang và
đồng sự [6] đã dịch lại các UKW bằng cách phân rã
các UKW thành các từ con (subwords). Nhóm tác giả
đã phân rã các UKW tiếng Hoa thành các từ con và
dịch dựa vào các từ con này (subword-based
translation). Từ con là một đơn vị ở giữa ký tự và từ.
Bên cạnh đó, nhóm tác giả còn phát hiện ra rằng, chất
lượng dịch sẽ tăng đáng kể nếu áp dụng nhận dạng
tên riêng (Named Entity recognition: NER) để dịch
các UKW trước khi áp dụng dịch dựa vào từ con.
Hình 2. Mô hình dịch NNE-UKW
WordNet và phiên âm quốc tế (IPA) cũng được sử
dụng để xử lý UKW. Khan MD và đồng sự [3] đã sử Bước 1: Chúng tôi tìm kiếm nghĩa của NNE-
dụng hai yếu tố này để dịch UKW trong dịch máy UKW trên từ điển Hoa-Việt trực tuyến. Chúng tôi
dựa trên ví dụ (EBMT) từ tiếng Anh sang tiếng tận dụng sự phong phú từ vựng của từ điển trực
Bangla. Đầu tiên, hệ thống sẽ tìm trong WordNet các tuyến với mong muốn có thể tìm được nghĩa tiếng
từ tiếng Anh có nghĩa liên quan đến UKW. Từ những Việt của UKW. Trong thử nghiệm, chúng tôi sử
từ có nghĩa liên quan này, hệ thống sẽ chọn ra từ có
nghĩa gần nhất nhất tồn tại trong từ điển Anh-Bangla.
1
Giả sử như không tìm được từ thỏa mãn, hệ thống sẽ Download tại:
sử dụng phiên âm quốc tế để chuyển ngữ cho UKW. http://nlp.stanford.edu/software/segmenter.shtml
2
Download tại:
Bên cạnh đó, tác giả Philippe Langlais và các http://vlsp.vietlp.org:8080/demo/?page=resources
đồng sự [4] đã sử dụng phương pháp học tương tự để 3
Download at:
dịch lại UKW. Khái niệm về sự tương tự được định http://www.statmt.org/moses/?n=Moses.Releases
nghĩa như sau: [A : B = C : D], thể hiện mối quan hệ
207
207
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
dụng từ điển Hoa-Việt trực tuyến từ trang web 𝑃𝑃(𝑤𝑤𝑖𝑖3 |𝑤𝑤𝑖𝑖2 ) + ⋯ + 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖 |𝑤𝑤𝑖𝑖(𝑛𝑛−1) )
“https://vi.glosbe.com/zh/vi/” để tra cứu các
Nghĩa tiếng Việt tốt nhất là nghĩa có tổng xác suất
UKW. Ví dụ như từ 咖哩 (món cà ri: curry), từ
lớn nhất. Hình 3 minh họa quá trình phân rã và dịch
này là UKW đối với kho ngữ liệu song ngữ Hoa-
Việt nhưng lại là từ vựng có trong từ điển Hoa- UKW 手提包 (túi xách tay: handbag), từ này không
Việt trực tuyến. tồn tại trong từ điển Hoa-Việt trực tuyến.
Giả sử phương pháp sử dụng từ điển ở bước (1)
vẫn không giải quyết được UKW, hệ thống phân rã
UKW thành các từ con và dịch nghĩa của các từ
con này. Phương pháp phân rã và dịch từ con như
sau:
─ Phân rã một UKW thành các từ con dựa vào
từ điển. Từ con ở đây có thể là một từ gồm
nhiều ký tự (hiển nhiên là nhỏ hơn UKW), cũng
có thể là một ký tự riêng biệt. Một ký tự tiếng
Hoa đều có nghĩa tương ứng ở tiếng Việt và Hình 3. Minh họa phân rã và dịch NNE-UKW
chúng ta hoàn toàn có thể xem ký tự tiếng Hoa
là một từ có nghĩa độc lập. Từ tiếng Hoa là vô “túi xách tay” là từ có tổng xác suất 2-gram cao nhất,
hạn nhưng ký tự tiếng Hoa là hữu hạn và được vì vậy từ này sẽ thay thế UKW 手提包 trong bản
lưu trữ trong từ điển. Do đó, khi đã phân rã dịch tiếng Việt cuối cùng.
UKW đến mức ký tự thì vấn đề UKW là không
còn.
IV. THỬ NGHIỆM VÀ THẢO LUẬN
─ Bước kế tiếp, hệ thống sẽ dịch các từ con này
dựa vào từ điển. Một từ con có thể có nhiều A. Ngữ liệu thử nghiệm
nghĩa, có nghĩa phổ biến và có một số nghĩa ít Kho ngữ liệu thử nghiệm của chúng tôi bao gồm
xuất hiện. Để hạn chế không gian từ phát sinh, 30.000 cặp căp Hoa-Việt được lấy từ các sách dạy
trong thử nghiệm, chúng tôi chỉ chọn nghĩa đầu đàm thoại tiếng Hoa, các diễn đàn tiếng Hoa trực
tiên trong từ điển. Sau bước này, một tập hợp tuyến và các website song ngữ Hoa-Việt. Cụ thể như:
nghĩa của các từ con sẽ được phát sinh. sách “301 câu đàm thoại tiếng Hoa” website
“http://www.dantiengtrung.com.vn”, website song
─ Từ tập hợp nghĩa của các từ con, hệ thống ngữ “http://www.dongnai.gov.vn”, ... Chúng tôi sử
phát sinh tập hợp nghĩa tiếng Việt bằng cách kết dụng 90% cặp câu cho huấn luyện, 5% cho kiểm tra
hợp không theo thứ tự tất cả các nghĩa của các và 5% cho điều chỉnh tham số. Các kho ngữ liệu huấn
từ con của một UKW. Sau bước này, chúng ta luyện được huấn luyện bởi công cụ Moses với các
đã có được tập hợp nghĩa tiếng Việt của UKW. tham số mặc định. Chúng tôi sử dụng ngữ liệu của
─ Kế tiếp, hệ thống lọc ra nghĩa tốt nhất từ tập nhóm VLSP với 212.454 câu tiếng Việt để huấn
hợp nghĩa của các từ con. Giả sử rằng từ wi (wi luyện mô hình ngôn ngữ tiếng Việt.
= wi1wi2...win) là một trong các nghĩa tiếng Việt B. Thực hiện thử nghiệm
của UKW, với wij (𝑗𝑗 𝑗 𝑗𝑗𝑗 𝑗𝑗𝑗) là một nghĩa tiếng
Chúng tôi sử dụng các ngữ liệu này để thực hiện
Việt của từ con và n là tổng số từ chính tả trong
ba thử nghiệm sau:
từ wi. Chúng tôi sử dụng mô hình ngôn ngữ n-
gram được huấn luyện trên ngữ liệu tiếng Việt Hệ dịch cơ sở (1): chúng tôi xem ký tự tiếng
như sau: (công thức (1)). Hoa và từ chính tả tiếng Việt như những đơn vị
𝑃𝑃(𝑤𝑤𝑖𝑖1 … 𝑤𝑤𝑖𝑖𝑖𝑖 ) = 𝑃𝑃(𝑤𝑤𝑖𝑖1 )𝑃𝑃(𝑤𝑤𝑖𝑖2 |𝑤𝑤𝑖𝑖1 )𝑃𝑃(𝑤𝑤𝑖𝑖3 |𝑤𝑤𝑖𝑖1 𝑤𝑤𝑖𝑖2 )
độc lập có nghĩa. Chúng tôi chèn một khoảng
(1) trắng vào giữa các ký tự tiếng Hoa và chèn một
… 𝑃𝑃(𝑤𝑤𝑖𝑖𝑖𝑖 |𝑤𝑤𝑖𝑖1 𝑤𝑤𝑖𝑖2 … 𝑤𝑤𝑖𝑖(𝑛𝑛−1) )
khoảng trắng vào giữa dấu câu và từ chính tả
Trong thử nghiệm, chúng tôi sử dụng công cụ trong tiếng Việt.
SRILM 4 với mô hình ngôn ngữ 2-gram để chọn ra Hệ dịch phân đoạn từ (2): chúng tôi phân đoạn
nghĩa tiếng Việt phù hợp nhất. Để tránh xác suất 2- từ tiếng Hoa bằng công cụ Stanford Segmenter,
gram bằng không, chúng tôi tiến hành cộng các xác và công cụ VnTokenizer cho tiếng Việt.
suất với nhau thay vì nhân chúng lại (công thức (2). Sau đó, chúng tôi tiến hành dịch ngữ liệu kiểm
tra tiếng Hoa bằng công cụ Moses cho cả hai
𝑃𝑃(𝑤𝑤𝑖𝑖1 … 𝑤𝑤𝑖𝑖𝑖𝑖 ) = 𝑃𝑃(𝑤𝑤𝑖𝑖2 |𝑤𝑤𝑖𝑖1 ) + (2) trường hợp (1) và (2). Kết quả dịch của trường
hợp (2) tiếp tục được nhận dạng và dịch lại NNE-
UKW.
4
Download tại: Tùy thuộc vào việc chọn lựa các câu trong ngữ
http://www.speech.sri.com/projects/srilm/download.htm liệu kiểm tra mà điểm BLEU có giá trị khác nhau.
l Hình 4 minh họa điểm BLEU cho cách chọn lựa ngữ
208
208
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
liệu kiểm tra theo định dạng như sau: mỗi 20 câu Kết quả dịch NNE-UKW trong 1.500 câu kiểm tra
trong kho ngữ liệu thì 18 câu đầu tiên dành cho huấn được trình bày ở Bảng 1.
luyện, câu thứ 19 cho điều chỉnh tham số và câu thứ
20 cho kiểm tra. Bảng 1. Độ chính xác của dịch NNE-UKW
Tổng Dịch Độ chính
UKW đúng xác (P)
Dịch dựa vào từ
95 60 63,15%
điển trực tuyến
Dịch dựa vào từ
1220 599 49,09%
con
All NNE-UKW 1315 659 50.11%
C. Thảo luận
Với kết quả thử nghiệm như trên, chúng tôi nhận
thấy rằng kết quả dịch trong hệ dịch phân đoạn từ
thường tốt hơn so với hệ dịch cơ sở. Tuy nhiên, hệ
dịch phân đoạn từ lại xuất hiện UKW nhiều hơn. Bên
cạnh đó, chất lượng của hệ thống dịch lại UKW của
chúng tôi thường tốt hơn so với trường hợp dịch phân
đoạn từ. Điều này cũng dễ hiểu vì chất lượng của hệ
dịch lại UKW đã bao gồm chất lượng của hệ dịch
Hình 4. Các kết quả thử nghiệm phân đoạn từ cộng với chất lượng dịch UKW. Giả sử
kết quả dịch lại sai hoàn toàn thì chất lượng của hệ
Bên cạnh đó, chúng tôi cũng đánh giá độ chính dịch lại cũng không thấp hơn hệ dịch phân đoạn từ.
xác của việc dịch NNE-UKW dựa vào công thức 3 Bảng 2 trình bày sáu trường hợp trong ngữ liệu kiểm
như sau: tra.
𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺𝑺đượ𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄 đú𝒏𝒏𝒏𝒏
𝑷𝑷 𝑷 (3)
𝑻𝑻𝑻𝒏𝒏𝒏𝒏 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔đượ𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄𝒄
Bảng 2. Một số kết quả dịch qua ba hệ thống
Câu tiếng Hoa Nghĩa đúng Hệ dịch cơ sở Hệ dịch phân Hệ dịch lại
tiếng Việt doạn từ NNE-UKW
1. 能 给 我 一张 Có thể cho tôi Có thể cho tôi 1 Có thể cho tôi Có thể cho tôi
说明书 吗 ? một bản thuyết tờ cho thấy sách một 说 明 书 một bản thuyết
minh không? không ? không ? minh không?
2. 去 美术馆 在 Đi phòng tranh Đi tàng mỹ thuật Đi 美术馆 ở đây đi phòng tranh ở
这 乘车吗? đón xe ở đây phải ở đây đón xe phải đi xe phải đây đón xe phải
không? không ? không ? không?
3. 我 想 知道 票 Tôi muốn biết giá Tôi muốn biết giá Tôi muốn biết 票 Tôi muốn biết giá
价 从 上海 到 北 vé từ Thượng Hải vé từ Thượng Hải 价 từ Thượng vé từ Thượng Hải
京 đến Bắc Kinh đến Bắc Kinh Hải đến Bắc đến Bắc Kinh
Kinh
4. 你 喜欢 平面 Bạn thích loại bạn thích bình bạn thích 平 面 Bạn thích mặt
银幕 的 吗 ? màn hình phẳng diện bạc mạc của 银幕 không ? bằng của màn
không? không ? hình không?
5. 越南 有 很多 Việt Nam có rất Việt Nam có rất Việt Nam có rất Việt Nam có rất
传统 节日 , 如 nhiều ngày lễ nhiều truyền nhiều ngày hội nhiều ngày hội
端午节 、 中秋 truyền thống , thống như lễ tết , truyền thống, như truyền thống, như
như tết đoan lễ trung thu 端午节 , 中秋节 tết đoan ngọ ,
节
ngọ , tết trung thu chương. trung thu liên
hoan
6. 这 件 晚装 我 Bộ đồ dạ hội này tôi muốn cái này Cái này 晚装 tôi Cái này tối hóa
要 在 今晚 的 宴 tôi cần mặc trong trang tối nay muốn ở tối của trang tôi muốn ở
会上穿 buổi tiệc tối nay chúng tôi mặc 宴会 trên mặc tối của yến hội
trên mặc
Tất cả hệ dịch đều có lỗi về nghĩa và trật tự từ, tuy cơ sở đã dịch được tất cả 6 trường hợp, nhưng kết quả
nhiên, chúng tôi không đề cập về những lỗi này. Ở dịch của hệ dịch này thường không chính xác trừ câu
đây, chúng tôi chỉ tập trung về những lỗi của các hệ số 3 (nhận dạng, dịch và đảo trật tự đúng hai ký tự 票
thống khi dịch các câu có chứa NNE-UKW. Hệ dịch /“vé” và 价/ “giá”). Trong những trường hợp còn lại,
209
209
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
các ký tự trong câu tiếng Hoa đều tồn tại trong kho sở nên số lượng gióng hàng từ cũng như khả năng
ngữ liệu huấn luyện, vì thế hệ dịch cơ sở đã chọn nhận dạng từ của hệ dịch này kém hơn so với hệ dịch
nghĩa tiếng Việt có xác suất cao nhất làm kết quả dịch. cơ sở. Và kết quả là hệ dịch này phát sinh nhiều
Tuy nhiên, những nghĩa này thường bị sai. Điển hình UKW hơn. Mặc khác, từ trong ngôn ngữ tự nhiên là
như từ tiếng Hoa 说明书 ở trường hợp 1, nghĩa dịch tập mở nên dù kho ngữ liệu có lớn đến mức nào đi
đúng của từ này là “bản thuyết minh”. Tuy nhiên, hệ nữa cũng không thể bao phủ hơn tất cả các từ, vì vậy
dịch cơ sở lại dịch thành “cho thấy sách”. Sở dĩ như việc phát sinh UKW là điều không thể tránh khỏi
vậy là vì nghĩa ký tự tương ứng “明/thấy” và “书 trong dịch máy. Kết quả dịch ở trường hợp phân đoạn
/sách” có xác suất cao nhất trong kho ngữ liệu ở hệ từ được dịch lại qua hệ thống của chúng tôi.
dịch cơ sở. Các lỗi sai tương tự ở những trường hợp Chúng ta tiếp tục thảo luận về sự cải tiến của hệ
còn lại. thống dịch lại thông qua các câu ví dụ bên trên. Bảng
Ở hệ dịch phân đoạn từ, do tổng số từ trong kho 3 sẽ minh họa các bước xử lý của hệ dịch lại đối với
ngữ liệu của trường hợp này ít hơn so với hệ dịch cơ những trường hợp ở Bảng 3.
Bảng 3. Minh họa các bước nhận dạng và dịch NNE-UKW
Phân đoạn 1. 能 给 我 2. 去 美术 3. 我 想 知道 票 4. 你 喜 5. 越南 有 很 6. 这 件 晚装
từ 一张 说明 馆 在 这 价 从 上海 到 北 欢 平面 多 传统 节 我 要 在 今晚
书吗? 乘车吗? 京 银幕 的 日 , 如 端午 的 宴会 上 穿
吗? 节 、 中秋节
Kết quả dịch Có thể cho Đi 美术馆 Tôi muốn biết 票 bạn thích Việt Nam có Cái này 晚 装
phân đoạn tôi một 说 ở đây đi xe 价 từ Thượng 平 面 của rất nhiều ngày tôi muốn ở tối
từ 明 书 phải không Hải đến Bắc 银 幕 hội truyền của 宴 会 trên
không ? ? Kinh không ? thống, như 端 mặc
午节 , 中秋节
Nhận dạng Có thể cho đi 美 术 馆 Tôi muốn biết 票 bạn thích Việt Nam có Cái này 晚 装
NNE-UKW tôi một 说 /UKW ở 价 /UKW từ 平 面 rất nhiều ngày /UKW tôi muốn
明 书/UKW đây đi xe Thượng Hải đến /UKW hội truyền ở tối của 宴会
không ? phải Bắc Kinh của 银 幕 thống, như 端 /UKW trên mặc
không ? /UKW 午 节 /UKW ,
không ? 中秋节/UKW
Dịch NNE- ...说明书... … 美 术 … 票价 … ... 平面 ... ... 端午节 , 中 ... 晚 装 ... 宴
UKW 馆… 银幕 ... 秋节 会 ...
... bản ... phòng … giá vé … ... mặt ... tết đoan ... tối hóa
thuyết tranh … bằng ... ngọ, trung thu trang ... yến
minh ... màn liên hoan hội ...
hình ...
Giải thích sơ - Dịch dựa - Dịch dựa - Phân rã UKW - Dịch - Dịch dựa - 宴 会 được
lược vào từ điển vào từ điển và dịch dựa vào dựa vào vào từ điển dịch dựa vào từ
trực tuyến trực tuyến từ con và mô từ điển trực tuyến điển
hình ngôn ngữ trực tuyến - 晚 装 được
dịch dựa vào từ
con và mô hình
ngôn ngữ
Bên cạnh những cải tiến như trên, chúng tôi cũng từ con này dựa vào từ điển và mô hình ngôn ngữ. Để
phát hiện một số trường hợp dịch lại bị sai. Lỗi sai ở hạn chế không gian từ phát sinh, chúng tôi chỉ lấy
trường hợp dịch dựa vào từ điển trực tuyến thường là nghĩa tiếng Việt đầu tiên trong từ điển và kết hợp
sai ngữ cảnh. Ví dụ như UKW 平面 (ở câu 4 của không theo thứ tự các nghĩa này lại với nhau. Việc
Bảng 2). Theo từ điển thì từ này có nghĩa lần lượt là chọn lựa như vậy có thể bị sai nếu nghĩa đúng của từ
“mặt bằng”, “mặt phẳng”, “phẳng”. Hệ thống dịch lại con không phải là nghĩa đầu tiên trong từ điển. Bên
đã chọn nghĩa “mặt bằng” để thay thế cho UKW. Tuy cạnh đó, hệ thống dịch lại sẽ chọn nghĩa tiếng Việt tốt
nhiên, nghĩa thứ ba “phẳng” mới là sự chọn lựa đúng nhất dựa vào xác suất 2-gram cao nhất. Tuy nhiên ở
cho trường hợp này. Mặc dù nghĩa “mặt bằng” không một số trường hợp thì xác suất cao nhất không đi đôi
phù hợp với ngữ cảnh nhưng nó cũng gần với nghĩa với nghĩa tốt nhất. Điển hình như UKW 晚装 ở câu 6
của từ “phẳng”. Bảng 2 có nghĩa là “đồ dạ hội” hay “trang phục dạ hội”
nhưng xác suất 2-gram cao nhất tương ứng của từ này
Đối với các UKW không tồn tại trong từ điển,
là “tối hóa trang”.
chúng tôi phân rã chúng thành các từ con và dịch các
210
210
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
V. KẾT LUẬN TÀI LIỆU THAM KHẢO
Trong bài báo này, chúng tôi đã đề xuất một [1] Joao Silva, Luisa Coheur, Angela Costa, Isabel Trancoso,
Dealing with unknown words in statistical machine
phương pháp dịch NNE-UKW trong dịch máy Hoa- translation, in proceedings of the Eight International
Việt dựa vào từ điển và mô hình ngôn ngữ. Kết quả Conference on Language Resources and Evaluation
thực nghiệm cho thấy hệ dịch lại của chúng tôi đã cho (LREC'12), pp. 176-187, 2012.
chất lượng dịch tốt hơn so với hệ dịch cơ sở, đã dịch [2] Matthias Eck, Stephan Vogel, Alex Waibel, Communicating
đúng nhiều UKW của trường hợp phân đoạn từ, góp Unknown words in machine translation, in International
Conference on Language Resources and Evaluation, pp.1542-
phần làm tăng hiệu suất dịch máy. Bên cạnh đó, 1547, 2008.
chúng tôi cũng thấy rằng hệ dịch lại UKW còn nhập [3] Khan Md. Anwarus Salam, Setsuo Yamada and Setsuo
nhằng về nghĩa ở cả hai trường hợp: dịch dựa vào từ Yamada, How to Translate Unknown Words for English to
điển trực tuyến cũng như dịch dựa vào phân rã thành Bangla Machine Translation Using Transliteration, Journal of
từ con. computers, vol. 8, no. 5, pp.481-486, 2013.
[4] Philippe Langais and Alexandre Patry, Translating Unknown
Trong tương lai, chúng tôi sẽ tích hợp thêm thông Words by Analogical Learning, Conference on Empirical
tin từ đồng nghĩa và mô hình ngôn ngữ vào hệ thống Methods in Natural Language Processing, pp.877-886, 2007.
để khắc phục các lỗi của trường hợp dịch dựa vào từ [5] Karunesh Arora and Michael Paul and Eiichiro Sumita,
Translation of unknown words in phrase-based statistical
điển trực tuyến. Đối với phương pháp dịch dựa vào machine translation for languages of rich morphology, The
phân rã thành từ con, chúng tôi sẽ điều chỉnh phân rã first International Workshop on Spoken Languages
cách phân rã NNE-UKW cũng như mở rộng không Technologies for Under-resourced languages (SLTU - 2008),
p.70-75, 2008.
gian từ tiếng Việt để tìm nghĩa tiếng Việt phù hợp
[6] Ruiqiang Zhang, Eiichiro Sumita, Chinese Unknown word
nhất. Translation by Subword Re-segmentation, in International
Joint Conference on Natural Language Processing, pp.225-
232, 2008.
211
211
nguon tai.lieu . vn