Xem mẫu

  1. Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh 215 Xây dựng mô hình và thuật toán hợp nhất dữ liệu từ điển phục vụ xử lý ngôn ngữ tự nhiên Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình, và Đinh Thị Mỹ Hạnh Khoa Công nghệ thông tin và Truyền thông – Đại học Đà Nẵng hcphap@sict.udn.vn, nvbinh@sict.udn.vn, cxtuan@sict.udn.vn, dtmhanh@ac.udn.vn Tóm tắt. Dữ liệu từ điển có vai trò quan trọng và được ứng dụng cho nhiều bài toán khác nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên như: dịch máy, tìm kiếm, tách từ, gióng hàng... Tuy nhiên, một trong những thực trạng hiện nay là các từ điển đang tồn tại rãi rác, riêng biệt, cấu trúc dữ liệu đa dạng, kích thức nhỏ và số cặp ngôn ngữ hạn chế. Theo đó, việc khai thác và sử dụng các từ điển hiện nay là chưa hiệu quả và còn gặp rất nhiều khó khăn. Người dùng có thể phải truy xuất nhiều từ điển đồng thời để có thể tra cứu cùng một từ hoặc tập hợp từ ở các lĩnh vực khác nhau. Trong bài báo này, chúng tôi đề xuất giải pháp khai phá các nguồn dữ liệu từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển đồng nhất, có kích thước và số cặp ngôn ngữ lớn hơn nhằm phục vụ khai thác và sử dụng hiệu quả hơn. Giải pháp chúng tôi đề xuất trong phạm vi bài báo này dừng lại ở đề xuất mô hình toán học và thuật toán hợp nhất các từ điển để tạo nguồn dữ liệu từ điển lớn hơn về kích thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngôn ngữ. Từ khóa: Hợp nhất dữ liệu; mô hình; thuật toán hợp nhất dữ liệu; từ điển đa ngữ; hợp nhất từ điển; khai phá dữ liệu văn bản. 1 Giới thiệu Dữ liệu luôn đóng vai trò quyết định đến chất lượng hoạt động của các công cụ và hệ thống xử lý ngôn ngữ tự nhiên. Dữ liệu trong lĩnh vực xử lý ngôn ngữ tự nhiên bao gồm các loại phổ biến như các kho ngữ liệu, treebanks, từ điển. Trong đó, dữ liệu từ điển có vai trò rất quan trọng để phục vụ dịch tự động và phát triển các công cụ xử lý ngôn ngữ tự nhiên, chẳng hạn như các công cụ hỗ trợ học tập, tra cứu, các công cụ tách từ dựa trên thuật toán maximum matching, các công cụ gióng hàng... Với tính chất quan trọng như vậy nên dữ liệu từ điển đã được xây dựng và phát triển rất mạnh, tồn tại ở nhiều dạng khác nhau như từ điển giấy, máy từ điển, từ điển trên máy tính. Trong đó, dữ liệu từ điển trên máy tính là dạng được phát triển mạnh và phổ biến nhất hiện nay. Mặc dù vậy, nếu xét từng từ điển riêng lẻ, kích thước và số cặp ngôn ngữ vẫn còn hạn chế so với yêu cầu sử dụng thực tế và yêu cầu để xây dựng các hệ thống xử lý ngôn ngữ tự nhiên chất lượng và hiệu quả. Thật vậy, ngay cả các từ điển đa ngữ được xem là lớn nhất hiện nay như Gregg Cox cũng chỉ chứa khoảng 5 triệu từ với 225 ngôn ngữ, hay từ điển trực tuyến Logos chứa khoảng 8 triệu từ với 250 ngôn ngữ [8]. Trong khi đó, số lượng ngôn ngữ nói trên thế giới hiện nay ước tính khoảng 6500 ngôn ngữ cũng như nhu cầu sử dụng dữ liệu của các hệ thống xử lý ngôn ngữ tự nhiên như dịch tự động thống kê cũng vượt xa rất nhiều con số của các từ điển kể trên [2]. Hơn nữa, mỗi loại từ điển được xây dựng với cấu trúc dữ liệu, định dạng dữ liệu, lĩnh vực từ vựng và nội dung giải nghĩa khác nhau. Do đó, vấn đề đặt ra là làm thế nào để có thể khai thác
  2. 216 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC và sử dụng hiệu quả các nguồn dữ liệu từ điển đang tồn tại nhằm phục vụ tốt hơn nhu cầu của người sử dụng và yêu cầu xây dựng các hệ thống xử lý ngôn ngữ tự nhiên chất lượng. Giải pháp chúng tôi đề xuất trong bài báo này là tìm cách hợp nhất các nguồn dữ liệu từ điển đang tồn tại để tạo nguồn dữ liệu từ điển lớn hơn về kích thước, về số cặp ngôn ngữ, đầy đủ hơn về lĩnh vực, nội dung giải nghĩa, đồng thời có cấu trúc và định dạng chuẩn và đồng nhất nhằm phục vụ tốt hơn cho việc khai thác và sử dụng của người sử dụng và các hệ thống xử lý ngôn ngữ tự nhiên. Giải pháp hợp nhất các nguồn dữ liệu từ điển bao gồm các khía cạnh: hợp nhất về mặt cấu trúc và định dạng dữ liệu; hợp nhất về mặt dữ liệu và ngôn ngữ. Trong đó, hợp nhất về mặt cấu trúc và định dạng là đề xuất một cấu trúc dữ liệu và định dạng lưu trữ tối ưu, chuẩn cho phép chuyển đổi các nguồn dữ liệu khác nhau để xây dựng một nguồn dữ liệu có cấu trúc và định dạng đồng nhất cho phép khai thác hiệu quả và thuận lợi. Hợp nhất về mặt dữ liệu và cặp ngôn ngữ là quá trình trộn, liên kết các nguồn dữ liệu để xây dựng nguồn dữ liệu lớn hơn về kích thước, đầy đủ hơn về nghĩa diễn giải và nhiều hơn về số cặp ngôn ngữ. 2 Tổng quan về từ điển và xây dựng tài nguyên dữ liệu lớn 2.1 Tổng quan về từ điển và dữ liệu từ điển Từ điển được xem là một trong những công cụ xử lý ngôn ngữ tự nhiên phổ biến và hữu dụng nhất đối với con người trong việc hỗ trợ tra cứu và học ngoại ngữ. Đối với nhiều hệ thống xử lý ngôn ngữ tự nhiên như hệ thống dịch, tách từ, gióng hàng,... dữ liệu từ điển đóng vai trò vô cùng quan trọng, quyết định đến chất lượng và hiệu quả hoạt động của chúng. Từ điển có thể được phân loại theo nhiều cách khác nhau. Xét về phương diện phiên bản tồn tại, từ điển được phân thành hai loại chính như sau: từ điển giấy và từ điển điện tử. Từ điển giấy chủ yếu phục vụ cho con người trong việc tra cứu và học tập, nhược điểm của nó là việc tra cứu từ sẽ mất rất nhiều thời gian tìm kiếm do người học phải làm thủ công. Trong khi đó, từ điển điện tử, đa số ở dạng phần mềm máy tính rất phổ biến hiện nay và có nhiều ưu điểm hơn từ điển giấy. Từ điển máy tính không chỉ phục vụ cho con người tra cứu mà còn được sử dụng cho nhiều mục đích khác nhau trong lĩnh vực xử lý ngôn ngữ tự nhiên. Xét về khía cạnh ngôn ngữ, từ điển có thể được chia thành các loại từ điển đơn ngữ (monolingual), từ điển song ngữ (bilingual) và từ điển đa ngữ (multilingual). Trong đó, các từ điển đơn ngữ lớn nhất hiện nay như: từ điển tiếng Hà Lan Woordenboek der Nederlandsche Taal được xem như từ điển đơn ngữ lớn nhất hiện, được xây dựng trong 134 năm (từ 1864 đến 1998) với 40 tập chứa hàng triệu từ; từ điển tiếng Đức Deutsches Wörterbuch, từ điển tiếng Anh Oxford English Dictionary chứa khoảng 600.000 từ. Các từ điển song ngữ lớn nhất phải kể đến như từ điển tiếng Anh-Đức xuất bản bởi Langenscheidt chứa khoảng 400.000 từ và giải nghĩa, từ điển Dai Kan-Wa jiten tiếng Trung – Nhật có hơn 50.000 ký tự và 500.000 từ ghép. Các từ điển đa ngữ lớn nhất hiện nay như Gregg Cox chứa trên 5.000.000 từ ở 225 ngôn ngữ hoặc từ điển trực tuyến Logos chứa trên 8.000.000 từ ở 250 ngôn ngữ [8]. Đối với tiếng Việt, hiện nay có các phần mềm từ điển phổ biến như:  Lạc Việt từ điển: được xem là từ điển phổ biến nhất đối với cộng đồng người Việt. Hiện nay, Lạc Việt từ điển không chỉ là phiên bản máy tính mà còn có phiên bản ứng dụng điện thoại di động. Lạc Việt từ điển có 3 bộ gồm Anh – Việt, Việt – Anh và Việt – Việt với số lượng hơn 400.000 từ và cụm từ [9].  Từ điển Tflat: là một trong số những ứng dụng từ điển được sử dụng nhiều nhất hiện nay. Tflat được xây dựng cho cả phiên bản online và offline, bao gồm nhiều chức năng như tra cứu, sao lưu, dịch câu văn, tra cứu nhanh, phát âm... Tflat chứa hơn 400.000 từ Anh-Việt, 150.000 từ Việt-Anh [10].
  3. Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh 217  Từ điển Vlook: là bộ từ điển Anh – Việt phổ biến hiện nay, Vlook có giao diện đơn giản và hỗ trợ tra từ không cần kết nối internet với gần 60,000 từ trong đó có hơn 40,000 từ có phiên âm và khoảng 3,000 từ thông dụng của từ điển Oxford.  Từ điển Vdict: là từ điển phổ biến và có giao diện đơn giản, bao gồm các bộ từ điển: Anh – Việt, Việt – Anh, Việt – Việt, Pháp – Việt, Việt – Pháp và Anh – Anh. Từ điển Vdict chứa 450.000 từ và cụm từ. Ngoài ra còn có một số phần mềm từ điển thương mại nổi tiếng hiện nay như Evatran 2.0, English study 4.0, Babylon. 2.2 Tổng quan về xây dựng tài nguyên dữ liệu lớn Tài nguyên dữ liệu phục vụ ngôn ngữ tự nhiên bao gồm nhiều loại, trong đó bao gồm các loại chính là dữ liệu từ điển, các kho ngữ liệu, treebanks. Việc nghiên cứu và xây dụng các nguồn tài nguyên lớn phục vụ xử lý ngôn ngữ tự nhiên được thực hiện rất phổ biến. Cho đến nay, đã có nhiều giải pháp được nghiên cứu và triển khai, trong đó các giải pháp chính và phổ biến gồm:  Xây dựng từ điển và các kho ngữ liệu đa ngữ bằng cách trích rút dữ liệu từ các các nguồn tài nguyên đa ngữ như website đa ngữ, các văn bản đa ngữ [1][3][4][5][6].  Xây dựng kho ngữ liệu bằng cách gọi các hệ thống dịch tự động để dịch dữ liệu hiện có của kho ngữ liệu sang các ngôn ngữ mới, sau đó đề xuất giải pháp cho các chuyên gia xem, chỉnh sửa để thu được dữ liệu có chất lượng trong ngôn ngữ mới tương đồng với dữ liệu gốc [1][2]. Các giải pháp trên đã cho phép tạo ra được các từ điển, các kho ngữ liệu tương đối lớn như các từ điển German dictionary Deutsches Wörterbuch, Oxford English Dictionar, Gregg Cox; các kho ngữ liệu British National Corpus, EuroParl, BTEC, ANC, ICE. Tuy nhiên, như đề cập ở trên, các nguồn tài nguyên này vẫn còn hạn chế về độ lớn và độ bao phủ so với yêu cầu thực tế. 3 Giải pháp xây dựng từ điển lớn và đồng nhất Như đề cập ở trên, hiện nay đã có nhiều từ điển lớn đã được xây dựng và được sử dụng phổ biến. Tuy nhiên, nếu xét về nhu cầu sử dụng thực tế, số lượng ngôn ngữ (khoảng 6500 ngôn ngữ) và sự đa dạng về lĩnh vực của cuộc sống thì các từ điển này quá nhỏ để có thể khai thác và xây dựng được các hệ thống xử lý ngôn ngữ tự nhiên lớn và đầy đủ. Hơn nữa, nguồn tài nguyên này lại tồn tại riêng rẻ, rãi rác nên việc khai thác, sử dụng và chia sẽ dùng chung trở nên rất khó. Do đó, các nguồn tài nguyên dữ liệu từ điển sẽ hữu ích và giá trị hơn nếu chúng được hợp nhất lại và tạo thành một nguồn tài nguyên đồng nhất về định dạng và cấu trúc. Trong bài báo này, chúng tôi đề xuất giải pháp hợp nhất các từ điển đang tồn tại để xây dựng từ điển lớn hơn về kích thước, đa dạng về cặp ngôn ngữ và lĩnh vực với các khía cạnh hợp nhất: dữ liệu, ngôn ngữ và cấu trúc/định dạng. Liên quan đến vấn đề hợp nhất các nguồn tài nguyên dữ liệu từ điển, cho đến nay chưa có công trình nào đề xuất giải pháp liên quan đến vấn đề xây dựng nguồn dữ liệu từ điển lớn bằng cách hợp nhất các nguồn dữ liệu từ điển đang tồn tại. Bởi lẽ, việc hợp nhất các nguồn dữ liệu từ điển là vấn đề khó vì cấu trúc và định dạng của các từ điển và nguồn tài nguyên xử lý ngôn ngữ tự nhiên rất đa dạng và phức tạp [4], cũng như liên quan đến nhiều khía cạnh nghiên cứu khác
  4. 218 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC nhau như gióng từ, câu văn bản, hợp nhất dữ liệu cùng ngôn ngữ, chuyển đổi cấu trúc và định dạng dữ liệu. Fig. 1. Mô tả hợp nhất từ điển Do đó, trong bài báo này chúng tôi tập trung vào 2 nhóm giải pháp liên quan đến vấn đề hợp nhất nguồn tài nguyên dữ liệu từ điển:  Giải pháp về cấu trúc và định dạng lưu trữ dữ liệu từ điển lớn, đồng nhất.  Giải pháp về hợp nhất dữ liệu. 3.1 Đề xuất cấu trúc và định dạng dữ liệu từ điển lớn và đồng nhất Dữ liệu được xem là thành phần quan trọng nhất của một từ điển. Dữ liệu từ điển được đánh giá có chất lượng tốt nếu có số lượng từ vựng lớn, có diễn giải nghĩa đầy đủ, rõ ràng và có hỗ trợ nhiều cặp ngôn ngữ. Bên cạnh chất lượng dữ liệu, tốc độ xử lý và tra cứu từ vựng của phần mềm từ điển cũng được xem là yếu tố quan trọng quyết định đến chất lượng và hiệu năng của phần mềm từ điển. Do đó, cách thức tổ chức dữ liệu cũng như cấu trúc và định dạng lưu trữ dữ liệu từ điển là rất quan trọng ảnh hưởng rất lớn đến tốc độ của quá trình truy xuất và thao tác của từ điển, đặc biệt đối với các từ điển có kích thước và số từ vựng lớn. Cấu trúc và định dạng dữ liệu từ điển được xây dựng tốt cũng còn là yếu tố quan trọng quyết định đến khả năng bảo trì và mở rộng dữ liệu từ điển trong tương lai. Do đó, vấn đề quan trọng đặt ra đối với bài toán xây dựng dữ liệu từ điển lớn bao gồm hai khía cạnh: một là, giải pháp thu thập dữ liệu; hai là, cách thức tổ chức dữ liệu từ điển lớn phục vụ hiệu quả quá trình truy xuất và khai thác chúng. Do đó, nghiên cứu cách thức tổ chức cũng như cấu trúc và định dạng dữ liệu của các từ điển đang tồn tại để làm cơ sở đề xuất cấu trúc và định dạng dữ liệu phù hợp nhất cho việc tổ chức và lưu trữ dữ liệu từ điển lớn và hợp nhất là mục tiêu mà bài báo đang hướng đến. 3.1.1 Cấu trúc và định dạng dict.tab Dict.tab là cấu trúc và định dạng dữ liệu chuẩn của từ điển Startdict, được phát triển bởi Hu Zheng và các cộng sự [11]. Stardict là từ điển nguồn mở miễn phí có thể chạy trên nhiều nền tảng khác nhau. Nhiều nhà phát triển từ điển đã sử dụng cấu trúc và định dạng dict.tab cũng như dữ liệu, mã nguồn của Stardict để xây dựng từ điển cho riêng mình. Dict.tab thực chất là tệp văn bản có định dạng dữ liệu được tổ chức dạng như sau: headword1 1\n2\n3
  5. Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh 219 headword2 4\\5\n6 headword3 789 Theo định dạng trên, dữ liệu từ điển với cấu trúc và định dạng dict.tab được biểu diễn gồm các hàng, mỗi hàng biểu diễn một từ gốc (headword) và định nghĩa của từ gốc (definition) cách nhau bởi dấu tab. Định nghĩa từ có thể chứa các ký tự đặc biệt như \n (sang dòng mới), \\ (biểu diễn dấu \). Định dạng và cấu trúc dict.tab rất dễ tổ chức nhưng còn rất hạn chế về tốc độ truy xuất dữ liệu. Thật vậy, khi thực hiện thao tác tím kiếm một từ và nghĩa nào đó, quá trình tìm kiếm sẽ thực hiện duyệt danh sách từ đầu đến cuối tập tin sẽ rất tốn kém thời gian và tài nguyên hệ thống. 3.1.2 Cấu trúc và định dạng dict.org Dict.org là cấu trúc và định dạng dữ liệu từ điển chuẩn khá phổ biến hiện nay được nhiều tổ chức và cá nhân sử dụng để xây dựng các từ điển lớn [12]. Cấu trúc của dict.org được tổ chức thành 2 tệp tin gồm tệp tin chỉ mục và tệp tin chứa nghĩa của từ. So với các tổ chức dữ liệu dạng dict.tab, cách tổ chức dạng dữ liệu dạng dict.org sẽ giúp tốc độ tra cứu từ điển nhanh hơn và đây là một trong những yếu tố cực kỳ quan trọng khi thiết kế cơ sở dữ liệu cho từ điển.  Cấu trúc tập tin chỉ mục: Tập tin chỉ mục bao gồm tên từ, vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa và độ dài của nghĩa. Mỗi dòng trong tập tin chỉ mục chứa dữ liệu của một từ và các dòng phân cách nhau bởi ký tự xuống dòng. Cấu trúc có định dạng như sau: headword1{tab}offset1{tab}len1 headword2{tab}offset2{tab}len2 Trong đó: ─ headword: là từ gốc ─ {tab}: là khoảng trống một tab ─ offset: vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa ─ len: độ dài nghĩa giải thích của từ trong tập tin chứa nghĩa Với, offset và len được mã hóa sử dụng 64 ký tự (hệ cơ số 64) như sau: ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/  Cấu trúc và định dạng tệp tin chứa nghĩa: Cấu trúc và định dạng tệp tin chứa nghĩa được biểu diễn như sau: @headword ─ Từ loại (danh từ, động từ, …) o Định nghĩa 1 o Định nghĩa 2 ─ Từ loại o Định nghĩa 3 Trong đó, headword là từ gốc và theo sau là loại từ và các giải nghĩa tương ứng. Một từ có thể thuộc nhiều từ loại khác nhau. Ví dụ từ like có thể là ngoại động từ, tính từ, danh từ, phó từ.
  6. 220 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC 3.1.3 Đề xuất cấu trúc và định dạng đối với từ điển hợp nhất và lớn Như đề cập ở trên, vấn đề quan trọng và then chốt đối với các từ điển lớn không chỉ ở chất lượng nội dung dữ liệu, mà chính là cấu trúc định dạng lưu trữ dữ liệu. Nếu cấu trúc và định dạng dữ liệu từ điển được xây dựng tốt thì tốc độ truy xuất, khả năng khai thác dữ liệu sẽ hiệu quả và đảm bảo. Trong số hai cấu trúc và định dạng dữ liệu từ điển được đề xuất ở trên thì cấu trúc và định dạng dict.org tối ưu và phù hợp hơn so với dict.tab. Do đó, chúng tôi đề xuất sử dụng cấu trúc và định dạng dict.org như là cấu trúc và định dạng chuẩn cho giải pháp từ điển lớn và đồng nhất. Với cách chọn một cấu trúc và định dạng chuẩn đã được sử dụng phổ biến sẽ mang lại hiệu quả và tối ưu bởi lẽ chúng ta kế thừa và đồng nhất dễ dàng những từ điển đã có. 3.2 Giải pháp hợp nhất nội dung dữ liệu từ điển 3.2.1 Giải pháp hợp nhất dữ liệu đối với các từ điển cùng cặp ngôn ngữ Giả sử chúng ta có từ điển A và B có cùng cặp ngôn ngữ X-Y, A có n cặp từ, B có m cặp từ, được biểu diễn như sau: A = {(𝑥𝑖 , 𝑦𝑖 )}𝑛𝑖=1 , B = {(𝑥𝑖 , 𝑦𝑖 )}𝑚 𝑖=1 Trong đó, xi là tập các từ nguồn trong ngôn ngữ tiếng X; yi là tập hợp các nghĩa trong ngôn ngữ tiếng Y. Kết quả hợp nhất hai từ điển A và B sẽ là từ điển C với cặp ngôn ngữ X-Yđược biểu diển như sau: C = A U B = {(𝑥𝑖 , 𝑦𝑖 )}𝑘𝑖=1 , với k ≤ 𝑛 + 𝑚 Đối với trường hợp này, chúng ta cần giải quyết các khả năng đặt ra:  Các cặp từ của hai từ điển trùng nhau hoàn toàn về nội dung: ∃(𝑥 , 𝑦 )| (x, 𝑦 ) ∈ 𝐴 and (x, y) ∈ 𝐵 Đối với trường hợp này, cặp từ đích sẽ là cặp từ của từ điển A hoặc từ điển B.  Các cặp từ của hai từ điển trùng nhau về từ gốc ở ngôn ngữ X: ∃(x, y) | x ∈ 𝐴 and x ∈ 𝐵 Đối với trường hợp này, cặp từ đích sẽ được xây dựng bao gồm: từ gốc sẽ là từ gốc của A hoặc của B; phần giải nghĩa sẽ là giao của giải nghĩa tương ứng của A và B, được biểu diễn: (x, y) = (xA, yA U yB) | xA, yA ∈ 𝐴 and y𝐵 ∈ 𝐵  Các cặp từ của hai từ điển hoàn toàn khác nhau (𝑥 , 𝑦 )| (x, 𝑦 ) ∈ 𝐴 and (x, y) ∉ 𝐵 Đối với trường hợp này, các cặp từ đích sẽ được xây dựng bao gồm hợp của các cặp từ của A và B, được biểu diễn: C = {(xA, yA), (xB, yB)} | (xA, yA) ∈ 𝐴 and (xB, yB) ∈ 𝐵
  7. Huỳnh Công Pháp, Cao Xuân Tuấn, Nguyễn Văn Bình và Đinh Thị Mỹ Hạnh 221 3.2.2 Giải pháp hợp nhất dữ liệu từ điển khác cặp ngôn ngữ Giả sử chúng ta có từ điển A có n cặp từ trong ngôn ngữ X-Y và từ điển B có m cặp từ trong ngôn ngữ W-Z: A = {(𝑥𝑖 , 𝑦𝑖 )}𝑛𝑖=1 , B = {(𝑤𝑖 , 𝑧𝑖 )}𝑚 𝑖=1 Trong đó, xi là tập các từ nguồn trong ngôn ngữ tiếng X; yi là tập hợp các nghĩa trong ngôn ngữ tiếng Y; wi là tập các từ nguồn trong ngôn ngữ tiếng W; zi là tập hợp các nghĩa trong ngôn ngữ tiếng Z. Kết quả hợp nhất hai từ điển A và B sẽ là từ điển đa ngữ C với tập hợp cặp ngôn ngữ X-Y, W-Z, X-W, X-Z, Y-W, Y-Z được biểu diển như sau: C= {{(𝑥𝑖 , 𝑦𝑖 )}𝑛𝑖=1 , {(𝑤𝑖 , 𝑧𝑖 )}𝑚 𝑘 𝑖=1 , {(𝑥𝑖 , 𝑤𝑖 )}𝑖=1 , 𝑝 𝑞 {(𝑥𝑖 , 𝑧𝑖 )}ℎ𝑖=1 }, {(𝑦𝑖 , 𝑤𝑖 )}𝑖=1 }, {(𝑦𝑖 , 𝑧𝑖 )}𝑖=1 }} Như vậy đối với việc hợp nhất từ điển đối với trường hợp này phúc tạp hơn nhiều so với trường hợp hai từ điển có cùng cặp ngôn ngữ. Đối với việc xây dựng dữ liệu đích ở các cặp ngôn ngữ X-Y và W-Z, giải pháp đơn giản là chọn tất cả các cặp từ của các cặp ngôn ngữ X-Y và W-Z. 3.3 Đề xuất thuật toán hợp nhất dữ liệu từ điển Từ các mô hình toán học hợp nhất dữ liệu từ điển ở trên, chúng tôi đã đề xuất thuật toán tổng quát cho bài toán hợp nhất từ điển như trình bày dưới đây: 1: Input: A = (𝑥𝑖..𝑛 , 𝑦𝑖..𝑛 ), B = (𝑤𝑖..𝑚 , 𝑧𝑖..𝑚 ) 2: Output: C = A U B 3: foreach (𝑥𝑖 , 𝑦𝑖 ) ∈ 𝐴 do 4: for j : 1→ m do 5: if (𝑥𝑖 = wj) and (yi =zj) then 6: C  (xi, yi) 7: else 8: if (𝑥𝑖 = wj) and (yi ≠ zj) then 9: C  (xi, yi U zj) 10: else 11: if (𝑥𝑖 ≠ wj) then 12: { 13: C  (xi, yi) 14: C  (wj, zj) 15: } Trên đây là đề xuất thuật toán hợp nhất từ điển dạng tổng quát, trong đó A, B là các từ điển nguồn, C là từ điển đích xây dựng được từ sự hợp nhất các từ điển nguồn A và B. Thuật toán này có thể áp dụng cho việc hợp nhất N từ điển nguồn để tạo nên từ điển đích bằng cách chia cặp các từ điển nguồn.
  8. 222 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC 4 Kết luận Ứng dụng dữ liệu từ điển trong lĩnh vực xử lý tự nhiên rất phổ biến và đa dạng như: tra cứu, dịch máy, tìm kiếm, tách từ, gióng hàng... Tuy nhiên, dữ liệu từ điển hiện nay rất hạn chế về chất lượng và kích thước, nhất là đối với các ngôn ngữ ít được phổ biến như tiếng Việt và tiếng các dân tộc thiểu số. Hiện nay đã có nhiều nghiên cứu khác nhau nhằm thu thập và xây dựng dữ liệu từ điển như trích rút dữ liệu từ website, kho ngữ liệu, văn bản đa ngữ đã mang lại rất nhiều thành công và đã tạo ra được nhiều từ điển đa dạng. Mặc dù vậy, một thực trạng đang tồn tại là các từ điển này không có sự gắn kết với nhau mà chúng đang nằm riêng rẽ, tách biệt nên việc khai thác và sử dụng các từ điển hiện nay là chưa hiệu quả và còn gặp rất nhiều khó khăn. Trong phạm vi của bài báo và hội thảo này, chúng tôi đã đề xuất mô hình và thuật toán nhằm hợp nhất các từ điển đang tồn tại để xây dựng nguồn dữ liệu từ điển lớn hơn và đồng nhất về cấu trúc, định dạng nhằm phục vụ tốt hơn trong lĩnh vực xử lý ngôn ngữ tự nhiên. Mô hình và thuật toán tổng quát này có vai trò rất quan trọng, tạo tiền đề cho sự phát triển và nghiên cứu tiếp theo để xây dựng và thử nghiệm chương trình hoàn chỉnh hợp nhất từ điển. Tài liệu tham khảo [1] Koehn Ph.: Europarl: A Parallel Corpus for Statistical Machine Translation. In Proc. of the 10th Machine Translation Summit, Phuket, Thaïland, pp. 79–86 (2005). [2] Huynh C-P.: Des suites de test pour la TA à un système d’exploitation de corpus alignés de documents et métadocuments multilingues, multiannotés et multimedia. PhD thesis-National Polytechnic Institute of Grenoble, 228 p. (2010). [3] Nikos M., Papavassiliou V.: Automatic acquisition of bilingual language resources. Proceedings of the 10th International Conference of Greek Linguistics, Komotini, Greece (2011). [4] Huynh C-P: New approach for collecting high quality parallel corpora from multilingual Websites. iiWAS11 Conference. Proceedings of the 13th International Conference on Information Integration and Web-based Applications & Services (2011). [5] Dosam H.: A Dictionary Development System based on Web. International Information Institute (Tokyo). Information 14.11 (2011). [6] Amel F., Paroubek P.: Twitter as a comparable corpus to build multilingual affective lexicons. The 7th Workshop on Building and Using Comparable Corpora (2014). [7] Huynh C-P: Solutions of Creating Large Data Resources in Natural Language Processing. ACIIDS Conference (2016). [8] http://www.worldslargestdictionary.com/ [9] http://tratu.coviet.vn/ [10] http://tflat.vn [11] http://www.stardict.org/ [12] www.dict.org
nguon tai.lieu . vn