Xem mẫu

  1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS. Trần Thị Kiều Đà Nẵng, 12/2016
  2. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN BẰNG PHƯƠNG PHÁP TRÍCH RÚT DỮ LIỆU TỪ KHO NGỮ LIỆU Mã số: T2016-07-03 Chủ nhiệm đề tài: ThS. Trần Thị Kiều Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Đà Nẵng, 12/2016
  3. MỤC LỤC MỞ ĐẦU .......................................................................................................................... 1 1. LÝ DO CHỌN ĐỀ TÀI ..............................................................................................1 2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU ............................................................2 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU ............................................................2 3.1. Đối tượng nghiên cứu ................................................................................... 2 3.2. Phạm vi nghiên cứu ...................................................................................... 2 4. BỐ CỤC CỦA BÁO CÁO .........................................................................................2 CHƯƠNG 1 TỔNG QUAN ........................................................................................ 4 1.1. CƠ SỞ LÝ THUYẾT ...........................................................................................4 1.1.1. Tổng quan về từ điển .................................................................................... 4 1.1.2. Cơ sở dữ liệu từ điển .................................................................................... 5 1.1.3. Các chuẩn dữ liệu từ điển............................................................................. 5 1.1.4. Kho ngữ liệu ................................................................................................. 9 1.1.5. Các phương pháp tách từ tiếng Việt hiện nay ............................................ 11 1.2. CÁC CÔNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN ..........................11 1.3. TỔNG KẾT CHƯƠNG 1 ...................................................................................12 CHƯƠNG 2 ĐỀ XUẤT GIẢI PHÁP XÂY DỰNG CƠ SỞ DỮ LIỆU TỪ ĐIỂN TỪ KHO NGỮ LIỆU ........................................................................................................... 13 2.1. PHÁT BIỂU BÀI TOÁN....................................................................................13 2.2. ĐỀ XUẤT GIẢI PHÁP ......................................................................................14 2.2.1. Mô hình bài toán ........................................................................................ 14 2.2.2. Đặc tả mô hình bài toán ............................................................................. 15 2.3. LỰA CHỌN PHƯƠNG PHÁP, KỸ THUẬT.....................................................16 2.3.1. Phân đoạn từ trong tiếng Việt .................................................................... 16 2.3.2. Dịch máy thống kê ...................................................................................... 18 2.3.3. Định dạng dữ liệu từ điển ........................................................................... 20 2.4. TỔNG KẾT CHƯƠNG 2 ...................................................................................20
  4. CHƯƠNG 3 TRIỂN KHAI XÂY DỰNG VÀ THỰC NGHIỆM .......................... 21 3.1. TRIỂN KHAI ỨNG DỤNG ...............................................................................21 3.1.1. Lựa chọn công nghệ ................................................................................... 21 3.1.2. Chuẩn bị dữ liệu ......................................................................................... 21 3.1.3. Kết quả đạt được ........................................................................................ 21 3.1.4. Đánh giá kết quả ........................................................................................ 25 3.2. TỔNG KẾT CHƯƠNG 3 ...................................................................................25
  5. DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa 1 HTML HyperText Markup Language 2 CSDL Cơ sở dữ liệu 3 KDD Knowledge Discovery in Database 4 KPDL Khai phá dữ liệu 5 LRMM Left Right Maximum Matching 6 RLMM Right Left Maximum Matching 7 MMSEG Maximum Matching Segmentation 8 WFST Weighted finit–state Transducer
  6. DANH MỤC CÁC HÌNH VẼ Hình 1.1: Định dạng dict.org ............................................................................................ 7 Hình 1.2: Định dạng dict.org ............................................................................................ 7 Hình1.3: Ví dụ tập tin có định dạng spdict. ...................................................................... 8 Hình 2.1 :Phác thảo mô hình bài toán ............................................................................ 14 Hình 2.2: Mô phỏng phương pháp khớp tối đa ............................................................... 18 Hình 2.3: Ví dụ thống kê dựa vào cụm từ........................................................................ 20 Hình 3.1: Cấu trúc của tập tin kho ngữ liệu Anh – Việt.................................................. 22 Hình 3.2: Kết quả phân tích từ từ kho song ngữ ............................................................. 22 Hình 3.3: Kết quả sau khi tách từ tiếng Anh ................................................................... 23 Hình 3.4: Kết quả sau khi tách từ tiếng Việt ................................................................... 23 Hình 3.5: Lưu dữ liệu từ điển theo định dạng dict.org ................................................... 24
  7. DANH MỤC CÁC BẢNG Bảng 3.1: Kết quả thử nghiệm công cụ trích xuất dữ liệu từ điển .................................. 25
  8. TÓM TẮT KẾT QUẢ NGHIÊN CỨU Tên đề tài: Nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu. Mã số: Chủ nhiệm: ThS. Trần Thị Kiều Điện thoại: 0905.433.387 E-mail: ttkieu@cit.udn.vn Cơ quan chủ trì: Trường Cao đẳng Công nghệ Thông tin Đơn vị thực hiện:  Trường Cao đẳng Công nghệ Thông tin Thời gian thực hiện: 12 tháng 1. Mục tiêu: Mục tiêu chính của đề tài là nghiên cứu xây dựng cơ sở dữ liệu từ điển bằng phương pháp trích rút từ kho ngữ liệu:  Nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu.  Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu.  Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,… 2. Nội dung chính:  Nghiên cứu tổng quan từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển.  Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu.  Xây dựng công cụ xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu. 3. Kết quả đạt được (khoa học, ứng dụng, đào tạo, kinh tế - xã hội): Kết quả đạt được đã áp dụng đúng các nội dung trong thuyết minh, cụ thể như sau:
  9.  Đã công bố 01 bài báo đăng tại CITA 2016.  Báo cáo tổng kết.  Đã xây dựng được công cụ xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu. Cơ quan Chủ trì Chủ nhiệm đề tài (ký, họ và tên, đóng dấu) (ký, họ và tên)
  10. 1 MỞ ĐẦU 1. LÝ DO CHỌN ĐỀ TÀI Người ta vẫn thường nói rằng: “Chúng ta đang sống trong thời đại công nghệ thông tin”, thực ra, chúng ta đang sống trong thời đại của dữ liệu. Lượng dữ liệu khổng lồ về tất cả các lĩnh vực kỹ thuật, kinh tế, xã hội,…phần lớn đều có thể tìm thấy thông qua hệ thống mạng Internet. Tuy nhiên, lượng thông tin trên mạng Internet vẫn chưa được khai thác triệt để vì nhiều lý do và một trong những lý do quan trọng đó là rào cản về ngôn ngữ. Để phá bỏ rào cản đó và giúp ta tiếp cận nhanh hơn với thời đại công nghệ, giao lưu và làm việc với bạn bè quốc tế. Và tất nhiên từ điển là một công cụ quan trọng và đắc lực phục vụ người học, người làm. Hiện tại có rất nhiều phần mềm, rất nhiều trang web từ điển hỗ trợ nhưng có một thực tế rằng lượng dữ liệu của mỗi nguồn từ điển là hữu hạn và mỗi phần mềm mỗi trang web đều có lượng từ và hoạt động trong những lĩnh vực khác nhau. Có những từ không tìm thấy trên trang web này nhưng có thể tìm thấy ở trang web khác. Điều này làm cho người dùng có thể phải sử dụng trên nhiều trang web, cài nhiều phần mềm,… rất bất tiện. Hơn nữa, phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nó được coi là trái tim của chương trình. Qua khảo sát đã có nhiều công trình, nhiều bài báo nghiên cứu để tạo nên một cơ sở dữ liệu từ: giải pháp hợp nhất dữ liệu để xây dựng từ điển đa ngữ [2], hay xây dựng từ điển dựa trên các kho ngữ liệu song song [6], [9]. Tuy nhiên, các công trình nghiên cứu này một là hợp nhất các cơ sở dữ liệu có sẵn hoặc chưa xử lý trên ngôn ngữ tiếng Việt. Với những thực trạng đó, tôi mong muốn nghiên cứu giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Thay vì xây dựng các từ điển, các qui luật chuyển đổi bằng tay thì ở đây tự động xây dựng các từ điển, các qui luật dựa trên kết quả thống kê có được từ các kho ngữ liệu. Mục đích làm nguồn dữ liệu cho các phần mềm từ điển, dữ liệu luôn được cập nhật từ mới thường xuyên từ các kho ngữ
  11. 2 liệu; có thể làm nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,… 2. MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU Nghiên cứu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; kho ngữ liệu, các loại kho ngữ liệu. Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,… 3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 3.1. Đối tượng nghiên cứu 3.2. Phạm vi nghiên cứu  Về lý thuyết: Nghiên cứu cơ sở lý thuyết về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; tổng quan về kho ngữ liệu, các loại kho ngữ liệu; các phương pháp, kỹ thuật tách từ tiếng Việt.  Về thực nghiệm: Tìm ra giải pháp xây dựng cơ sở dữ liệu từ điển bằng cách trích rút từ các kho ngữ liệu. Từ đó, có thể làm nguồn dữ liệu cho các phần mềm từ điển, có thể nguồn cho các chương trình dịch tự động, trích rút thông tin tự động, tóm tắt văn bản tự động,… 4. BỐ CỤC CỦA BÁO CÁO Bố cục báo cáo được trình bày bao gồm 3 chương chính như sau: Chương 1 trình bày lý thuyết tổng quan về khai phá dữ liệu, về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; tổng quan về kho ngữ liệu, các loại kho ngữ liệu. Chương 2 trình bày đề xuất giải pháp, lý do lựa chọn phương pháp, kỹ thuật cho bài toán xây dựng cơ sở dữ liệu từ điển từ kho ngữ liệu.
  12. 3 Chương 3 trình bày triển khai thực nghiệm xây dựng cơ sở dữ liệu từ điển, kết quả đạt được, chưa đạt được, hướng phát triển của bài toán. Sau đó trình bày đề xuất hướng cải tiến bài toán hiệu quả hơn
  13. 4 CHƯƠNG 1 TỔNG QUAN Chương này báo cáo trình bày cơ sở lý thuyết ban đầu về từ điển, cơ sở dữ liệu từ điển, cấu trúc định dạng của các chuẩn dữ liệu từ điển; trình bày tổng quan về kho ngữ liệu, các loại kho ngữ liệu. Ngoài ra, các công trình nghiên cứu về xây dựng cơ sở dữ liệu từ điển mà bản thân đã nghiên cứu cũng được trình bày ngắn gọn trong chương này. 1.1. CƠ SỞ LÝ THUYẾT 1.1.1. Tổng quan về từ điển Trên thế giới hiện nay có hàng trăm quốc gia và mỗi quốc gia có một ngôn ngữ riêng của mình. Việc học các ngôn ngữ của nhau giúp chúng ta tiếp cận nhanh hơn với thời đại công nghệ, giao lưu và làm việc với bạn bè quốc tế. Và tất nhiên từ điển là một công cụ quan trọng và đắc lực phục vụ cho người học. Trước đây, khi mà internet chưa phát triển, người học ngoại ngữ phải căng mắt, mỏi tay với mỗi lần tra nghĩa từ vựng trong những cuốn từ điển dày cộm thì hiện nay mọi thứ đã trở nên nhẹ nhàng và đơn giản hơn rất nhiều khi những kho từ điển đồ sộ và khổng lồ kia đều đã được số hóa, rất nhiều từ điển điện tử ra đời. Hiện nay có hai loại từ điển điện tử phổ biến: từ điển online và offline. 1.1.1.1. Từ điển ngoại tuyến (offline) Từ điển offline là các chương trình phần mềm chạy trên máy tính cá nhân và có thể sử dụng mà không cần kết nối internet. Stardict hiện tại là phần mềm nổi tiếng trong giới mã nguồn mở, nó có khả năng tra từ khá nhanh, gọn nhẹ, định dạng của nó là một biến thể nâng cấp của chuẩn Dict. Kế đến là Lingoes – một phần mềm từ điển miễn phí với các tính năng khá tốt và ưu điểm hơn Stardict là phần danh sách từ xuyên suốt từ đầu đến cuối. Hay các phần mềm miễn phí gần đây như Miltidictionary, Jtranslator,… Jtranslator là bộ từ điển đa ngôn ngữ sử dụng một định dạng cơ sở dữ liệu mở DICT của www.dict.org, chạy được trên các hệ điều hành khác nhau (Windows, Linux, Unix, Mac...).
  14. 5 Ngoài ra còn một số từ điển thương mại phổ biến hiện nay như: LacViet mtd, Evatran 2.0, English study 4.0, Babylon,… 1.1.1.2. Từ điển trực tuyến (online) Từ điển trực tuyến là một website cho phép người dùng tra cứu các từ hoặc cụm từ theo nhiều ngôn ngữ khác nhau. Nó ra đời nhằm tận dụng những ưu điểm của internet để phục vụ mọi người như tốc độ truy cập nhanh, không cần cài đặt, có thể sử dụng mọi lúc mọi nơi chỉ cần có một kết nối internet, thường xuyên được cập nhật từ mới và có thể đóng góp, có thể sửa đổi. Một số từ điển trực tuyến phổ biến, uy tín với các tính năng mạnh mẽ hiện nay như: Từ điển Oxford: http://oxforddictionaries.com, từ điển Cambridge: http://dictionary.cambridge.org, từ điển Vdict: https://vdict.com, từ điển Soha: http://tratu.soha.vn, https://www.bing.com/translato, https://translate.google.com. 1.1.2. Cơ sở dữ liệu từ điển Phần quan trọng nhất đối với ứng dụng từ điển chính là cơ sở dữ liệu, nó được coi là trái tim của chương trình. Vì vậy, một từ điển được xem là chất lượng khi mà số lượng vốn từ của nó lớn nên việc thiết kế cơ sở dữ liệu cho từ điển phải đảm bảo được tốc độ truy cập nhanh, khả năng bảo trì và mở rộng dễ dàng. Dữ liệu từ điển có thể tồn tại dưới rất nhiều định dạng khác nhau: dict.tab, spdict, dict.org. 1.1.3. Các chuẩn dữ liệu từ điển 1.1.3.1. Định dạng dict.tab Định dạng dict.tab là dữ liệu dạng text lớn (từ vài Mb trở lên). Từ điển stardict sau khi sử dụng công cụ convert file stardict sang định dạng dict.tab. File dict.tab này chi là file text và sẽ là file để lấy dữ liệu cho từ điển vì định dạng của nó cực kỳ đơn giản và nó còn có một số tính năng bổ trợ từ điển rất tốt [2]. Cụ thể định dạng của nó thể hiện như sau: a 1\n2\n3 b4\\5\n6 c 789
  15. 6 Định dạng này có nghĩa: đầu tiên viết từ cần tìm kiếm, sau đó là một ký tự tab và định nghĩa của từ đó. Nếu định nghĩa chứa dòng mới chỉ cần viết \n, nếu chứa ký tự thì \\. 1.1.3.2. Định dạng dict.org Dict.org là dạng từ điển được xây dựng bởi www.dict.org . Định dạng này được mô tả như sau: toàn bộ cơ sở dữ liệu của từ điển được lưu trữ trong 2 tập tin: một tập tin chỉ mục và một tập tin chứa nghĩa của từ. a. Cấu trúc tập tin chỉ mục: tập tin chỉ mục bao gồm tên từ, vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa và độ dài của nghĩa [2]. Mỗi dòng trong tập tin chỉ mục chứa dữ liệu của một từ và các dòng phân cách nhau bởi ký tự xuống dòng. Cấu trúc của nó có định dạng như sau: Từ1{tab}offset1{tab}len1 Từ2{tab}offset2{tab}len2 Trong đó:  {tab}: là phím tab từ bàn phím  offset: vị trí bắt đầu nghĩa của từ trong tập tin chứa nghĩa  len: độ dài nghĩa giải thích của từ trong tập tin chứa nghĩa Offset và len được mã hóa theo nguyên tắc sau:  Sử dụng 64 chữ cái: ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+ /  Chữ cái A tương đương 0 và B tương đương 1 và các ký tự tiếp theo sẽ tang dần theo qui luật trên. Ví dụ: Cấu trúc tập tin chỉ mục của cơ sở dữ liệu từ điển lưu theo định dạng dict.org sau:
  16. 7 Hình 1.1: Định dạng dict.org Trong đó: Hình 1.2: Định dạng dict.org b. Cấu trúc tập tin chứa nghĩa: @từ  Từ loại (danh từ, tính từ,…) o Định nghĩa 1 o Định nghĩa 2  Từ loại o Định nghĩa 3
  17. 8 1.1.3.3. Định dạng Spdict Tác giả Bùi Đức Tiến đã phát triền dựa trên định dạng dict.org. Đây là ví dụ 1 file từ điển abc gồm 2 từ a->aa, b->bb được mở bằng notepad2 ( trích ebook hướng dẫn làm từ điển của tác giả). Hình1.3: Ví dụ tập tin có định dạng spdict. Định dạng spdict có thể phần ra làm 4 phần (3 phần đóng khung đỏ và 1 phần không đóng khung):  Phần thứ 1: o gồm chuỗi 2SPDict ở đầu file (để dánh dấu file này là của từ điển spdict tạo thành) o 4 byte tiếp theo ( ví dụ null null null) lưu vị trí của phần thứ 3 (phần không đóng khung đỏ) o 4 byte tiếp theo lưu số dữ liệu thừa phát sinh trong quá trình làm từ điển (hiện mới tạo nên nó =0, 4 chữ null)  Phần thứ 2: o 2 byte dạng short lưu độ dài của từ (null sqh rồi mới đến a), sau đó là nghĩa của từ (a) lưu độ dài bằng 4 byte (null null null stx) rồi đến aa. Tiếp theo b->bb.  Phần thứ 3: có giá trị tương tự như 1 nội dung ở phần 2 (2 byte lưu độ dài), phần còn lại là nội dung (1 chuỗi gồm nhiều chuỗi con phân cách nhau với byte có giá trị 0 (null): o Tên từ điển (abc) o Mã sắp xếp (en) o Giọng phát âm (kevin)
  18. 9 o Font, kích thước từ và nghĩa(tahoma,12,tahoma,12) o Tác giả (tienlbhoc) o Thông tin thêm (demo)  Phần thứ 4 gồm 8 byte, là 2 số integer (tương ứng với 2 từ), mỗi số lưu vị trí của 1 từ (a và b trong phần thứ 2 của từ điển). Có thể nói đây là danh sách vị trí hay gọi là con trỏ văn bản. 1.1.4. Kho ngữ liệu 1.1.4.1. Kho ngữ liệu Kho ngữ liệu (corpus) dùng để chỉ tập hợp các văn bản trong các ngôn ngữ khác nhau dưới dạng điện tử. Đây là một khái niệm cơ bản đối với Ngôn ngữ học khối liệu [8]. Theo T. McEnery và A. Wilson, kho ngữ liệu phải thỏa các tính chất sau:  Kho ngữ liệu gồm tập các văn bản bất kì.  Kho ngữ liệu phải cho phép sử dụng dễ dàng và thường xuyên.  Kho ngữ liệu phải được xây dựng phải hàm chứa phong cách và biểu cảm ngôn ngữ. Trong lĩnh vực Ngôn ngữ học, kho ngữ liệu theo tiếng Latin có nghĩa tức là bất kỳ khối văn bản nào (any body of text). Tuy nhiên, nếu xét kho ngữ liệu là cơ sở nghiên cứu của các phương pháp xây dựng và trợ giúp máy tính xử lý thông tin thì kho ngữ liệu gồm các đặc điểm cơ bản sau:  Các ngôn ngữ phải đồng điển hình.  Có kích cỡ xác định.  Ở dạng đọc được trên máy tính.  Có các chú giải chuẩn về mặt ngôn ngữ. Các kho ngữ liệu có thể được sử dụng để nhận biết các thông tin hướng dẫn, tham khảo và số liệu thống kê về các đơn vị ngôn ngữ và lời nói. Kho ngữ liệu có thể cung
  19. 10 cấp cho người sử dụng các thông tin về tần số hoạt động của từ và cụm từ, lexeme và v.v… Kho ngữ liệu cho phép theo dõi các thay đổi về tần số sử dụng các đơn vị từ vựng và các ngữ cảnh ở các giai đoạn phát triển khác nhau của lịch sử xã hội loài người. Khi nhận được các dữ liệu ngôn ngữ trong một giai đoạn phát triển lịch sử nhất định từ kho ngữ liệu, người sử dụng có thể nghiên cứu các quá trình biến đổi thành phần từ vựng của ngôn ngữ trên thực tế, có thể tiến hành các phân tích cú pháp ở các thể loại văn bản và của các tác giả khác nhau. Kho ngữ liệu còn được sử dụng làm cơ sở cho việc chuẩn bị các loại từ điển hiện đại và lịch sử khác nhau một cách nhanh chóng và hiệu quả. Vai trò của Ngôn ngữ học khối liệu càng được khẳng định khi các công trình nghiên cứu về kho ngữ liệu cho thấy kho ngữ liệu có thể sử dụng để xây dựng các kĩ năng và kiểm tra ngữ pháp trong quá trình dạy học ngoại ngữ và dịch thuật [3]. 1.1.4.2. Kho ngữ liệu song song (Parallel Corpus) Kho ngữ liệu song song được định nghĩa là một tập các văn bản (tài liệu) trong nhiều ngôn ngữ khác nhau, trong đó có một ngôn ngữ nguồn và một hoặc nhiều ngôn ngữ đích [8]. Kho ngữ liệu song song có thể được thu thập từ nhiều nguồn khác nhau như các nguồn ở dạng giấy viết hoặc các nguồn ở dạng tài liệu dạng điện tử. Nguồn tài nguyên ở dạng giấy viết có thể được tìm thấy dễ dàng trong các sách học ngoại ngữ, các sách truyện, tài liệu song ngữ và các từ điển song ngữ. Việc thu thập dữ liệu từ nguồn tài nguyên này đơn giản, tuy nhiên quá trình nhập liệu vào máy tính tốn nhiều thời gian và công sức. Nguồn tài nguyên điện tử hiện nay rất phong phú dưới dạng hàng tỷ trang Web đa ngữ[3]. 1.1.4.3. Kho ngữ liệu đa ngữ (Multilingual Corpora) Kho ngữ liệu đa ngữ được định nghĩa là một tập các văn bản (tài liệu) được viết bằng nhiều ngôn ngữ [8]. Các tài liệu trong kho ngữ liệu đa ngữ thường được tổ chức theo một qui tắc để dễ quản lý hoặc xác định nguồn gốc của chúng.
  20. 11 1.1.4.4. Kho ngữ liệu (có thể) so sánh (Comparable Corpus) Kho ngữ liệu so sánh là một tập các tài liệu trong các ngôn ngữ khác nhau trình bày cùng chủ đề chính thì được gọi là kho ngữ liệu so sánh (Comparable Corpus) [8]. Kho ngữ liệu này cũng còn gọi là kho ngữ liệu song song ở mức tài liệu nhưng không song song ở mức câu hoặc đoạn. Nguyên nhân là các tài liệu ở các ngôn ngữ khác nhau trình bày cùng một chủ đề nhưng chưa hẳn các câu và các đoạn trong các văn bản đó song song với nhau. 1.1.5. Các phương pháp tách từ tiếng Việt hiện nay Ta thấy tiếng Anh và tiếng Việt có nhiều điểm khác biệt (do loại hình ngôn ngữ, do nền văn hóa) chẳng hạn: khác biệt về ngữ âm học, hình vị, ranh giới từ, sự từ vựng hóa; từ loại; trật tự từ (tính từ và danh từ), kết cấu câu (chủ đề và cụm chủ vị),… Vì vậy chúng ta không thể áp dụng y nguyên các mô hình xử lý ngôn ngữ của tiếng Anh sang cho tiếng Việt được mà phải có sự điều chỉnh nhất định. Do đó, chúng ta phải tìm hiểu về các hướng tiếp cận cho việc tách từ tiếng Việt [5]. Một số phương pháp tách từ tiếng Việt hiện nay có thể kể đến như:  Phương pháp Maximum Matching  Phương pháp giải thuật học cải biến  Mô hình tách từ bằng WFST và mạng Neural.  Phương pháp qui hoạch động (dynamic programming).  Phương pháp tách từ dựa trên thống kê từ Internet và thuật toán di truyền  Phương pháp Pointwise 1.2. CÁC CÔNG TRÌNH NGHIÊN CỨU XÂY DỰNG TỪ ĐIỂN  Hợp nhất dữ liệu từ điển [2]: Tác giả đã đề xuất phải pháp hợp nhất dữ liệu từ điển. Tức là từ nhiều cơ sở dữ liệu từ điển khác nhau về cấu trúc, định dạng; tác giả thu thâp, phân tích, thiết kế ra cấu trúc và định dạng đồng nhất chung; sau đó tiến hành hợp nhất cấu trúc dữ liệu, hợp nhất dữ liệu tạo nên một cơ sở dữ liệu từ điển lớn hơn và chất lượng hơn. Tuy nhiên, công trình này tác giả chỉ mới dừng ở việc hợp nhất 2
nguon tai.lieu . vn