Xem mẫu

  1. Hoàng Hữu Hạnh, Nguyễn Văn Trung MỘT CẢI TIẾN TRONG ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA HAI KHÁI NIỆM TRONG KỸ NGHỆ ONTOLOGY Hoàng Hữu Hạnh*, Nguyễn Văn Trung+ Học Viện Công nghệ Bưu chính Viễn thông + Trường Đại học Khoa học Huế Tóm tắt: Đánh giá độ tương tự giữa hai khái niệm trong Trên thực tế, do tính tương tự của khái niệm hay thuộc tính ontology đóng vai trò quan trọng trong các bài toán thuộc khi xét trên cây phân cấp của chúng nên các kỹ thuật đánh lĩnh vực kỹ nghệ ontology bao gồm: đối sánh, so khớp, tích giá độ tương tự giữa hai khái niệm cũng có thể được áp hợp ontology. Bài báo này nêu một phương pháp mới để dụng cho hai thuộc tính. Theo T. Slimani [2], các kỹ thuật đánh giá độ tương tự ngữ nghĩa giữa hai khái niệm trong đánh giá độ tương tự giữa hai khái niệm trong ontology ontology. Bài báo cũng trình bày phương pháp quy hoạch được phân thành các loại sau đây: động để tính độ tương tự ngữ nghĩa giữa hai biểu thức khái (1) Đánh giá dựa vào cấu trúc: còn được gọi là đánh giá niệm bất kỳ dựa vào ontology cho trước.1 dựa vào việc đếm số cạnh nối giữa hai khái niệm trên cây phân cấp khái niệm. Từ khóa: Độ tương tự ngữ nghĩa, ngữ nghĩa, ontology, (2) Đánh giá dựa vào nội dung thông tin: đánh giá độ Web ngữ nghĩa tương tự giữa hai khái niệm dựa vào tần suất xuất hiện của các từ khoá tương ứng với hai khái niệm I. GIỚI THIỆU trong một tập hợp tài liệu cho trước. Web ngữ nghĩa là một lĩnh vực nghiên cứu đang phát (3) Đánh giá dựa vào đặc trưng của hai khái niệm đang triển nhanh trong phát triển của trí tuệ nhân tạo và các hệ xét. Đặc trưng của khái niệm có thể là tập hợp các từ thống tri thức; và nhận được sự quan tâm của cộng đồng đồng nghĩa của nó trong từ điển WordNet hoặc tập nghiên cứu trong thập niên vừa qua. Công nghệ Web ngữ hợp mối quan hệ của khái niệm trên cấu trúc phân nghĩa đang được áp dụng vào nhiều lĩnh vực khác nhau cấp. trong thực tế như tin-sinh học, tin học trong y tế, quản trị tri Ngoài ba nhóm phương pháp trên, trong một số trường thức, công nghệ phần mềm, xử lý ngôn ngữ tự nhiên, v.v… hợp, người ta cũng sử dụng kết hợp phương pháp dựa vào Thành phần quan trọng trong cấu túc của Web ngữ nghĩa và cấu trúc với phương pháp đánh giá dựa vào nội dung thông các ứng dụng của nó là ontology. tin hoặc đánh giá dựa vào đặc trưng của khái niệm. Trong một ontology người ta định nghĩa các thực thể -- Nhóm phương pháp đánh giá dựa vào cấu trúc được nhận bao gồm khái niệm, thuộc tính, cá thể -- và mối quan hệ xét là đơn giản do chỉ phụ thuộc cấu trúc phân cấp của giữa các thực thể này theo ngữ nghĩa được quy định tường ontology chứ không cần tham khảo đến nguồn dữ liệu ngoài minh bởi một ngôn ngữ logic xác định. Ngôn ngữ ontology như hai nhóm phương pháp còn lại. Một trong những được sử dụng phổ biến nhất hiện nay là OWL 22, được phương pháp đánh giá độ tương tự giữa hai khái niệm thuộc chuẩn hoá bởi tổ chức W3C vào năm 2012. Mối quan hệ nhóm này được ra đời sớm nhất là phương pháp của Wu và thường được xét đến nhiều nhất giữa các thực thể trong một Palmer [4]. Mặc dù được ra đời sớm và được nhận xét là ontology chính là mối quan hệ phân cấp, theo đó, các thực đơn giản nhưng phương pháp đánh giá của Wu và Palmer thể trong ontology được xếp trên các cây phân cấp: cây vẫn còn được sử dụng trong những năm gần đây, trong phân cấp khái niệm và cây phân cấp thuộc tính. nhiều công trình thuộc các lĩnh vực Web ngữ nghĩa hay xử Một trong những khâu quan trọng trong các bài toán lý ngôn ngữ tự nhiên [5]. thuộc lĩnh vực kỹ nghệ ontology như đối sánh ontology, so Bài báo này sẽ phân tích và đề xuất một cải tiến cho khớp ontology, tích hợp ontology chính là đánh giá mức độ phương pháp Wu và Palmer để đánh giá độ tương tự giữa tương tự giữa hai thực thể của một hoặc nhiều ontology. hai khái niệm. Các phần tiếp theo của bài báo được trình bày như sau: Phần 2 trình bày các khái niệm cơ bản để tính Tác giả liên lạc: Hoàng Hữu Hạnh, độ tương tự ngữ nghĩa giữa hai khái niệm trên cây phân cấp Email: hoanghuuhanh@ptit.edu.vn của ontology. Phần 3 – là đóng góp chính của bài báo – nêu Đến tòa soạn: 11 /2019, chỉnh sửa: 12 /2019, chấp nhận đăng: 12/2019. các điểm còn tồn tại và đề xuất cải tiến cho phương pháp đánh giá của Wu-Palmer. Trong phần này, bài báo cũng trình bày phương pháp quy hoạch động để đánh giá độ SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 12
  2. MỘT CẢI TIẾN TRONG ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA HAI KHÁI NIỆM TRONG KỸ NGHỆ ONTOLOGY tương tự ngữ nghĩa giữa hai biểu thức khái niệm. Phần 4 niệm có tên trong . Với mọi khái niệm , ta có: của bài báo nêu kết luận và hướng mở rộng của bài báo.. • II. PHƯƠNG PHÁP WU-PALMER ĐÁNH GIÁ ĐỘ • TƯƠNG TỰ GIỮA HAI KHÁI NIỆM TRONG • khi ONTOLOGY • khi hoặc Gọi là một ontology. là tập các khái niệm có tên hoặc trong . Với hai khái niệm , chúng ta ký hiệu: − là tập các khái niệm cha trực tiếp của Dưới đây là ví dụ cho thấy các đặc điểm của phương pháp tính độ tương tự ngữ nghĩa giữa hai khái niệm trong trên . ontology. − là tập các khái niệm con trực tiếp của trên . Ví dụ 1. Cho ontology với các khái niệm lập thành cây − là tập các khái niệm cha chung nhỏ phân cấp như hình dưới đây: nhất của và trên . Lưu ý rằng, chúng ta luôn ngầm định, khái niệm đỉnh và khái niệm đáy là hai khái niệm có tên trong , tức là: và . Chúng ta định nghĩa số cạnh nối giữa hai khái niệm trên cây phân cấp khái niệm của ontology như sau: Định nghĩa 1. (Số cạnh nối giữa hai khái niệm trên cây phân cấp của ontology) Gọi là một ontology. là tập các khái niệm có tên trong . Ta nói là số cạnh nối giữa hai khái niệm , ký hiệu là nếu tồn tại là dãy ngắn nhất các khái niệm có tên trong sao cho: Hình 1. Cây phân cấp khái niệm của ontology động vật Độ tương tự giữa hai khái niệm và trong ontology được xác định lần lượt theo từng bước như sau: Ta quy ước: • − với ; • − nếu hoặc không phải là • khái niệm con của . • − Trong trường hợp ontology đã được xác định rõ, chúng ta có thể bỏ qua chỉ số để viết μ thay vì . Phương pháp đánh giá độ tương tự ngữ nghĩa giữa hai • khái niệm của Wu và Palmer được dựa trên số cạnh nối giữa hai khái niệm này đến khái niệm cha chung nhỏ nhất của Tương tự như vậy, độ tương tự ngữ nghĩa giữa hai khái chúng trên cây phân cấp khái niệm. niệm và – cũng có khái niệm cha chung nhỏ Định nghĩa 2. Gọi là một ontology. là tập các nhất là được tính như sau: khái niệm có tên trong . Độ tương tự ngữ nghĩa giữa hai khái niệm , ký hiệu là được xác định như sau: 3 Chúng ta có một số nhận xét rút ra trực tiếp từ Định nghĩa 1 và Định nghĩa 2 như mệnh đề dưới đây: Ở Ví dụ 1, chúng ta có thể thấy rằng, . Điều phản ánh đúng hình Mệnh đề 1. Gọi là một ontology. là tập các khái ảnh trực quan của cây phân cấp khái niệm ở Hình 1: Hai SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 13
  3. Hoàng Hữu Hạnh, Nguyễn Văn Trung khái niệm càng cách xa khái niệm cha chung nhỏ nhất thì có độ giống nhau càng thấp. Đây cũng chính là ưu điểm của Định nghĩa 3. (Số cạnh nối μ’ giữa hai khái niệm trên phương pháp đánh giá Wu-Palmer. cây phân cấp của ontology) Gọi là một ontology. là Tuy vậy, phương pháp đánh giá Wu-Palmer có một tập các khái niệm có tên trong . Số cạnh nối trực tiếp μ’ nhược điểm: không thể đánh giá được mức độ giống nhau giữa hai khái niệm , ký hiệu là được của các cặp khái niệm khi chúng có khái niệm cha chung xác định như sau: nhỏ nhất là ⊤. Điều này được chỉ ra ở Ví dụ 2 dưới đây: Ví dụ 2. Xét ontology ở Ví dụ 1. Ta có: • Trong trường hợp ontology đã được xác định rõ, chúng ta có thể bỏ qua chỉ số để viết μ’ thay vì . Bằng cách sử dụng μ’ thay cho μ trong công thức ở Định • nghĩa 2, chúng ta sẽ có công thức mới để đánh giá độ tương tự ngữ nghĩa giữa hai khái niệm như sau: Định nghĩa 4. Gọi là một ontology. là tập các khái niệm có tên trong . Độ tương tự ngữ nghĩa σ’ giữa hai • khái niệm , ký hiệu là được xác định Như vậy, theo cách tính của Wu và Palmer, cả hai cặp như sau: khái niệm và đều có độ tương tự như nhau, và bằng 0. Chúng ta cần phân biệt mức độ tương tự nhau giữa hai cặp khái niệm và Có thể thấy rằng, cũng có các tính chất tương tự như thay vì đánh giá chúng bằng nhau (và đều bằng 0) như cách được nêu ở Mệnh đề 1. Tức là: đánh gia của Wu và Palmer. Điều này thật sự cần thiết trong • các bài toán lựa chọn khái niệm thuộc về hai nhánh gốc của cây phân cấp khái niệm, chẳng hạn như bài toán xử lý xung • đột mức khái niệm trong quá trình tích hợp ontology theo • khi cách tiếp cận của lý thuyết đồng thuận [3]. Phần tiếp theo • khi hoặc hoặc . của bài báo sẽ nêu những điều chỉnh để khắc phục nhược Ví dụ dưới đây sẽ cho thấy tính chất ở Mệnh đề 1 của độ điểm này của phương pháp Wu-Palmer. tương tự cũng có trong độ tương tự . III. CÁC ĐỀ XUẤT ĐỂ KHẮC PHỤC HẠN CHẾ CỦA Ví dụ 3. Xét ontology như ở Ví dụ 1. Chúng ta tính độ PHƯƠNG PHÁP WU-PALMER tương tự ngữ nghĩa σ’ cho các cặp khái niệm và Phần này của bài báo trình bày cải tiến phương pháp Wu- . Palmer để tính độ tương tự ngữ nghĩa giữa hai khái niệm trong ontology theo các tiêu chí: • Vẫn đảm bảo tính chất của hàm tính độ tương tự như đã chỉ ra ở Mệnh đề 1. • Giữ được đặc tính trực quan của cây phân cấp khái niệm như phương pháp tính độ tương tự ngữ nghĩa của Wu-Palmer: Hai khái niệm càng cách xa khái • niệm cha chung nhỏ nhất thì có độ giống nhau càng thấp. • Phân biệt được mức độ giống nhau giữa các cặp khái niệm có khái niệm cha chung nhỏ nhất là khái niệm đỉnh ⊤. Trên thực tế, chúng ta chỉ cần điều chỉnh cách tính “số cạnh nối giữa hai khái niệm trên cây phân cấp của • ontology” ở Định nghĩa 1 như sau. “Số cạnh” này được gọi là số cạnh μ’ trong bài báo này. Như vậy, – hay, SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 14
  4. MỘT CẢI TIẾN TRONG ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA HAI KHÁI NIỆM TRONG KỸ NGHỆ ONTOLOGY giống với hơn khi so sánh và . Điều phản theo ontology được hiểu là độ tương tự của hai ánh đúng hình ảnh trực quan của cây phân cấp khái niệm: biểu thức khái niệm này khi đặt trên cây phân cấp khái niệm Hai khái niệm càng cách xa khái niệm cha chung nhỏ nhất của ontology . Ontology khi đó được gọi là ontology thì có độ giống nhau càng thấp. Nói cách khác, độ tương tự tham chiếu. σ’ vẫn giữ đúng ưu điểm của phương pháp tính Wu-Palmer. Độ tương tự ngữ nghĩa giữa hai khái niệm theo ontology được xác định theo công thức ở Định nghĩa 4 3.1. Khảo sát độ tương tự σ’ của hai khái niệm khi có như sau: khái niệm cha chung nhỏ nhất là khái niệm đỉnh Xét hai khái niệm sao cho . Khi đó được xác định như sau: Chúng ta có thể tính số cung nối giữa hai biểu thức khái niệm bất kỳ và dựa theo số cung nối giữa hai khái niệm có tên của ontology theo 3 trường hợp như sau: - Trường hợp 1) . Khi đó: Điều này chứng tỏ: Khi thì chứ không bị triệt tiêu như phương pháp của - Trường hợp 2) . Khi đó: Wu-Palmer. Hơn nữa, cũng bảo đảm rằng, khi hai khái niệm càng cách xa khái niệm đỉnh ⊤ (và càng - Trường hợp 3) Không có khái niệm có tên trên tương cách xa nhau – do hai khái niệm thuộc về hai nhánh của đương với hoặc . Khi đó: khái niệm đỉnh ⊤) thì độ tương tự giữa chúng càng giảm. Điều này cũng phản ánh đúng tính chất trực quan của cây Như vậy, bằng cách tính sẵn các thông số μ’ giữa các cặp phân cấp khái niệm. khái niệm của ontology (có thể dùng thuật toán tìm đường đi ngắn nhất giữa các cặp đỉnh như Floyd [1] chẳng Ví dụ 4. Xét lại ontology ở Ví dụ 1. Ta có: hạn), chúng ta có thể tính nhanh độ tương tự ngữ nghĩa σ’ theo ontology tham chiếu của cặp biểu thức khái niệm bất • kỳ. IV. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Bài báo đã đề xuất cách tính số cung nối μ’ giữa hai khái niệm trên cây phân cấp khái niệm của ontology, qua đó đưa ra cải tiến cho phương pháp Wu-Palmer để tính độ tương tự ngữ nghĩa σ’giữa hai khái niệm. Độ tương tự này vẫn giữ • nguyên ưu điểm của phương pháp gốc, nhưng cho phép định lượng được mức độ giống nhau của các cặp khái niệm nhận ⊤ làm khái niệm cha chung nhỏ nhất. Bài báo cũng đưa ra phương pháp hiệu quả để tính độ tương tự ngữ nghĩa theo ontology tham chiếu của hai biểu thức khái niệm bất kỳ. Trong tương lai, chúng tôi sẽ phân tích và áp dụng các đề • xuất của bài báo này cho các phương pháp đánh giá độ tương tự ngữ nghĩa khác (ngoài Wu-Palmer) theo hai Như vậy, hướng: đánh giá độ tương tự ngữ nghĩa giữa hai khái niệm – hay, giống với hơn khi so sánh trong ontology và đánh giá độ tương tự ngữ nghĩa giữa hai với . Điều này cũng phản ánh đúng hình ảnh biểu thức khái niệm bất kỳ. trực quan của cây phân cấp khái niệm ở Hình 1. REFERENCES 3.2. Vấn đề tính độ tương tự ngữ nghĩa giữa hai hai [1] R. Floyd (1962). Algorithm 97: shortest path, biểu thức khái niệm Communications of the ACM1, Vol. 5, Issue 6. pp. 345. [2] T. Slimani (2013). Description and Evaluation of Semantic Similarity Measures Approaches. International Journal of Với là một ontology, chúng ta mở rộng khái niệm độ Computer Applications, Vol. 80, Issue 10, pp. 25-33. tương tự giữa hai khái niệm trong ontology thành “độ tương [3] T. V. Nguyen, H. H. Hoang (2016). A Consensus-Based tự giữa hai biểu thức khái niệm theo ontology ” như sau: Method for Solving Concept-Level Conflict in Ontology Độ tương tự ngữ nghĩa giữa hai biểu thức khái niệm Integration, Trans. Computational Collective Intelligence, Vol. LCNS 8733, Issue XXII, pp. 414-423. SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 15
  5. Hoàng Hữu Hạnh, Nguyễn Văn Trung [4] T. Wu, Z. Palmer (1994), Verb Semantics and Lexical Selection, Proceedings of the 32nd annual meeting on Association for Computati`onal Linguistics, pp. 133-138. [5] Zhisheng Huang, Frank van Harmelen (2008). Using semantic distances for reasoning with inconsistent ontologies, The Semantic Web - ISWC 2008, p. 454-459. Hoàng Hữu Hạnh sinh ngày 13/04/1974 tại Huế. Năm 1996, ông tốt nghiệp Cử nhân ngành Toán-Tin học tại Trường Đại học Sư phạm Huế, Thạc sĩ khoa học tại Trường Đại học Bách khoa Hà Nội. Năm 2007, ông nhận học vị Tiến sĩ chuyên ngành Hệ thống thông tin tại Trường Đại học Công nghệ Vienna, Cộng hoà Áo. Năm 2012, ông nhận Chức danh Phó giáo sư tại Việt Nam. Từ năm 1996-2018 đến nay, ông là Giảng viên Khoa Công nghệ Thông tin, Trường ĐH Khoa học Huế; đồng thời đảm trách các nhiệm vụ quản lý tại Đại học Huế từ 2008 đến 2018. Từ tháng 10 năm 2018 ông là Giảng viên cao cấp tại Học viện Công nghệ Bưu chính Viễn thông (PTIT). Hiện nay là Giám đốc Trung tâm Đào tạo Quốc tế của PTIT. Lĩnh vực nghiên cứu: Biểu diễn tri thức, Web ngữ nghĩa, Linked Data, Ontology, Logic mô tả, Công nghệ phần mềm, Công nghệ dữ liệu, Quản lý quy trình nghệp vụ. Nguyễn Văn Trung sinh ngày 25/10/1981 tại Thừa Thiên Huế. Năm 2003 ông tốt nghiệp cử nhân chuyên ngành Tin học tại trường Đại học Khoa học Huế. Năm 2018 ông nhận bằng Tiến sĩ chuyên ngành Khoa học máy tính tại trường Đại học Huế. Từ năm 2004 đến nay ông giảng dạy và nghiên cứu khoa học tại Khoa Công nghệ Thông tin, trường Đại học Khoa học Huế. Lĩnh vực nghiên cứu: Các hệ thống thông tin, Quản lý và biểu diễn tri thức, Công nghệ phần mềm. SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 16
nguon tai.lieu . vn