Xem mẫu

  1. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học NHẬN DIỆN CÁC THỰC THỂ LỒNG NHAU TRONG HỆ THỐNG CHATBOT ĐẶT HÀNG Đỗ Thị Hương*, Nguyễn Thị Huyền, Nguyễn Ngọc Khánh Huyền Khoa Quốc tế – Đại học Quốc gia Hà Nội *Tác giả liên lạc: dohuong64197@gmail.com TÓM TẮT Nghiên cứu này đề xuất xây dựng một mô hình nhận diện thực thể lồng nhau trong hệ thống chatbot đặt hàng để trang bị cho bots khả năng hiểu và trích xuất nội dung câu đặt hàng của khách một cách tự động: Đó là khi người dùng nhập nội dung cần đặt hàng dưới dạng ngôn ngữ tự nhiên thì hệ thống sẽ tự động trích xuất ra thông tin đơn hàng một cách chính xác nhất có thể. Để làm được việc đó, chúng ta cần sự hỗ trợ từ các kĩ thuật học máy, trí tuệ nhân tạo. Trong số đó, nổi bật nhất là các kĩ thuật nhận diện thực thể. Do vậy, nghiên cứu này đề xuất sử dụng mô hình gán nhãn chuỗi CRFs kết hợp sử dụng các tập đặc trưng khác nhau để bắt các thực thể lồng nhau trong lĩnh vực đặt hàng trực tuyến. Ngoài ra, để kiểm tra tính hiệu quả của mô hình đề xuất, chúng tôi cũng tiến hành xây dựng một bộ dữ liệu liên quan nhằm huấn luyện máy tính khả năng tự động bắt các thực thể một cách chính xác nhất. Các thiết lập thực nghiệm khác nhau được thực hiện và so sánh, đánh giá trên các độ đo phổ biến để đánh giá hiệu quả của hệ thống. Kết quả thực nghiệm cho thấy mô hình đề xuất khá khả quan – có khả năng bắt chính xác các thực thể lên tới 88.8% đối với độ đo F1 khi sử dụng phương pháp kiểm thử chéo 5 lần. Từ khóa: Chatbot, nhận diện thực thể lồng nhau, CRFs. RECOGNIZING COMPOSITE ENTITIES IN ORDERING CHATBOTS Do Thi Huong*, Nguyen Thi Huyen, Nguyen Ngoc Khanh Huyen International School – VNU Ha Noi *Corresponding Author: dohuong64197@gmail.com ABSTRACT This research aims at building a module to automatically recognize composite entities in ordering chatbots – this helps bots understand and automatically extract ordering information. To do that, it is necessary to use advanced techniques of machine learning as well as artificial intelligence. In this research, we formulate the task as a sequence labelling problem and apply sequence labelling methods to solve the task. Among these advanced techniques, CRFs are considered as a common and effective method to capture information of sequence labelling problems. Hence, we proposed using this technique with different rich feature sets to recognize composite NERs in ordering chatbots. In addition, to verify the effectiveness of the proposed method, we also manually built a corpus in the ordering domain to conduct different experiments. The experimental results showed that the proposed method is quite promising with the ability of detecting composite NEs up to 88.8% in the F1 score when testing on the 5-fold cross validation method. Keywords: Chatbot ordering, composite entity recognition, CRFs. 190
  2. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học TỔNG QUAN thiệu các công cụ trợ lý ảo cho người Đã có rất nhiều nghiên cứu thành công Việt thông qua việc tích hợp mô hình với bài tóa n nhận diện thực thể truyền này vào điện thoại di động của họ. Bài thống. Tuy nhiên, khi đối mặt với tập báo này trình bày một mô hình học dữ liệu có đặc điểm lồng nhau, cho tới máy nhẹ và phương pháp kết hợp hiện tại vẫn còn khá ít các nghiên cứu nhanh kết hợp với vấn đề xác định ý liên quan đặc biệt là cho Tiếng Việt. định của người dùng đằng sau các lệnh Những phương pháp được đề xuất ban văn bản đã nói của họ. Mặc dù vậy, đầu hầu như đều hướng tới chỉ tập hiện tại không có nghiên cứu nào về trung xây dựng mô hình NER trên một việc hệ thống chatbot đặt hàng tại Việt tầng thực thể sau đó tiếp tục sử dụng Nam. các luật để ánh xạ vào tầng thực thể còn Chính vì vậy mục tiêu cốt lõi của lại. Xuất hiện sớm nhất, xử lý trên bộ nghiên cứu này là để điều tra và đề xuất dữ liệu tin sinh học (GENIA) là các một phương pháp hiệu quả dựa trên các nghiên cứu của Kazama (năm 2002), phương pháp học máy, có thể tự động Tsuruoka và Tsujii (năm 2003), tuy phát hiện được các loại thực thể để xây nhiên các nghiên cứu này chỉ làm việc dựng một chatbot đặt hàng thông minh. trên tầng thực thể trong cùng. Tiếp đó, Guodong Zhou và Jie Zhang (năm DỮ LIỆU VÀ PHƯƠNG PHÁP 2004) xây dựng một mô hình Markov NGHIÊN CỨU ẩn để xử lý tầng thực thể trong cùng và Dữ liệu sử dụng 4 bộ luật như một bước hậu xử Dữ liệu được thu thập từ việc đặt đồ lý để xác định thực thể mà chứa các uống và đề cập đến các menu từ trang thực thể trong cùng này. Các nghiên web thương mại điện tử. Bộ dữ liệu cứu của Zhou sau đó (năm 2006) vẫn được lấy ra từ các cuộc hội thoại trao dùng bộ luật và chỉ tiến tới sử dụng đổi trực tiếp ở trang facebook trao đổi phương pháp NER hiệu quả hơn cho đặt hàng từ Coffee house. Dữ liệu tầng thực thể trong cùng nêu trên nhờ phong phú, đa dạng và tự nhiên với các mô hình mutual information hình thức văn bản khác nhau trong một independence model (MIIM) kết hợp câu như dữ liệu văn bản chính quy, văn với “support vector machine” (SVM). bản không chính quy, chứa lỗi chính tả, Trong hệ thống chatbot đặt hàng, bài teencode, viết tắt, viết hoa, viết báo của Zhao Yan et al. (2017) trình thường, v.v. Ngoài ra, để cho bộ dữ bày một giải pháp chung để xây dựng liệu thêm phong phú hơn, chúng tôi hệ thống đối thoại hướng nhiệm vụ cho cũng đã tham khảo dữ liệu từ các cuộc mua sắm trực tuyến, họ đã huấn luyện hội thoại đặt hàng hàng ngày trong dữ liệu bằng cách sử dụng các quy tắc cuộc sống và các trang web thương mại để xác định ý định của người dùng điện tử khác. trong các tình huống thực tế như mua Bộ dữ liệu cuối cùng bao gồm hơn sắm trực tuyến. Tuy nhiên, vẫn còn 1.000 câu, trong đó có: 773 câu có điểm yếu: do sử dụng rules nên các mô chứa thông tin đặt hàng và 300 câu hình đề xuất không có khả năng khái không chứa thông tin đặt hàng. quát hóa cao, và không bắt được các Trong mỗi loại trên, các câu lại được trường hợp mới chưa. phân chia nhỏ hơn, cụ thể được mô tả Ở Việt Nam, đã có một nghiên cứu của như sau: Lan, N.T (2016) cũng nghiên cứu giới 600 câu thông thường. Ví dụ: “Cho tôi 191
  3. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học cà phê nâu 2 cốc cỡ S thêm sinh tố xoài máy cho quá trình nghiên cứu khi 1 cốc M nhé” chúng tôi nhận ra rằng đây là một 173 câu phức tạp. Ví dụ: “Ship cho phương pháp vượt trội. Nó sẽ tự động mình capuchino và sinh tố việt quất, nhận ra các thực thể của họ thay vì các mỗi thứ 2 cốc cỡ vừa luôn nhé” phương pháp cũ dựa trên quy tắc. Cách 100 câu không chứa các thực thể giống tiếp cận này không yêu cầu thiết kế quy thực thể thuốc tính sản phẩm. Ví dụ: tắc nhiều và có thể dễ dàng thích ứng “Xin chào”, “Menu hôm nay có gì thế với các miền mới. Đó là lý do tại sao ạ?” chúng tôi sử dụng mô hình học máy 200 câu có chứa các thực thể giống thông minh dựa trên các bộ dữ liệu về thực thể thuốc tính sản phẩm. Ví dụ: việc đặt đồ uống trong hệ thống “Sinh tố hôm nay có i khuyến mại gì chatbot. không ạ” Tổng quan kiến trúc đề xuất xây Dữ liệu được thu thập và gắn nhãn bởi dựng hệ thống chatbot đặt hàng 2 người. Để kiểm chứng chất lượng Với mục tiêu là có thể hỗ trợ tự động gắn nhãn, chúng tôi sử dụng độ đo tiếp nhận đơn hàng, nghiên cứu này đề Kappa và đo được 0.9. Điều đó chứng xuất một hệ thống chatbot với phần tỏ dữ liệu có thể dùng được và có tính “thông minh” được xây dựng bao gồm tin cậy cao. 4 thành phần chính và có thiết kế tổng Phương pháp nghiên cứu quan như Hình 1. Chúng tôi sử dụng phương pháp học Hình 1. Kiến trúc đề xuất xây dựng mô hình chatbot đặt hàng KẾT QUẢ NGHIÊN CỨU VÀ độ chính xác trên tất cả các tầng. THẢO LUẬN Dòng thứ hai: Trung bình đánh giá độ Thảo luận kết quả thực nghiệm với chính xác cho các loại thực thể tầng thứ cách kết hợp thuộc tính khác nhau nhất. Kết quả đánh giá mô hình với cách kết Dòng thứ ba: Trung bình đánh giá độ hợp các thuộc tính đã trình bày trong chính xác cho các loại thực thể tầng thứ báo cáo, mỗi cách kết hợp đánh giá trên hai. từng tầng thực thế trong đó: Kết quả thực nghiệm cho thấy khi tăng Dòng thứ nhất: Trung bình đánh giá dần số lượng các thuộc tính thì độ 192
  4. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học chính xác cũng tăng lên ít nhiều. Khi và hậu tố, độ chính xác tăng thêm so sánh CASE 1- chỉ sử dụng thông tin tương đối (1%) của từ hiện tại và CASE 2- có sử dụng Tổng kết lại, qua thực nghiệm nhận thêm thông tin của các từ phía trước và thấy mỗi thuộc tính đều có đóng góp phía sau thì khi sử dụng thêm thông tin, cho mô hình, để cân bằng giữa hiệu độ chính tăng tới 4.8%. Sau đó độ năng và độ chính xác, cần có sự kết hợp chính xác tăng lên chậm (0.6%) khi hài hòa giữa các thuộc tính. tăng phạm vi lấy thông tin các từ phía Kết quả thực nghiệm các phương trước và phía sau với số lượng 2 từ. pháp giải quyết bài tóa n thực thể Khi sử dụng thêm đặc trưng về tiền tố lồng nhau Kết quả thực nghiệm các phương pháp đề xuất 91.00% 90.40% 90.00% 89.20% 89.20% 88.80% 88.60%88.60% 89.00% 88.40% 88.00% 87.60% 87.20% 87.00% 86.00% 85.00% Outside-in Outside-in Variation Inside-out Precision Recall F1 Hình 2. Kết quả thực nghiệm các phương pháp đề xuất Nhận xét: Dựa trên kết quả thực xuất thông tin đặt hàng từ câu nói dạng nghiệm, bước đầu nhận thấy khi áp ngôn ngữ tự nhiên của người dùng. dụng phương pháp Outside-thông Nghiên cứu và tìm hiểu các hướng tiếp thường, độ chính xác được cải thiện cận giải quyết bài tóa n nhận diện thực hơn so với sử dụng Outside-in biến thể. thể lồng nhau và xây dựng một số mô hình thực nghiệm trên tập dữ liệu đã KẾT LUẬN đặt hàng. Tại phần trên đã đưa ra một số kết quả Thực nghiệm, so sánh tính hiệu quả và thực nghiệm của các phương pháp độ chính xác của các phương pháp được đề xuất trên tập dữ liệu miền đặt được đề xuất, đồng thời xem xét mức hàng. Tổng kết lại, chúng tôi nhận thấy độ ảnh hưởng của các đặc trưng trong phương pháp Outside-in cho một kết mô hình CRF khi áp dụng trên miền dữ quả khá khả quan. Đồng thời chúng tôi liệu đặt hàng đã xem xét được mức độ ảnh hưởng Hạn chế: Do thời gian hạn chế, nghiên của các đặc trưng trong mô hình CRF cứu khoa học chỉ xây dựng được bộ dữ khi áp dụng trên miền dữ liệu đặt hàng liệu cỡ trung bình. để làm cơ sở lựa chọn tập thuộc tính tốt Định hướng: Nghiên cứu và áp dụng nhất, cân bằng hài hòa giữa độ chính một số phương pháp khác cho tập dữ xác và hiệu suất mô hình. liệu lồng nhau như cây phân tích độc Kết quả đạt được của nghiên cứu lập (dependency parsing), xây dựng bộ Tìm hiểu và đề xuất một mô hình hệ dữ liệu lớn hơn, phong phú và đa dạng thống chatbot cho phép tự động trích hơn nữa. 193
  5. Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học TÀI LIỆU THAM KHẢO ALEX, B., HADDOW, B. AND GROVER, C (2007). Recognizing composite named entities in biomedical text. BioNLP Workshop at ACL 2007, pp. 65–72. GUODONG Z. Recognizing names in biomedical texts using mutual information independence model and SVM plus sigmoid. International Journal of Medical Informatics, 75:456–467. GUODONG Z., JIE Z., JIAN S., DAN S., AND CHEWLIM, T (2004). Recognizing names in biomedical texts: a machine learning approach. Bioinformatics, 20(7):1178– 1190. YAN, Z., DUAN, N., CHE, P., ZHOU, M., ZHOU, J AND LI, Z. (2017). Building Task-Oriented Dialogue Systems for Online Shopping. In proceedings of the Thirty-First AAAI Conference on Artificial Intelligence (AAAI-17). 194
nguon tai.lieu . vn