Xem mẫu
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
NHẬN DIỆN CÁC THỰC THỂ LỒNG NHAU TRONG
HỆ THỐNG CHATBOT ĐẶT HÀNG
Đỗ Thị Hương*, Nguyễn Thị Huyền, Nguyễn Ngọc Khánh Huyền
Khoa Quốc tế – Đại học Quốc gia Hà Nội
*Tác giả liên lạc: dohuong64197@gmail.com
TÓM TẮT
Nghiên cứu này đề xuất xây dựng một mô hình nhận diện thực thể lồng nhau
trong hệ thống chatbot đặt hàng để trang bị cho bots khả năng hiểu và trích xuất
nội dung câu đặt hàng của khách một cách tự động: Đó là khi người dùng nhập
nội dung cần đặt hàng dưới dạng ngôn ngữ tự nhiên thì hệ thống sẽ tự động trích
xuất ra thông tin đơn hàng một cách chính xác nhất có thể. Để làm được việc đó,
chúng ta cần sự hỗ trợ từ các kĩ thuật học máy, trí tuệ nhân tạo. Trong số đó, nổi
bật nhất là các kĩ thuật nhận diện thực thể. Do vậy, nghiên cứu này đề xuất sử
dụng mô hình gán nhãn chuỗi CRFs kết hợp sử dụng các tập đặc trưng khác nhau
để bắt các thực thể lồng nhau trong lĩnh vực đặt hàng trực tuyến. Ngoài ra, để
kiểm tra tính hiệu quả của mô hình đề xuất, chúng tôi cũng tiến hành xây dựng
một bộ dữ liệu liên quan nhằm huấn luyện máy tính khả năng tự động bắt các
thực thể một cách chính xác nhất. Các thiết lập thực nghiệm khác nhau được thực
hiện và so sánh, đánh giá trên các độ đo phổ biến để đánh giá hiệu quả của hệ
thống. Kết quả thực nghiệm cho thấy mô hình đề xuất khá khả quan – có khả năng
bắt chính xác các thực thể lên tới 88.8% đối với độ đo F1 khi sử dụng phương
pháp kiểm thử chéo 5 lần.
Từ khóa: Chatbot, nhận diện thực thể lồng nhau, CRFs.
RECOGNIZING COMPOSITE ENTITIES IN ORDERING CHATBOTS
Do Thi Huong*, Nguyen Thi Huyen, Nguyen Ngoc Khanh Huyen
International School – VNU Ha Noi
*Corresponding Author: dohuong64197@gmail.com
ABSTRACT
This research aims at building a module to automatically recognize composite
entities in ordering chatbots – this helps bots understand and automatically
extract ordering information. To do that, it is necessary to use advanced
techniques of machine learning as well as artificial intelligence. In this research,
we formulate the task as a sequence labelling problem and apply sequence
labelling methods to solve the task. Among these advanced techniques, CRFs are
considered as a common and effective method to capture information of sequence
labelling problems. Hence, we proposed using this technique with different rich
feature sets to recognize composite NERs in ordering chatbots. In addition, to
verify the effectiveness of the proposed method, we also manually built a corpus
in the ordering domain to conduct different experiments. The experimental results
showed that the proposed method is quite promising with the ability of detecting
composite NEs up to 88.8% in the F1 score when testing on the 5-fold cross
validation method.
Keywords: Chatbot ordering, composite entity recognition, CRFs.
190
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
TỔNG QUAN thiệu các công cụ trợ lý ảo cho người
Đã có rất nhiều nghiên cứu thành công Việt thông qua việc tích hợp mô hình
với bài tóa n nhận diện thực thể truyền này vào điện thoại di động của họ. Bài
thống. Tuy nhiên, khi đối mặt với tập báo này trình bày một mô hình học
dữ liệu có đặc điểm lồng nhau, cho tới máy nhẹ và phương pháp kết hợp
hiện tại vẫn còn khá ít các nghiên cứu nhanh kết hợp với vấn đề xác định ý
liên quan đặc biệt là cho Tiếng Việt. định của người dùng đằng sau các lệnh
Những phương pháp được đề xuất ban văn bản đã nói của họ. Mặc dù vậy,
đầu hầu như đều hướng tới chỉ tập hiện tại không có nghiên cứu nào về
trung xây dựng mô hình NER trên một việc hệ thống chatbot đặt hàng tại Việt
tầng thực thể sau đó tiếp tục sử dụng Nam.
các luật để ánh xạ vào tầng thực thể còn Chính vì vậy mục tiêu cốt lõi của
lại. Xuất hiện sớm nhất, xử lý trên bộ nghiên cứu này là để điều tra và đề xuất
dữ liệu tin sinh học (GENIA) là các một phương pháp hiệu quả dựa trên các
nghiên cứu của Kazama (năm 2002), phương pháp học máy, có thể tự động
Tsuruoka và Tsujii (năm 2003), tuy phát hiện được các loại thực thể để xây
nhiên các nghiên cứu này chỉ làm việc dựng một chatbot đặt hàng thông minh.
trên tầng thực thể trong cùng. Tiếp đó,
Guodong Zhou và Jie Zhang (năm DỮ LIỆU VÀ PHƯƠNG PHÁP
2004) xây dựng một mô hình Markov NGHIÊN CỨU
ẩn để xử lý tầng thực thể trong cùng và Dữ liệu
sử dụng 4 bộ luật như một bước hậu xử Dữ liệu được thu thập từ việc đặt đồ
lý để xác định thực thể mà chứa các uống và đề cập đến các menu từ trang
thực thể trong cùng này. Các nghiên web thương mại điện tử. Bộ dữ liệu
cứu của Zhou sau đó (năm 2006) vẫn được lấy ra từ các cuộc hội thoại trao
dùng bộ luật và chỉ tiến tới sử dụng đổi trực tiếp ở trang facebook trao đổi
phương pháp NER hiệu quả hơn cho đặt hàng từ Coffee house. Dữ liệu
tầng thực thể trong cùng nêu trên nhờ phong phú, đa dạng và tự nhiên với các
mô hình mutual information hình thức văn bản khác nhau trong một
independence model (MIIM) kết hợp câu như dữ liệu văn bản chính quy, văn
với “support vector machine” (SVM). bản không chính quy, chứa lỗi chính tả,
Trong hệ thống chatbot đặt hàng, bài teencode, viết tắt, viết hoa, viết
báo của Zhao Yan et al. (2017) trình thường, v.v. Ngoài ra, để cho bộ dữ
bày một giải pháp chung để xây dựng liệu thêm phong phú hơn, chúng tôi
hệ thống đối thoại hướng nhiệm vụ cho cũng đã tham khảo dữ liệu từ các cuộc
mua sắm trực tuyến, họ đã huấn luyện hội thoại đặt hàng hàng ngày trong
dữ liệu bằng cách sử dụng các quy tắc cuộc sống và các trang web thương mại
để xác định ý định của người dùng điện tử khác.
trong các tình huống thực tế như mua Bộ dữ liệu cuối cùng bao gồm hơn
sắm trực tuyến. Tuy nhiên, vẫn còn 1.000 câu, trong đó có: 773 câu có
điểm yếu: do sử dụng rules nên các mô chứa thông tin đặt hàng và 300 câu
hình đề xuất không có khả năng khái không chứa thông tin đặt hàng.
quát hóa cao, và không bắt được các Trong mỗi loại trên, các câu lại được
trường hợp mới chưa. phân chia nhỏ hơn, cụ thể được mô tả
Ở Việt Nam, đã có một nghiên cứu của như sau:
Lan, N.T (2016) cũng nghiên cứu giới 600 câu thông thường. Ví dụ: “Cho tôi
191
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
cà phê nâu 2 cốc cỡ S thêm sinh tố xoài máy cho quá trình nghiên cứu khi
1 cốc M nhé” chúng tôi nhận ra rằng đây là một
173 câu phức tạp. Ví dụ: “Ship cho phương pháp vượt trội. Nó sẽ tự động
mình capuchino và sinh tố việt quất, nhận ra các thực thể của họ thay vì các
mỗi thứ 2 cốc cỡ vừa luôn nhé” phương pháp cũ dựa trên quy tắc. Cách
100 câu không chứa các thực thể giống tiếp cận này không yêu cầu thiết kế quy
thực thể thuốc tính sản phẩm. Ví dụ: tắc nhiều và có thể dễ dàng thích ứng
“Xin chào”, “Menu hôm nay có gì thế với các miền mới. Đó là lý do tại sao
ạ?” chúng tôi sử dụng mô hình học máy
200 câu có chứa các thực thể giống thông minh dựa trên các bộ dữ liệu về
thực thể thuốc tính sản phẩm. Ví dụ: việc đặt đồ uống trong hệ thống
“Sinh tố hôm nay có i khuyến mại gì chatbot.
không ạ” Tổng quan kiến trúc đề xuất xây
Dữ liệu được thu thập và gắn nhãn bởi dựng hệ thống chatbot đặt hàng
2 người. Để kiểm chứng chất lượng Với mục tiêu là có thể hỗ trợ tự động
gắn nhãn, chúng tôi sử dụng độ đo tiếp nhận đơn hàng, nghiên cứu này đề
Kappa và đo được 0.9. Điều đó chứng xuất một hệ thống chatbot với phần
tỏ dữ liệu có thể dùng được và có tính “thông minh” được xây dựng bao gồm
tin cậy cao. 4 thành phần chính và có thiết kế tổng
Phương pháp nghiên cứu quan như Hình 1.
Chúng tôi sử dụng phương pháp học
Hình 1. Kiến trúc đề xuất xây dựng mô hình chatbot đặt hàng
KẾT QUẢ NGHIÊN CỨU VÀ độ chính xác trên tất cả các tầng.
THẢO LUẬN Dòng thứ hai: Trung bình đánh giá độ
Thảo luận kết quả thực nghiệm với chính xác cho các loại thực thể tầng thứ
cách kết hợp thuộc tính khác nhau nhất.
Kết quả đánh giá mô hình với cách kết Dòng thứ ba: Trung bình đánh giá độ
hợp các thuộc tính đã trình bày trong chính xác cho các loại thực thể tầng thứ
báo cáo, mỗi cách kết hợp đánh giá trên hai.
từng tầng thực thế trong đó: Kết quả thực nghiệm cho thấy khi tăng
Dòng thứ nhất: Trung bình đánh giá dần số lượng các thuộc tính thì độ
192
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
chính xác cũng tăng lên ít nhiều. Khi và hậu tố, độ chính xác tăng thêm
so sánh CASE 1- chỉ sử dụng thông tin tương đối (1%)
của từ hiện tại và CASE 2- có sử dụng Tổng kết lại, qua thực nghiệm nhận
thêm thông tin của các từ phía trước và thấy mỗi thuộc tính đều có đóng góp
phía sau thì khi sử dụng thêm thông tin, cho mô hình, để cân bằng giữa hiệu
độ chính tăng tới 4.8%. Sau đó độ năng và độ chính xác, cần có sự kết hợp
chính xác tăng lên chậm (0.6%) khi hài hòa giữa các thuộc tính.
tăng phạm vi lấy thông tin các từ phía Kết quả thực nghiệm các phương
trước và phía sau với số lượng 2 từ. pháp giải quyết bài tóa n thực thể
Khi sử dụng thêm đặc trưng về tiền tố lồng nhau
Kết quả thực nghiệm các phương pháp đề xuất
91.00% 90.40%
90.00% 89.20% 89.20%
88.80% 88.60%88.60%
89.00% 88.40%
88.00% 87.60%
87.20%
87.00%
86.00%
85.00%
Outside-in Outside-in Variation Inside-out
Precision Recall F1
Hình 2. Kết quả thực nghiệm các phương pháp đề xuất
Nhận xét: Dựa trên kết quả thực xuất thông tin đặt hàng từ câu nói dạng
nghiệm, bước đầu nhận thấy khi áp ngôn ngữ tự nhiên của người dùng.
dụng phương pháp Outside-thông Nghiên cứu và tìm hiểu các hướng tiếp
thường, độ chính xác được cải thiện cận giải quyết bài tóa n nhận diện thực
hơn so với sử dụng Outside-in biến thể. thể lồng nhau và xây dựng một số mô
hình thực nghiệm trên tập dữ liệu đã
KẾT LUẬN đặt hàng.
Tại phần trên đã đưa ra một số kết quả Thực nghiệm, so sánh tính hiệu quả và
thực nghiệm của các phương pháp độ chính xác của các phương pháp
được đề xuất trên tập dữ liệu miền đặt được đề xuất, đồng thời xem xét mức
hàng. Tổng kết lại, chúng tôi nhận thấy độ ảnh hưởng của các đặc trưng trong
phương pháp Outside-in cho một kết mô hình CRF khi áp dụng trên miền dữ
quả khá khả quan. Đồng thời chúng tôi liệu đặt hàng
đã xem xét được mức độ ảnh hưởng Hạn chế: Do thời gian hạn chế, nghiên
của các đặc trưng trong mô hình CRF cứu khoa học chỉ xây dựng được bộ dữ
khi áp dụng trên miền dữ liệu đặt hàng liệu cỡ trung bình.
để làm cơ sở lựa chọn tập thuộc tính tốt Định hướng: Nghiên cứu và áp dụng
nhất, cân bằng hài hòa giữa độ chính một số phương pháp khác cho tập dữ
xác và hiệu suất mô hình. liệu lồng nhau như cây phân tích độc
Kết quả đạt được của nghiên cứu lập (dependency parsing), xây dựng bộ
Tìm hiểu và đề xuất một mô hình hệ dữ liệu lớn hơn, phong phú và đa dạng
thống chatbot cho phép tự động trích hơn nữa.
193
- Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học
TÀI LIỆU THAM KHẢO
ALEX, B., HADDOW, B. AND GROVER, C (2007). Recognizing composite
named entities in biomedical text. BioNLP Workshop at ACL 2007, pp.
65–72.
GUODONG Z. Recognizing names in biomedical texts using mutual information
independence model and SVM plus sigmoid. International Journal of
Medical Informatics, 75:456–467.
GUODONG Z., JIE Z., JIAN S., DAN S., AND CHEWLIM, T (2004).
Recognizing names in biomedical texts: a machine learning approach.
Bioinformatics, 20(7):1178– 1190.
YAN, Z., DUAN, N., CHE, P., ZHOU, M., ZHOU, J AND LI, Z. (2017).
Building Task-Oriented Dialogue Systems for Online Shopping. In
proceedings of the Thirty-First AAAI Conference on Artificial Intelligence
(AAAI-17).
194
nguon tai.lieu . vn