Xem mẫu

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lương Thái Lê Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN Hà Nội - 2021
  2. LỜI CAM ĐOAN Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt là công trình nghiên cứu của riêng NCS. Các số liệu, kết quả được trình bày trong luận án là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác.  NCS đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan trong và ngoài nước. Ngoại trừ các tài liệu tham khảo này, luận án hoàn toàn là công việc của riêng NCS.  Trong các công trình khoa học được công bố liên quan đến luận án, NCS đã thể hiện rõ và chính xác đóng góp của các đồng tác giả và những gì do NCS đã thực hiện. Tác giả: Hà Nội: i
  3. LỜI CẢM ƠN Lời đầu tiên, tôi xin được bày tỏ sự biết ơn sâu sắc đến PGS.TS. Phan Xuân Hiếu, cán bộ hướng dẫn khoa học, người đã trực tiếp định hướng và giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Thầy không chỉ truyền đạt cho tôi những kiến thức quan trọng về học thuật mà còn chia sẻ cho tôi nhiều kinh nghiệm quý giá trong con đường nghiên cứu khoa học. Một vinh dự lớn cho tôi được học tập, nghiên cứu dưới sự hướng dẫn của Thầy. Tôi xin bày tỏ sự biết ơn chân thành đến các Thầy, Cô trong Bộ môn Hệ thống thông tin, đặc biệt là PGS.TS. Hà Quang Thụy cùng các thành viên của Phòng thí nghiệm Khoa học Dữ liệu và Công nghệ Tri thức vì sự giúp đỡ cũng như những đóng góp chuyên môn hữu ích của các Thầy Cô cho luận án. Tôi xin trân trọng cảm ơn Khoa Công nghệ Thông tin, Phòng Đào tạo và Ban Giám hiệu Trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập và thực hiện luận án. Tôi cũng bày tỏ sự biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa, và các đồng nghiệp của tôi tại Khoa Công nghệ Thông tin - Trường Đại học Giao thông Vận tải vì đã tạo điều kiện về thời gian, tài chính và đã luôn cổ vũ, hỗ trợ tôi trong suốt quá trình nghiên cứu. Bên cạnh đó, tôi cũng xin gửi lời cảm ơn đến PGS.TS. Trần Văn Long, cán bộ đồng hướng dẫn luận án của tôi, về những giúp đỡ hữu ích cho luận án. Tôi không thể quên cảm ơn những cộng sự của tôi trong nhóm nghiên cứu MDN–Team, những người đã đồng hành, sát cánh cùng tôi trong suốt quá trình nghiên cứu, hoàn thành luận án, và tôi sẽ luôn ghi nhớ điều đó. Ngoài ra, tôi muốn cảm ơn tất cả những người bạn của tôi vì sự động viên chia sẻ bất cứ khi nào tôi cần. Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với bố mẹ, chồng, con và gia đình, những người đã luôn ủng hộ và yêu thương tôi một cách vô điều kiện. Nếu không có sự ủng hộ của gia đình và chồng con, tôi không thể hoàn thành được luận án này. ii
  4. Mục lục Lời cam đoan i Lời cảm ơn ii Mục lục ii Danh mục các từ viết tắt vi Danh mục các bảng viii Danh mục các hình vẽ x Mở đầu 1 Chương 1. Tổng quan về ý định và phân tích ý định 10 1.1 Ý định và thể hiện ý định trong ngôn ngữ . . . . . . . . . . . . 10 1.2 Ý định trong văn bản trực tuyến . . . . . . . . . . . . . . . . . . 12 1.3 Phân tích ý định: bối cảnh khoa học . . . . . . . . . . . . . . . 14 1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm . . . 16 1.3.2 Phân tích ý định trong các bài đăng . . . . . . . . . . . . 20 1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy . . . . . 21 1.4.1 Cơ bản về kỹ thuật phân lớp . . . . . . . . . . . . . . . . 21 1.4.2 Cơ bản về kỹ thuật trích xuất thông tin . . . . . . . . . 23 1.4.3 Cơ bản về mạng nơ ron . . . . . . . . . . . . . . . . . . . 25 1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Chương 2. Phân tích ý định từ văn bản trực tuyến 31 2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt . . . . . . . 31 2.1.1 Xây dựng dữ liệu thực nghiệm . . . . . . . . . . . . . . . 33 2.1.2 Khó khăn - Thách thức . . . . . . . . . . . . . . . . . . . 36 2.2 Định nghĩa ý định người dùng: bối cảnh khoa học . . . . . . . . 38 2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển . . . 38 2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc . . . 39 iii
  5. 2.3 Định nghĩa ý định hướng miền quan tâm . . . . . . . . . . . . . 39 2.3.1 Định nghĩa quan điểm của Bing Liu . . . . . . . . . . . . 40 2.3.2 Định nghĩa ý định của Bing Liu . . . . . . . . . . . . . . 41 2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án . . 42 2.4 Tiến trình ba pha phân tích và xác định ý định . . . . . . . . . 46 2.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 51 3.1 Nghiên cứu trên thế giới về phát hiện ý định và xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.1.1 Phát hiện bài đăng trực tuyến mang ý định . . . . . . . 52 3.1.2 Xác định miền quan tâm của ý định . . . . . . . . . . . . 53 3.2 Phát hiện ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 55 3.2.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 56 3.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 60 3.2.4 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 61 3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 62 3.3 Xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . 65 3.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 65 3.3.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 67 3.3.3 Xây dựng tập các miền quan tâm . . . . . . . . . . . . . 70 3.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 71 3.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 73 3.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 73 3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Chương 4. Phân tích và trích chọn nội dung ý định 79 4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.2 Nghiên cứu trên thế giới về trích chọn nội dung ý định . . . . . 81 4.3 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.4 Trích chọn ý định theo tiếp cận học máy thống kê và học sâu . 84 4.4.1 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 84 4.4.2 Trích chọn ý định với phương pháp CRFs . . . . . . . . . 84 4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM– CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.4.4 Độ đo đánh giá mô hình thực nghiệm . . . . . . . . . . . 92 4.4.5 Thời gian thực nghiệm với mỗi mô hình . . . . . . . . . . 93 iv
  6. 4.4.6 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 93 4.4.7 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 95 4.4.8 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 96 4.5 Trích chọn ý định dựa trên kết hợp các mô hình học sâu . . . . 99 4.5.1 Kỹ thuật học kết hợp (ensemble learning) . . . . . . . . 100 4.5.2 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 101 4.5.3 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 101 4.5.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 109 4.5.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 110 4.5.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 113 4.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 121 5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 5.2 Nghiên cứu trên thế giới về thích nghi miền trong xác định ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.3 Trích chọn nội dung ý định theo tiếp cận đa miền quan tâm . . 125 5.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 125 5.3.2 Xây dựng bộ nhãn không phụ thuộc miền . . . . . . . . 126 5.3.3 Mô hình trích xuất ý định đa miền quan tâm . . . . . . 131 5.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 135 5.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 136 5.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 138 5.3.7 Mô phỏng mô hình trích xuất ý định đa miền quan tâm 144 5.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 Kết luận 148 Danh mục các công trình khoa học 150 Tài liệu tham khảo 151 Phụ lục 159 v
  7. DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Dạng đầy đủ Diễn giải/Tạm dịch Bi-LSTM Bidirectional Long Short Mạng bộ nhớ dài ngắn hai Term Memory chiều Bi-LSTM-CRFs Bidirectional Long Short Mạng bộ nhớ dài ngắn hai Term Memory - chiều trường ngẫu nhiên có Conditional Random Field điều kiện CNN Convolutional Neural Network Mạng nơ ron tích chập CRFs Conditional Random Fields Trường ngẫu nhiên có điều kiện EI Explicit Intent Ý định rõ EMD Entity Mentioned Xác định thực thể được Detection nhắc đến IE Information Extraction Trích xuất thông tin IH Intent Head Đầu của ý định II Implicit Intent Ý định ẩn IM Intent Modifiers Bổ nghĩa của ý định L-BFGS Limited-memory Broyden-Fletcher Giới hạn bộ nhớ BFGS Goldfarb Shanno LSTM Long Short Term Memory Mạng bộ nhớ ngắn dài vi
  8. ME Maximum Entropy Cực đại entropy NI Non Intent Không có ý định NER Named Entity Ricognition Nhận diện thực thể có tên POS Part Of Speech Thành phần của câu RNN Recurrent Neural Network Mạng nơ ron hồi quy SVMs Support Vector Machines Máy véc tơ hỗ trợ vii
  9. DANH MỤC CÁC BẢNG 1.1 Ví dụ về văn bản trực tuyến chứa và không chứa ý định . . . . 13 3.1 Đặc trưng dùng để huấn luyện mô hình lọc bài đăng mang ý định người dùng . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2 Ý định của người dùng thuộc các miền quan tâm khác nhau . . 66 3.3 Ví dụ về một vài đặc trưng từ điển có trọng số cao cho mỗi miền quan tâm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.4 Mười ba lớp miền quan tâm của ý định và ví dụ . . . . . . . . . 72 3.5 Precision, recall và F1 -score của fold tốt nhất khi dùng SVMs và ME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.6 Độ chính xác của từng lớp miền quan tâm khi sử dụng phương pháp CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.1 Bộ 13 nhãn cho miền quan tâm Bất động sản . . . . . . . . . . 85 4.2 Bộ 9 nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . 85 4.3 Ví dụ minh họa cho đặc trưng dạng biểu thức chính quy . . . . 87 4.4 Đặc trưng từ điển . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.5 Gán nhãn dữ liệu với bộ nhãn tương ứng . . . . . . . . . . . . . 93 4.6 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . 98 4.7 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . 98 4.8 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 110 4.9 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 111 4.10 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 112 4.11 Độ chính xác đối với từng nhãn thu được trên miền Du lịch khi sử dụng phương pháp học kết hợp mà luận án đề xuất . . . . . 116 4.12 Độ chính xác đối với từng nhãn thu được trên miền Xe cộ khi sử dụng phương pháp kết hợp mà luận án đề xuất . . . . . . . 118 viii
  10. 4.13 Độ chính xác đối với từng nhãn thu được trên miền Bất động sản khi sử dụng phương pháp kết hợp mà luận án đề xuất . . . 119 4.14 Một số ví dụ về nhãn mô tả . . . . . . . . . . . . . . . . . . . . 120 5.1 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 127 5.2 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 128 5.3 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 129 5.4 Bộ 10 nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . . 130 5.5 Sử dụng bộ nhãn không phụ thuộc miền trên một số miền quan tâm khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 5.6 Gán nhãn dữ liệu lần lượt với bộ nhãn riêng và bộ nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 5.7 Kết quả F1 trung bình đối với mỗi miền quan tâm cụ thể khi sử dụng bộ nhãn riêng và bộ nhãn không phụ thuộc miền tương ứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.8 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch với bộ nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . 139 5.9 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch với bộ nhãn riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 5.10 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Xe cộ và Bất động sản với bộ nhãn riêng . . . . . . . . . . . . . . . . . . 141 5.11 Kết quả tốt nhất khi trích xuất tập 32 nhãn riêng đối với tổ hợp 3 miền quan tâm. . . . . . . . . . . . . . . . . . . . . . . . . 145 5.12 Kết quả tốt nhất khi trích xuất tập 10 nhãn không phụ thuộc miền đối với tổ hợp 3 miền quan tâm. . . . . . . . . . . . . . . . 146 5.13 Ví dụ gán nhãn cho miền Bất động sản (BĐS) . . . . . . . . . . 159 5.14 Ví dụ gán nhãn cho miền Du lịch . . . . . . . . . . . . . . . . . 160 5.15 Ví dụ gán nhãn cho miền Xe cộ . . . . . . . . . . . . . . . . . 161 ix
  11. DANH MỤC CÁC HÌNH VẼ 1.1 Quy tắc gán nhãn BIO . . . . . . . . . . . . . . . . . . . . . . . 24 1.2 Chuỗi trạng thái tương ứng với chuỗi quan sát . . . . . . . . . . 25 1.3 Mô hình mạng nơ ron feed − forward nhiều tầng . . . . . . . . . 27 1.4 Đồ thị tính toán trong kiến trúc RNNs . . . . . . . . . . . . . . 28 1.5 Kiến trúc một tế bào trong mô hình LSTM [46] . . . . . . . . . 29 2.1 Một bài đăng mang ý định rõ trên phương tiện truyền thông xã hội Việt Nam . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.2 Ví dụ minh họa cho việc tiền xử lý dữ liệu . . . . . . . . . . . . 34 2.3 Quy trình ba pha Phân tích và xác định ý định người dùng . . 47 2.4 Ví dụ cụ thể một quá trình phân tích và xác định ý định người dùng trực tuyến . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.1 Mô phỏng mô hình phân lớp nhị phân với CNN . . . . . . . . 57 3.2 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp ME 63 3.3 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp SVMs 63 3.4 Độ chính xác của từng lớp con khi sử dụng phương pháp SVMs 64 3.5 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp CNN 65 3.6 Sơ đồ khối thể hiện mô hình Xác định miền quan tâm của ý định 68 3.7 Độ chính xác F1 khi đánh giá chéo 5-fold với ME và SVMs . . 75 3.8 Độ chính xác trung bình F1 đối với mỗi miền quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.9 Độ chính xác trung bình F1 khi đánh giá chéo 5-fold với CNN 76 4.1 Một số mẫu intention phrase [16] . . . . . . . . . . . . . . . . . 82 4.2 Bản thể mẫu ngữ nghĩa của ý định mua sắm - CI pattern [36] . 83 4.3 Cửa sổ trượt kích thước 5 để xây dựng đặc trưng từ vựng . . . 86 4.4 Kiến trúc mô hình Bi-LSTM-CRFs . . . . . . . . . . . . . . . . 89 4.5 Véc tơ mã hóa được huấn luyện trước của từ “có” . . . . . . . . 90 4.6 Mô hình mã hóa dựa vào ký tự . . . . . . . . . . . . . . . . . . . 91 4.7 Mô phỏng mô hình mạng nơ ron sử dụng kỹ thuật cắt tỉa . . . 92 4.8 Chuyển đổi sang chuẩn B-I-O . . . . . . . . . . . . . . . . . . . 94 x
  12. 4.9 Trung bình F1-score của mỗi fold đối với miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.10 Trung bình F1-score của mỗi fold đối với miền quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.11 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . 100 4.12 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.13 Mô hình trích chọn ý định dựa trên kết hợp các mô hình học sâu 102 4.14 Sơ đồ khối thể hiện pha huấn luyện của mô hình học kết hợp không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 103 4.15 Sơ đồ khối thể hiện pha đoán nhận của mô hình học kết hợp không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 104 4.16 Mô hình trích chọn ý định dựa trên ý tưởng học kết hợp trong ngữ cảnh học sâu với tầng biểu diễn từ dựa trên ký tự được chia sẻ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.17 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối với miền Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . 114 4.18 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối với miền Du lịch . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.19 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối với miền Xe cộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.1 Mô hình trích xuất ý định đa miền quan tâm . . . . . . . . . . 132 5.2 Mô hình Bi-LSTM trích xuất ý định đa miền quan tâm . . . . 134 5.3 Kết quả F1 trung bình khi áp dụng các mô hình CRFs, Bi- LSTM, Bi-LSTM-CRFs lần lượt trên 1, 2 và 3 miền quan tâm với bộ nhãn chung (General) và bộ nhãn riêng (Specific) tương ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 5.4 Kết quả trung bình F1 trên tổ hợp 3 miền quan tâm khi áp dụng lần lượt 3 mô hình Bi-LSTM-CRFs, Bi-LSTM, CRFs . . . 143 5.5 Giao diện mô hình trích xuất ý định người dùng . . . . . . . . . 146 xi
  13. Mở đầu Trong hơn một thập kỷ qua, với sự phát triển bùng nổ của blog, diễn đàn, và mạng xã hội, người dùng Internet nói chung và người dùng Việt nói riêng đã hình thành thói quen chia sẻ thông tin thường xuyên trên các kênh truyền thông trực tuyến này. Theo đó, người dùng thường đăng các dòng trạng thái, bài viết, bình luận thể hiện suy nghĩ, quan điểm, sở thích, tình cảm, và đặc biệt là chia sẻ những ý định mà họ muốn thực hiện trong tương lai với mong muốn nhận được phản hồi, tư vấn của những người dùng khác. Ý định của người dùng có thể về bất cứ điều gì như dự tính mua điện thoại, thuê nhà, vay ngân hàng, đi du lịch, học ngoại ngữ, khám chữa bệnh, hay đơn giản chỉ là nghe nhạc, xem phim. Ngày nay, chúng ta dễ dàng bắt gặp những chia sẻ như “nhà em đang tìm chiếc suv rộng rãi, bền bỉ, ăn ít xăng để đi làm và cả nhà đi chơi cuối tuần, bác nào có crv hoặc santafe lướt thì inbox em” hay “mình đang tính tổ chức chuyến du lịch cho cả phòng vào hè này. Bọn mình đi ĐN, tầm tháng 7, khoảng 20 người cả trẻ em. Mẹ nào có kinh nghiệm đặt tour thì tư vấn mình nhé, cảm ơn các mẹ nhiều”. Những bài đăng hàm chứa ý định như trên thể hiện một cách rõ ràng mong muốn, nhu cầu và dự tính của người viết. Từ đó nếu các công ty du lịch và hãng hàng không nắm bắt được nhu cầu, dự định nghỉ hè của các khách hàng tiềm năng, họ có thể điều chỉnh kế hoạch kinh doanh phù hợp hơn với thị trường. Không chỉ du lịch, các lĩnh vực khác như bán lẻ, bất động sản, tài chính - ngân hàng, bảo hiểm, y tế, giáo dục . . . đều được hưởng lợi. Rõ ràng, việc tự động thu thập, phân tích và hiểu được ý định của người dùng thông qua những gì họ chia sẻ là chìa khoá quan trọng giúp chúng ta nắm bắt nhu cầu khách hàng nhanh hơn cũng như định vị các khách hàng tiềm năng hiệu quả hơn. Vì thế, phân tích và hiểu ý định từ các văn bản trực tuyến là vấn đề có nhiều ý nghĩa thực tiễn và có tính ứng dụng cao, đặc biệt đối với các hệ thống thương mại điện tử, các hệ thống khuyến nghị, quảng cáo trực tuyến... 1
  14. Mở đầu 2 Tuy vậy, phân tích và xác định một cách đầy đủ, chính xác ý định từ văn bản là vấn đề khó trong lĩnh vực xử lý và hiểu ngôn ngữ tự nhiên. Thứ nhất, ý định vốn rất đa dạng vì một người có thể thể hiện ý định về bất cứ điều gì tuỳ thuộc vào nhu cầu, mong muốn của họ. Thứ hai, ngôn ngữ thể hiện ý định có thể gây ra nhập nhằng. Ví dụ, câu “mình đang có hoa quả ngon, mẹ nào muốn mua thì inbox nhé ” có ý định là bán hoa quả, nhưng sự hiện diện của cụm từ muốn mua có thể đánh lừa máy tính. Thứ ba, ý định trong văn bản có thể ở dạng ẩn (implicit) hoặc gián tiếp. Ví dụ “dòng 7 chỗ xe nào chạy êm nhỉ ? ” không thể hiện rõ người viết muốn mua xe hay chỉ đơn thuần tìm hiểu thông tin. Thứ tư, có thể tồn tại nhiều ý định ngay trong một câu văn. Ngoài ra, việc các văn bản trên diễn đàn, mạng xã hội thường dùng từ địa phương, tiếng lóng, từ viết tắt, ngôn ngữ “teen” cũng gây ra không ít khó khăn cho việc phân tích ý định. Vì những thử thách trên, cộng đồng nghiên cứu đang từng bước tìm cách giải quyết vấn đề này ở những phạm vi, mức độ, hay miền lĩnh vực (miền dữ liệu) khác nhau. Chính vì vậy, bài toán phân tích và hiểu ý định từ văn bản nói chung và văn bản truyền thông xã hội trực tuyến nói riêng còn thiếu một cách tiếp cận xuyên suốt và đặc biệt là chưa có giải pháp phù hợp cho ba vấn đề trọng tâm sau đây: 1) Đề xuất định nghĩa hình thức về ý định có khả năng khái quát được cấu trúc ý định vốn được thể hiện rất đa dạng trong văn bản. Để phân tích và xác định ý định một cách hiệu quả và chính xác, trước tiên chúng ta cần hiểu rõ ý định là gì. Ý định, theo cách hiểu chung nhất, là những gì con người dự định sẽ thực hiện trong tương lai. Theo Bratman (1987), “Ý định là trạng thái của trí não biểu thị một sự cam kết sẽ thực hiện một hoặc một chuỗi các hành động trong tương lai. Ý định liên quan đến các hoạt động đầu óc như lên kế hoạch hay sắp đặt chủ ý.” [13]. Tuy vậy định nghĩa này mới chỉ ở dạng mô tả. Để máy tính có thể tự động phân tích và hiểu được ý định, chúng ta cần những định nghĩa ở dạng hình thức hơn. Theo hướng này, Liu mô tả ý định là một cấu trúc gồm năm thành phần bao gồm hành động ý định (intended–action), đích của ý định (intention–target), độ mạnh của ý định (intention–intensity), chủ thể của ý định (holder), và thời điểm phát biểu ý định (time) [10]. Dù vậy, định nghĩa này chỉ mới phù hợp với các câu văn mang ý định ở dạng đơn giản như “tôi muốn mua một chiếc
  15. Mở đầu 3 iphone 11 pro” với muốn mua là intended–action, iphone 11 pro là intention– target và tôi là holder. Trong thực tế, các câu mang ý định vốn đa dạng và phức tạp hơn. Ngoài hành động và đích của ý định, miền quan tâm, ngữ cảnh xuất hiện, cùng các thuộc tính hay ràng buộc của ý định là những khía cạnh cần thiết được xem xét. Chẳng hạn, với văn bản được đăng trên trang www.webtretho.com như sau:“Em cũng đang cần thuê phòng trọ khép kín cho 2 chị em gái đều đã đi làm(1 nvvp & 1 giáo viên ĐH). Em cần phòng giá khoảng 1tr7, ở lâu dài khu vực CẦU GIẤY - LÁNG - TRẦN DUY HƯNG - THANH XUÂN. Cả nhà có thông tin gì thì cho em biết với nhé. Em muốn chuyển luôn cuối tuần này ạ. Liên hệ em Linh - 0988 428 197. Em đi làm nên chỉ cần chỗ ở yên tĩnh, thoáng, có internet, có nấu ăn, có chỗ để xe và an ninh tốt là được ạ. Cảm ơn cả nhà.”, ta có thể thấy rất nhiều thông tin cần trích xuất như: giá thuê, địa điểm phòng trọ, số điện thoại liên hệ... Vì thế, chúng ta cần có một định nghĩa, một cấu trúc đặc tả các thành phần của ý định cụ thể và bao quát hơn. 2) Mô hình hoá vấn đề phân tích và hiểu ý định theo một quy trình xuyên suốt với đầy đủ các bước phát hiện ý định, xác định miền quan tâm, và trích chọn nội dung cụ thể của ý định. Như đã đề cập, ý định thể hiện trong văn bản rất đa dạng. Vì thế, các nghiên cứu trước đây thường tiếp cận vấn đề trong một phạm vi hoặc một lĩnh vực ứng dụng cụ thể. Theo đó, Li (2010) [67] phân tích ý định trong truy vấn tìm kiếm bằng việc xác định hai thành phần là trọng tâm của ý định (intent heads – IH) và bổ nghĩa của ý định (intent modifiers – IM). Ví dụ truy vấn “alice in wonderland 2010 cast” có IH là “cast” (diễn viên) và hai IM là “alice in wonderland ” (tên bộ phim) và “2010 ” (sản xuất năm 2010). IH là thành phần máy tìm kiếm cần tìm câu trả lời còn mỗi IM là một ràng buộc hay đặc điểm nào đó của truy vấn. Khi xác định được các thành phần IH và IM trong một câu truy vấn, hệ thống sẽ hiểu được ý định tìm kiếm của người dùng là gì. Heyrani–Nobari và cộng sự (2014) [76] phân tích ý định của các bài đăng trên diễn đàn thảo luận bằng cách xác định khía cạnh (aspect) và hành động (action) liên quan. Ví dụ khía cạnh có thể là “iphone” và hành động có thể là “nâng cấp”. Tác giả áp dụng một mô hình chủ đề để đồng thời xác định được cả hai loại thông tin này. Castellanos và cộng sự (2012) [16] phân tích ý định từ các văn bản trực tuyến bằng cách xác định cụm từ chứa ý định (intention phrase) và các thành phần khác của ý định (intention
  16. Mở đầu 4 components). Theo tác giả, cụm chứa ý định được trích chọn bằng kỹ thuật bootstrapping, còn các thành phần khác của ý định được trích chọn bằng luật hoặc bằng kỹ thuật học máy như CRFs. Các công trình trên đã phân tích được ý định trong từng phạm vi và lĩnh vực cụ thể. Tuy vậy, chưa có công trình nào tiếp cận vấn đề phân tích ý định theo một quy trình tổng quát, xuyên suốt với đầy đủ các bước từ phát hiện (hay lọc) ý định, xác định miền quan tâm của ý định, và trích chọn nội dung cụ thể của ý định. Trong đó, mỗi bước cần được mô hình hoá thành bài toán phân loại, phân tích ngôn ngữ hoặc trích chọn thông tin phù hợp. 3) Phân tích và hiểu ý định trên đa miền quan tâm. Đặc biệt là khả năng mở rộng phân tích ý định cho các miền dữ liệu mới. Theo đó, các nghiên cứu của Li (2010) [67], Castellanos và cộng sự (2012) [16], Chen và cộng sự (2013) [21], Heyrani–Nobari và cộng sự (2014) [76], Gupta và cộng sự (2014) [35], Wang và cộng sự (2015) [97], Kim và cộng sự (2016) [55], Shang (2017) [92] Labidi và cộng sự (2018) [65] đã đề xuất các phương pháp phù hợp cho từng điều kiện bài toán cụ thể. Tuy vậy, mỗi miền quan tâm (miền ứng dụng) sẽ có một tập thuộc tính hay ràng buộc ý định riêng. Ví dụ, các thuộc tính về ý định du lịch có thể bao gồm nơi đến, phương tiện, khách sạn, số lượng người . . . trong khi ý định mua nhà sẽ xem xét các khía cạnh loại hình bất động sản (nhà đất hay chung cư), địa điểm, diện tích, hướng nhà . . . . Việc mở rộng miền, học chuyển đổi từ miền này sang miền khác hay thiết kế cơ chế trích chọn thông tin ý định từ đa miền quan tâm là những vấn đề hầu như chưa được cộng đồng nghiên cứu xét đến. Một số ít nghiên cứu về vấn đề học chuyển đổi trong bài toán phân tích ý định hầu hết mới được khai thác trong những năm gần đây, cụ thể là của các tác giả Ngo và cộng sự (2017) [71], Song và cộng sự (2018) [93]. Ngoài ra, dù vấn đề phân tích và hiểu ý định từ văn bản gây được nhiều chú ý trong thời gian gần đây, cộng đồng nghiên cứu vẫn còn thiếu các tập dữ liệu gán nhãn làm chuẩn mực chung để thử nghiệm, so sánh, đánh giá các phương pháp. Đặc biệt, chưa có bất cứ tập dữ liệu tiếng Việt được gán nhãn chuẩn cho hướng nghiên cứu này. Theo hiểu biết của tác giả, luận án này là công trình đầu tiên đặt vấn đề phân tích và hiểu ý định trong văn bản tiếng Việt, cụ thể là cho các văn bản ngắn trên các kênh truyền thông xã hội trực tuyến. Vì thế, luận án xem thử thách về đặc thù ngôn ngữ, về việc thiếu dữ liệu đánh giá là một trong những nhiệm vụ cần giải quyết và vượt qua.
  17. Mở đầu 5 Mục tiêu và nội dung nghiên cứu của luận án Từ việc phân tích những vấn đề trọng tâm đề cập ở trên, luận án đặt ra mục tiêu nghiên cứu chính như sau: Mục tiêu nghiên cứu: Đề xuất và xây dựng các mô hình tự động phân tích ý định từ các văn bản (bài đăng/bình luận) tiếng Việt ngắn trên các phương tiện truyền thông xã hội trực tuyến. Để đạt được mục tiêu nghiên cứu đề ra, luận án cần giải quyết và thực hiện những nội dung nghiên cứu quan trọng sau đây: 1) Đề xuất định nghĩa và biểu diễn cấu trúc ý định: Trước tiên, luận án thực hiện tìm hiểu, khảo sát các định nghĩa về ý định của các nghiên cứu liên quan. Từ đó, luận án đề xuất một định nghĩa về ý định cũng như cách biểu diễn ý định phù hợp cho các văn bản trực tuyến tiếng Việt có độ dài ngắn. 2) Đề xuất tiến trình phân tích ý định cũng như cách thức mô hình hoá và giải quyết các bước cụ thể trong tiến trình đó : Tiến trình này bao hàm đầy đủ các bước từ phát hiện sự hiện diện của ý định (xác định văn bản chứa ý định), xác định miền quan tâm của ý định, và đặc biệt là trích chọn các thông tin cụ thể trong cấu trúc ý định. 3) Đề xuất phân tích và xác định ý định đa miền quan tâm: Luận án cần làm sáng tỏ những giả thuyết quan trọng về trích chọn thông tin ý định từ đa miền quan tâm cũng như mối tương quan giữa các mô hình, kết quả phân tích cho từng miền riêng lẻ và trên nhiều miền ? Liệu chúng ta có thể sử dụng dữ liệu và tri thức từ một miền đã có để phân tích trên các miền mới ? Một phần quan trọng của luận án sẽ tìm kiếm câu trả lời cho những câu hỏi này. Bên cạnh các mục tiêu và nội dung nghiên cứu chính vừa nêu, một trong những động lực nghiên cứu của luận án là phân tích ý định cho văn bản truyền thông xã hội tiếng Việt. Theo hiểu biết của nghiên cứu sinh, luận án này cùng các công trình khoa học đã công bố là những nỗ lực đầu tiên để phân tích ý định người viết từ văn bản tiếng Việt một cách có hệ thống. Luận án xem xét các yếu tố như tính đa dạng về ngôn từ, về cách hành văn tiếng Việt. Và một khó khăn nữa luận án phải khắc phục là việc thiếu hoàn toàn dữ liệu gán nhãn ý định. Do đó, bên cạnh các phương pháp, kỹ thuật đề xuất, luận án sẽ xây dựng các tập ngữ liệu gán nhãn ý định để phục vụ cho thực nghiệm, đánh giá, so sánh cũng như chia sẻ với cộng đồng tạo tiền
  18. Mở đầu 6 đề cho các nghiên cứu về sau. Phạm vi và phương pháp nghiên cứu Ý định thể hiện trong văn bản rất đa dạng. Việc phân tích đầy đủ, chính xác ý định của người viết cần thêm nhiều nghiên cứu từ cộng đồng. Luận án này hạn chế phạm vi và nội dung nghiên cứu như sau: Dạng ý định: Luận án chỉ quan tâm các ý định tường minh hay còn gọi là ý định rõ (explicit intents). Luận án chưa xem xét phân tích các ý định ẩn (implicit intents). Luận án có thể xử lý trường hợp đa ý định trong văn bản, nhưng không xử lý trường hợp đa ý định trong cùng một câu hoặc các ý định có tính lồng nhau. Luận án cũng không xem xét khía cạnh về tính hiệu lực của ý định, nghĩa là một ý định có thể đề cập trong quá khứ và có thể đã hết hiệu lực nhưng vẫn được xem là hợp lệ. Dạng dữ liệu: Dữ liệu văn bản mà luận án đề cập đều là các bài đăng, bình luận của người dùng trên các phương tiện truyền thông xã hội trực tuyến. Để ngắn gọn, luận án sử dụng thuật ngữ văn bản trực tuyến hoặc bài đăng. Độ dài mỗi văn bản trực tuyến cần phải từ 2 đến 500 từ. Trong phạm vi luận án này, khái niệm “một từ” (“one word” trong tiếng Anh) được hiểu tương đương với khái niệm “một âm tiết” trong tiếng Việt. Về phương pháp nghiên cứu, luận án khảo sát những cách tiếp cận và phương pháp liên quan đến bài toán phân tích ý định đã được công bố trên thế giới. Tiếp đó, luận án đề xuất các mô hình, phương pháp để giải quyết các bài toán trong vấn đề phân tích và hiểu ý định từ văn bản, đồng thời nghiên cứu thực nghiệm để kiểm chứng đánh giá các đề xuất của luận án. Các kết quả và đóng góp chính của luận án Với các vấn đề đặt ra cùng các nội dung nghiên cứu đã nêu, luận án đạt được một số kết quả và đóng góp chính như sau: Thư nhất, luận án đã đề xuất định nghĩa về ý định rõ hướng miền quan tâm (explicit intent) phù hợp cho các văn bản truyền thông xã hội trực tuyến. Theo đó, ý định là một bộ năm (5–tuple) bao gồm (1) người đưa ra ý định (tức người viết), (2) thông tin ngữ cảnh của ý định, (3) miền lĩnh vực của ý định, (4) cụm từ khoá chỉ ý định, và (5) tập các thuộc tính hay ràng buộc
  19. Mở đầu 7 của ý định. Luận án cũng đề xuất tiến trình phân tích và xác định ý định ba pha gồm ba bài toán: lọc ý định, xác định miền quan tâm của ý định, và trích chọn thông tin chi tiết của ý định. Các nội dung và kết quả này được trình bày trong công trình của Lương và cộng sự (2016a) [LTLe1]. Thứ hai, luận án đã mô hình hoá hai bài toán lọc văn bản chứa ý định và xác định miền quan tâm của ý định dưới dạng bài toán phân lớp nhị phân và bài toán phân lớp đa lớp. Luận án đã đề xuất các mô hình học máy và mô hình học sâu hiệu quả, phù hợp để giải quyết hai bài toán này. Các nội dung và kết quả này được trình bày trong ba công trình của Lương và cộng sự (2016a) [LTLe1], Lương và cộng sự (2016b) [LTLe2] và Lương (2020) [LTLe6]. Thứ ba, luận án đã mô hình hoá bài toán xác định các nội dung của ý định dưới dạng bài toán trích chọn thông tin trên dữ liệu chuỗi. Luận án đã đề xuất tập nhãn đặc trưng cho các nội dung ý định trong từng miền lĩnh vực. Các mô hình học máy thống kê cho dữ liệu chuỗi như CRFs, mô hình học sâu Bi– LSTM–CRFs được đề xuất để giải quyết bài toán này. Luận án đặc biệt chú trọng đến việc tích hợp các dạng thông tin, thuộc tính khác nhau, đặc trưng mang đặc thù ngôn ngữ tiếng Việt để nâng cao hiệu quả trích chọn thông tin ý định. Các kết quả này được trình bày trong công trình của Lương và cộng sự (2017) [LTLe3]. Luận án cũng đề xuất nâng cao hiệu quả trích chọn thông tin ý định dựa trên các mô hình học kết hợp (ensemble learning). Kết quả này được trình bày ở công trình của Lương và cộng sự (2019) [LTLe4]. Thứ tư, luận án đề xuất tiếp cận phân tích và xác định ý định đa miền quan tâm bằng cách đề xuất tập nhãn chung cho các miền dữ liệu. Luận án đã tiến hành thực nghiệm, so sánh đánh giá hiệu quả của hai cách tiếp cận phụ thuộc miền và độc lập miền cũng như thảo luận về ưu và nhược điểm của mỗi cách tiếp cận. Nội dung và kết quả này được trình bày trong công trình của Lương và cộng sự (2020) [LTLe5]. Ngoài các kết quả trên, luận án cũng đã xây dựng các bộ dữ liệu cho các bài toán như lọc ý định, xác định miền quan tâm của ý định, trích chọn thông tin ý định, trích chọn ý định độc lập miền . . . Dữ liệu được thu thập từ hàng ngàn bài đăng trên các phương tiện truyền thông trực tuyến tiếng Việt như diễn đàn, sàn thương mại điện tử, mạng xã hội. Các bộ dữ liệu được thiết kế và xây dựng cẩn thận để có thể dùng cho việc so sánh, đánh giá trong các
  20. Mở đầu 8 nghiên về sau của nghiên cứu sinh và chia sẻ với cộng đồng nghiên cứu. Các công trình khoa học của luận án được đánh chỉ mục bởi DBLP 1 và Google Scholar 2 . Các công trình cũng đã bắt đầu được quan tâm và trích dẫn từ cộng đồng nghiên cứu. Cấu trúc của luận án Nội dung của luận án được chia thành năm chương chính như sau: Chương 1, Tổng quan về ý định và phân tích ý định, giới thiệu tổng quan về ý định và thể hiện ý định trong ngôn ngữ cũng sơ lược về vấn đề phân tích và hiểu ý định trong văn bản. Theo đó, chương này đề cập các hướng nghiên cứu chính liên quan như xác định ý định trong câu truy vấn tìm kiếm, phân tích ý định trong ngôn ngữ nói và trong các văn bản ngắn. Phần cuối của chương trình bày một số cách tiếp cận và kỹ thuật học máy được áp dụng để phân tích và hiểu ý định. Chương 2, Phân tích ý định từ văn bản trực tuyến, trình bày bài toán phân tích và hiểu ý định từ văn bản trực tuyến tiếng Việt. Theo đó, luận án sẽ trình bày các định nghĩa và cấu trúc của ý định người dùng, định nghĩa về miền quan tâm. Chương này cũng mô tả tiến trình ba pha được đề xuất để phân tích và xác định ý định từ văn bản trực tuyến tiếng Việt. Chương 3, Phát hiện ý định và xác định miền quan tâm của ý định, trình bày hai phương pháp luận án đề xuất để giải quyết lần lượt các vấn đề ở pha thứ nhất và pha thứ hai trong tiến trình phân tích ý định ba pha được đề xuất ở Chương 2. Trong đó, vấn đề thứ nhất nhằm lọc các văn bản có chứa ý định. Vấn đề thứ hai nhằm xác định miền lĩnh vực của ý định. Ở mỗi vấn đề, luận án sẽ trình bày cách tiếp cận, phương pháp đề xuất cũng như thực nghiệm, phân tích và đánh giá kết quả đạt được. Chương 4, Phân tích và trích chọn nội dung ý định, tập trung giải quyết pha thứ ba trong tiến trình ba pha giới thiệu ở Chương 2. Theo đó, pha này là phân tích nội dung bài đăng và trích chọn cụm từ chỉ ý định cũng như xác định các thông tin, thuộc tính của ý định đó. Luận án trình bày cách thức mô hình hoá vấn đề dưới dạng bài toán trích chọn thông tin trên dữ liệu chuỗi và giải quyết bằng hai phương pháp học máy thống kê hiện đại là 1. DBLP: https://dblp.org/pers/hd/l/Luong:Thai=Le 2. Google Scholar: https://scholar.google.com/citations ?user=I1FbHw4AAAAJ
nguon tai.lieu . vn