Xem mẫu
- ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lương Thái Lê
Phân tích ý định từ văn bản ngắn,
trực tuyến tiếng Việt
LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN
Hà Nội - 2021
- LỜI CAM ĐOAN
Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định
từ văn bản ngắn, trực tuyến tiếng Việt là công trình nghiên cứu của
riêng NCS. Các số liệu, kết quả được trình bày trong luận án là hoàn toàn
trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác.
NCS đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu
liên quan trong và ngoài nước. Ngoại trừ các tài liệu tham khảo này,
luận án hoàn toàn là công việc của riêng NCS.
Trong các công trình khoa học được công bố liên quan đến luận án, NCS
đã thể hiện rõ và chính xác đóng góp của các đồng tác giả và những gì
do NCS đã thực hiện.
Tác giả:
Hà Nội:
i
- LỜI CẢM ƠN
Lời đầu tiên, tôi xin được bày tỏ sự biết ơn sâu sắc đến PGS.TS. Phan
Xuân Hiếu, cán bộ hướng dẫn khoa học, người đã trực tiếp định hướng và
giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Thầy không
chỉ truyền đạt cho tôi những kiến thức quan trọng về học thuật mà còn chia
sẻ cho tôi nhiều kinh nghiệm quý giá trong con đường nghiên cứu khoa học.
Một vinh dự lớn cho tôi được học tập, nghiên cứu dưới sự hướng dẫn của
Thầy.
Tôi xin bày tỏ sự biết ơn chân thành đến các Thầy, Cô trong Bộ môn
Hệ thống thông tin, đặc biệt là PGS.TS. Hà Quang Thụy cùng các thành
viên của Phòng thí nghiệm Khoa học Dữ liệu và Công nghệ Tri thức vì sự
giúp đỡ cũng như những đóng góp chuyên môn hữu ích của các Thầy Cô cho
luận án.
Tôi xin trân trọng cảm ơn Khoa Công nghệ Thông tin, Phòng Đào tạo
và Ban Giám hiệu Trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho
tôi trong suốt quá trình học tập và thực hiện luận án.
Tôi cũng bày tỏ sự biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa,
và các đồng nghiệp của tôi tại Khoa Công nghệ Thông tin - Trường Đại học
Giao thông Vận tải vì đã tạo điều kiện về thời gian, tài chính và đã luôn cổ
vũ, hỗ trợ tôi trong suốt quá trình nghiên cứu. Bên cạnh đó, tôi cũng xin gửi
lời cảm ơn đến PGS.TS. Trần Văn Long, cán bộ đồng hướng dẫn luận án của
tôi, về những giúp đỡ hữu ích cho luận án.
Tôi không thể quên cảm ơn những cộng sự của tôi trong nhóm nghiên
cứu MDN–Team, những người đã đồng hành, sát cánh cùng tôi trong suốt
quá trình nghiên cứu, hoàn thành luận án, và tôi sẽ luôn ghi nhớ điều đó.
Ngoài ra, tôi muốn cảm ơn tất cả những người bạn của tôi vì sự động viên
chia sẻ bất cứ khi nào tôi cần.
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với bố mẹ, chồng, con
và gia đình, những người đã luôn ủng hộ và yêu thương tôi một cách vô điều
kiện. Nếu không có sự ủng hộ của gia đình và chồng con, tôi không thể hoàn
thành được luận án này.
ii
- Mục lục
Lời cam đoan i
Lời cảm ơn ii
Mục lục ii
Danh mục các từ viết tắt vi
Danh mục các bảng viii
Danh mục các hình vẽ x
Mở đầu 1
Chương 1. Tổng quan về ý định và phân tích ý định 10
1.1 Ý định và thể hiện ý định trong ngôn ngữ . . . . . . . . . . . . 10
1.2 Ý định trong văn bản trực tuyến . . . . . . . . . . . . . . . . . . 12
1.3 Phân tích ý định: bối cảnh khoa học . . . . . . . . . . . . . . . 14
1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm . . . 16
1.3.2 Phân tích ý định trong các bài đăng . . . . . . . . . . . . 20
1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy . . . . . 21
1.4.1 Cơ bản về kỹ thuật phân lớp . . . . . . . . . . . . . . . . 21
1.4.2 Cơ bản về kỹ thuật trích xuất thông tin . . . . . . . . . 23
1.4.3 Cơ bản về mạng nơ ron . . . . . . . . . . . . . . . . . . . 25
1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Chương 2. Phân tích ý định từ văn bản trực tuyến 31
2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt . . . . . . . 31
2.1.1 Xây dựng dữ liệu thực nghiệm . . . . . . . . . . . . . . . 33
2.1.2 Khó khăn - Thách thức . . . . . . . . . . . . . . . . . . . 36
2.2 Định nghĩa ý định người dùng: bối cảnh khoa học . . . . . . . . 38
2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển . . . 38
2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc . . . 39
iii
- 2.3 Định nghĩa ý định hướng miền quan tâm . . . . . . . . . . . . . 39
2.3.1 Định nghĩa quan điểm của Bing Liu . . . . . . . . . . . . 40
2.3.2 Định nghĩa ý định của Bing Liu . . . . . . . . . . . . . . 41
2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án . . 42
2.4 Tiến trình ba pha phân tích và xác định ý định . . . . . . . . . 46
2.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Chương 3. Phát hiện ý định và xác định miền quan tâm của
ý định 51
3.1 Nghiên cứu trên thế giới về phát hiện ý định và xác định miền
quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.1 Phát hiện bài đăng trực tuyến mang ý định . . . . . . . 52
3.1.2 Xác định miền quan tâm của ý định . . . . . . . . . . . . 53
3.2 Phát hiện ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 56
3.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 60
3.2.4 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 61
3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 62
3.3 Xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . 65
3.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 65
3.3.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 67
3.3.3 Xây dựng tập các miền quan tâm . . . . . . . . . . . . . 70
3.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 71
3.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 73
3.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 73
3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Chương 4. Phân tích và trích chọn nội dung ý định 79
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2 Nghiên cứu trên thế giới về trích chọn nội dung ý định . . . . . 81
4.3 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.4 Trích chọn ý định theo tiếp cận học máy thống kê và học sâu . 84
4.4.1 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 84
4.4.2 Trích chọn ý định với phương pháp CRFs . . . . . . . . . 84
4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM–
CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.4.4 Độ đo đánh giá mô hình thực nghiệm . . . . . . . . . . . 92
4.4.5 Thời gian thực nghiệm với mỗi mô hình . . . . . . . . . . 93
iv
- 4.4.6 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 93
4.4.7 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 95
4.4.8 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 96
4.5 Trích chọn ý định dựa trên kết hợp các mô hình học sâu . . . . 99
4.5.1 Kỹ thuật học kết hợp (ensemble learning) . . . . . . . . 100
4.5.2 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 101
4.5.3 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 101
4.5.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 109
4.5.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 110
4.5.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 113
4.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 121
5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.2 Nghiên cứu trên thế giới về thích nghi miền trong xác định ý
định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.3 Trích chọn nội dung ý định theo tiếp cận đa miền quan tâm . . 125
5.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 125
5.3.2 Xây dựng bộ nhãn không phụ thuộc miền . . . . . . . . 126
5.3.3 Mô hình trích xuất ý định đa miền quan tâm . . . . . . 131
5.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 135
5.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 136
5.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 138
5.3.7 Mô phỏng mô hình trích xuất ý định đa miền quan tâm 144
5.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Kết luận 148
Danh mục các công trình khoa học 150
Tài liệu tham khảo 151
Phụ lục 159
v
- DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Dạng đầy đủ Diễn giải/Tạm dịch
Bi-LSTM Bidirectional Long Short Mạng bộ nhớ dài ngắn hai
Term Memory chiều
Bi-LSTM-CRFs Bidirectional Long Short Mạng bộ nhớ dài ngắn hai
Term Memory - chiều trường ngẫu nhiên có
Conditional Random Field điều kiện
CNN Convolutional Neural Network Mạng nơ ron tích chập
CRFs Conditional Random Fields Trường ngẫu nhiên có điều
kiện
EI Explicit Intent Ý định rõ
EMD Entity Mentioned Xác định thực thể được
Detection nhắc đến
IE Information Extraction Trích xuất thông tin
IH Intent Head Đầu của ý định
II Implicit Intent Ý định ẩn
IM Intent Modifiers Bổ nghĩa của ý định
L-BFGS Limited-memory
Broyden-Fletcher Giới hạn bộ nhớ BFGS
Goldfarb Shanno
LSTM Long Short Term Memory
Mạng bộ nhớ ngắn dài
vi
- ME Maximum Entropy Cực đại entropy
NI Non Intent Không có ý định
NER Named Entity Ricognition Nhận diện thực thể có tên
POS Part Of Speech Thành phần của câu
RNN Recurrent Neural Network Mạng nơ ron hồi quy
SVMs Support Vector Machines Máy véc tơ hỗ trợ
vii
- DANH MỤC CÁC BẢNG
1.1 Ví dụ về văn bản trực tuyến chứa và không chứa ý định . . . . 13
3.1 Đặc trưng dùng để huấn luyện mô hình lọc bài đăng mang ý
định người dùng . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2 Ý định của người dùng thuộc các miền quan tâm khác nhau . . 66
3.3 Ví dụ về một vài đặc trưng từ điển có trọng số cao cho mỗi
miền quan tâm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4 Mười ba lớp miền quan tâm của ý định và ví dụ . . . . . . . . . 72
3.5 Precision, recall và F1 -score của fold tốt nhất khi dùng SVMs
và ME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.6 Độ chính xác của từng lớp miền quan tâm khi sử dụng phương
pháp CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1 Bộ 13 nhãn cho miền quan tâm Bất động sản . . . . . . . . . . 85
4.2 Bộ 9 nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . 85
4.3 Ví dụ minh họa cho đặc trưng dạng biểu thức chính quy . . . . 87
4.4 Đặc trưng từ điển . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.5 Gán nhãn dữ liệu với bộ nhãn tương ứng . . . . . . . . . . . . . 93
4.6 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền
quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . 98
4.7 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền
quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . 98
4.8 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 110
4.9 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 111
4.10 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 112
4.11 Độ chính xác đối với từng nhãn thu được trên miền Du lịch khi
sử dụng phương pháp học kết hợp mà luận án đề xuất . . . . . 116
4.12 Độ chính xác đối với từng nhãn thu được trên miền Xe cộ khi
sử dụng phương pháp kết hợp mà luận án đề xuất . . . . . . . 118
viii
- 4.13 Độ chính xác đối với từng nhãn thu được trên miền Bất động
sản khi sử dụng phương pháp kết hợp mà luận án đề xuất . . . 119
4.14 Một số ví dụ về nhãn mô tả . . . . . . . . . . . . . . . . . . . . 120
5.1 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 127
5.2 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 128
5.3 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 129
5.4 Bộ 10 nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . . 130
5.5 Sử dụng bộ nhãn không phụ thuộc miền trên một số miền quan
tâm khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.6 Gán nhãn dữ liệu lần lượt với bộ nhãn riêng và bộ nhãn không
phụ thuộc miền . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.7 Kết quả F1 trung bình đối với mỗi miền quan tâm cụ thể khi
sử dụng bộ nhãn riêng và bộ nhãn không phụ thuộc miền tương
ứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.8 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch
với bộ nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . 139
5.9 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch
với bộ nhãn riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.10 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Xe cộ và
Bất động sản với bộ nhãn riêng . . . . . . . . . . . . . . . . . . 141
5.11 Kết quả tốt nhất khi trích xuất tập 32 nhãn riêng đối với tổ
hợp 3 miền quan tâm. . . . . . . . . . . . . . . . . . . . . . . . . 145
5.12 Kết quả tốt nhất khi trích xuất tập 10 nhãn không phụ thuộc
miền đối với tổ hợp 3 miền quan tâm. . . . . . . . . . . . . . . . 146
5.13 Ví dụ gán nhãn cho miền Bất động sản (BĐS) . . . . . . . . . . 159
5.14 Ví dụ gán nhãn cho miền Du lịch . . . . . . . . . . . . . . . . . 160
5.15 Ví dụ gán nhãn cho miền Xe cộ . . . . . . . . . . . . . . . . . 161
ix
- DANH MỤC CÁC HÌNH VẼ
1.1 Quy tắc gán nhãn BIO . . . . . . . . . . . . . . . . . . . . . . . 24
1.2 Chuỗi trạng thái tương ứng với chuỗi quan sát . . . . . . . . . . 25
1.3 Mô hình mạng nơ ron feed − forward nhiều tầng . . . . . . . . . 27
1.4 Đồ thị tính toán trong kiến trúc RNNs . . . . . . . . . . . . . . 28
1.5 Kiến trúc một tế bào trong mô hình LSTM [46] . . . . . . . . . 29
2.1 Một bài đăng mang ý định rõ trên phương tiện truyền thông
xã hội Việt Nam . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Ví dụ minh họa cho việc tiền xử lý dữ liệu . . . . . . . . . . . . 34
2.3 Quy trình ba pha Phân tích và xác định ý định người dùng . . 47
2.4 Ví dụ cụ thể một quá trình phân tích và xác định ý định người
dùng trực tuyến . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1 Mô phỏng mô hình phân lớp nhị phân với CNN . . . . . . . . 57
3.2 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp ME 63
3.3 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp SVMs 63
3.4 Độ chính xác của từng lớp con khi sử dụng phương pháp SVMs 64
3.5 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp CNN 65
3.6 Sơ đồ khối thể hiện mô hình Xác định miền quan tâm của ý định 68
3.7 Độ chính xác F1 khi đánh giá chéo 5-fold với ME và SVMs . . 75
3.8 Độ chính xác trung bình F1 đối với mỗi miền quan tâm của ý
định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.9 Độ chính xác trung bình F1 khi đánh giá chéo 5-fold với CNN 76
4.1 Một số mẫu intention phrase [16] . . . . . . . . . . . . . . . . . 82
4.2 Bản thể mẫu ngữ nghĩa của ý định mua sắm - CI pattern [36] . 83
4.3 Cửa sổ trượt kích thước 5 để xây dựng đặc trưng từ vựng . . . 86
4.4 Kiến trúc mô hình Bi-LSTM-CRFs . . . . . . . . . . . . . . . . 89
4.5 Véc tơ mã hóa được huấn luyện trước của từ “có” . . . . . . . . 90
4.6 Mô hình mã hóa dựa vào ký tự . . . . . . . . . . . . . . . . . . . 91
4.7 Mô phỏng mô hình mạng nơ ron sử dụng kỹ thuật cắt tỉa . . . 92
4.8 Chuyển đổi sang chuẩn B-I-O . . . . . . . . . . . . . . . . . . . 94
x
- 4.9 Trung bình F1-score của mỗi fold đối với miền quan tâm Mỹ
phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.10 Trung bình F1-score của mỗi fold đối với miền quan tâm Bất
động sản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.11 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan
tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . 100
4.12 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan
tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.13 Mô hình trích chọn ý định dựa trên kết hợp các mô hình học sâu 102
4.14 Sơ đồ khối thể hiện pha huấn luyện của mô hình học kết hợp
không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 103
4.15 Sơ đồ khối thể hiện pha đoán nhận của mô hình học kết hợp
không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 104
4.16 Mô hình trích chọn ý định dựa trên ý tưởng học kết hợp trong
ngữ cảnh học sâu với tầng biểu diễn từ dựa trên ký tự được
chia sẻ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.17 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . 114
4.18 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Du lịch . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.19 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Xe cộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.1 Mô hình trích xuất ý định đa miền quan tâm . . . . . . . . . . 132
5.2 Mô hình Bi-LSTM trích xuất ý định đa miền quan tâm . . . . 134
5.3 Kết quả F1 trung bình khi áp dụng các mô hình CRFs, Bi-
LSTM, Bi-LSTM-CRFs lần lượt trên 1, 2 và 3 miền quan tâm
với bộ nhãn chung (General) và bộ nhãn riêng (Specific) tương
ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.4 Kết quả trung bình F1 trên tổ hợp 3 miền quan tâm khi áp
dụng lần lượt 3 mô hình Bi-LSTM-CRFs, Bi-LSTM, CRFs . . . 143
5.5 Giao diện mô hình trích xuất ý định người dùng . . . . . . . . . 146
xi
- Mở đầu
Trong hơn một thập kỷ qua, với sự phát triển bùng nổ của blog, diễn đàn,
và mạng xã hội, người dùng Internet nói chung và người dùng Việt nói riêng
đã hình thành thói quen chia sẻ thông tin thường xuyên trên các kênh truyền
thông trực tuyến này. Theo đó, người dùng thường đăng các dòng trạng thái,
bài viết, bình luận thể hiện suy nghĩ, quan điểm, sở thích, tình cảm, và đặc
biệt là chia sẻ những ý định mà họ muốn thực hiện trong tương lai với mong
muốn nhận được phản hồi, tư vấn của những người dùng khác. Ý định của
người dùng có thể về bất cứ điều gì như dự tính mua điện thoại, thuê nhà,
vay ngân hàng, đi du lịch, học ngoại ngữ, khám chữa bệnh, hay đơn giản chỉ
là nghe nhạc, xem phim. Ngày nay, chúng ta dễ dàng bắt gặp những chia sẻ
như “nhà em đang tìm chiếc suv rộng rãi, bền bỉ, ăn ít xăng để đi làm và cả
nhà đi chơi cuối tuần, bác nào có crv hoặc santafe lướt thì inbox em” hay
“mình đang tính tổ chức chuyến du lịch cho cả phòng vào hè này. Bọn mình
đi ĐN, tầm tháng 7, khoảng 20 người cả trẻ em. Mẹ nào có kinh nghiệm đặt
tour thì tư vấn mình nhé, cảm ơn các mẹ nhiều”. Những bài đăng hàm chứa
ý định như trên thể hiện một cách rõ ràng mong muốn, nhu cầu và dự tính
của người viết. Từ đó nếu các công ty du lịch và hãng hàng không nắm bắt
được nhu cầu, dự định nghỉ hè của các khách hàng tiềm năng, họ có thể điều
chỉnh kế hoạch kinh doanh phù hợp hơn với thị trường. Không chỉ du lịch,
các lĩnh vực khác như bán lẻ, bất động sản, tài chính - ngân hàng, bảo hiểm,
y tế, giáo dục . . . đều được hưởng lợi. Rõ ràng, việc tự động thu thập, phân
tích và hiểu được ý định của người dùng thông qua những gì họ chia sẻ là
chìa khoá quan trọng giúp chúng ta nắm bắt nhu cầu khách hàng nhanh hơn
cũng như định vị các khách hàng tiềm năng hiệu quả hơn. Vì thế, phân tích
và hiểu ý định từ các văn bản trực tuyến là vấn đề có nhiều ý nghĩa thực tiễn
và có tính ứng dụng cao, đặc biệt đối với các hệ thống thương mại điện tử,
các hệ thống khuyến nghị, quảng cáo trực tuyến...
1
- Mở đầu 2
Tuy vậy, phân tích và xác định một cách đầy đủ, chính xác ý định từ văn
bản là vấn đề khó trong lĩnh vực xử lý và hiểu ngôn ngữ tự nhiên. Thứ nhất,
ý định vốn rất đa dạng vì một người có thể thể hiện ý định về bất cứ điều
gì tuỳ thuộc vào nhu cầu, mong muốn của họ. Thứ hai, ngôn ngữ thể hiện
ý định có thể gây ra nhập nhằng. Ví dụ, câu “mình đang có hoa quả ngon,
mẹ nào muốn mua thì inbox nhé ” có ý định là bán hoa quả, nhưng sự hiện
diện của cụm từ muốn mua có thể đánh lừa máy tính. Thứ ba, ý định trong
văn bản có thể ở dạng ẩn (implicit) hoặc gián tiếp. Ví dụ “dòng 7 chỗ xe nào
chạy êm nhỉ ? ” không thể hiện rõ người viết muốn mua xe hay chỉ đơn thuần
tìm hiểu thông tin. Thứ tư, có thể tồn tại nhiều ý định ngay trong một câu
văn. Ngoài ra, việc các văn bản trên diễn đàn, mạng xã hội thường dùng từ
địa phương, tiếng lóng, từ viết tắt, ngôn ngữ “teen” cũng gây ra không ít khó
khăn cho việc phân tích ý định. Vì những thử thách trên, cộng đồng nghiên
cứu đang từng bước tìm cách giải quyết vấn đề này ở những phạm vi, mức
độ, hay miền lĩnh vực (miền dữ liệu) khác nhau. Chính vì vậy, bài toán phân
tích và hiểu ý định từ văn bản nói chung và văn bản truyền thông xã hội trực
tuyến nói riêng còn thiếu một cách tiếp cận xuyên suốt và đặc biệt là chưa
có giải pháp phù hợp cho ba vấn đề trọng tâm sau đây:
1) Đề xuất định nghĩa hình thức về ý định có khả năng khái
quát được cấu trúc ý định vốn được thể hiện rất đa dạng trong
văn bản.
Để phân tích và xác định ý định một cách hiệu quả và chính xác, trước
tiên chúng ta cần hiểu rõ ý định là gì. Ý định, theo cách hiểu chung nhất,
là những gì con người dự định sẽ thực hiện trong tương lai. Theo Bratman
(1987), “Ý định là trạng thái của trí não biểu thị một sự cam kết sẽ thực hiện
một hoặc một chuỗi các hành động trong tương lai. Ý định liên quan đến các
hoạt động đầu óc như lên kế hoạch hay sắp đặt chủ ý.” [13]. Tuy vậy định
nghĩa này mới chỉ ở dạng mô tả. Để máy tính có thể tự động phân tích và
hiểu được ý định, chúng ta cần những định nghĩa ở dạng hình thức hơn. Theo
hướng này, Liu mô tả ý định là một cấu trúc gồm năm thành phần bao gồm
hành động ý định (intended–action), đích của ý định (intention–target), độ
mạnh của ý định (intention–intensity), chủ thể của ý định (holder), và thời
điểm phát biểu ý định (time) [10]. Dù vậy, định nghĩa này chỉ mới phù hợp
với các câu văn mang ý định ở dạng đơn giản như “tôi muốn mua một chiếc
- Mở đầu 3
iphone 11 pro” với muốn mua là intended–action, iphone 11 pro là intention–
target và tôi là holder. Trong thực tế, các câu mang ý định vốn đa dạng
và phức tạp hơn. Ngoài hành động và đích của ý định, miền quan tâm, ngữ
cảnh xuất hiện, cùng các thuộc tính hay ràng buộc của ý định là những khía
cạnh cần thiết được xem xét. Chẳng hạn, với văn bản được đăng trên trang
www.webtretho.com như sau:“Em cũng đang cần thuê phòng trọ khép kín cho
2 chị em gái đều đã đi làm(1 nvvp & 1 giáo viên ĐH). Em cần phòng giá
khoảng 1tr7, ở lâu dài khu vực CẦU GIẤY - LÁNG - TRẦN DUY HƯNG -
THANH XUÂN. Cả nhà có thông tin gì thì cho em biết với nhé. Em muốn
chuyển luôn cuối tuần này ạ. Liên hệ em Linh - 0988 428 197. Em đi làm
nên chỉ cần chỗ ở yên tĩnh, thoáng, có internet, có nấu ăn, có chỗ để xe và
an ninh tốt là được ạ. Cảm ơn cả nhà.”, ta có thể thấy rất nhiều thông tin
cần trích xuất như: giá thuê, địa điểm phòng trọ, số điện thoại liên hệ... Vì
thế, chúng ta cần có một định nghĩa, một cấu trúc đặc tả các thành phần
của ý định cụ thể và bao quát hơn.
2) Mô hình hoá vấn đề phân tích và hiểu ý định theo một quy
trình xuyên suốt với đầy đủ các bước phát hiện ý định, xác định
miền quan tâm, và trích chọn nội dung cụ thể của ý định.
Như đã đề cập, ý định thể hiện trong văn bản rất đa dạng. Vì thế, các
nghiên cứu trước đây thường tiếp cận vấn đề trong một phạm vi hoặc một
lĩnh vực ứng dụng cụ thể. Theo đó, Li (2010) [67] phân tích ý định trong
truy vấn tìm kiếm bằng việc xác định hai thành phần là trọng tâm của ý định
(intent heads – IH) và bổ nghĩa của ý định (intent modifiers – IM). Ví dụ
truy vấn “alice in wonderland 2010 cast” có IH là “cast” (diễn viên) và hai
IM là “alice in wonderland ” (tên bộ phim) và “2010 ” (sản xuất năm 2010).
IH là thành phần máy tìm kiếm cần tìm câu trả lời còn mỗi IM là một ràng
buộc hay đặc điểm nào đó của truy vấn. Khi xác định được các thành phần
IH và IM trong một câu truy vấn, hệ thống sẽ hiểu được ý định tìm kiếm của
người dùng là gì. Heyrani–Nobari và cộng sự (2014) [76] phân tích ý định của
các bài đăng trên diễn đàn thảo luận bằng cách xác định khía cạnh (aspect)
và hành động (action) liên quan. Ví dụ khía cạnh có thể là “iphone” và hành
động có thể là “nâng cấp”. Tác giả áp dụng một mô hình chủ đề để đồng
thời xác định được cả hai loại thông tin này. Castellanos và cộng sự (2012)
[16] phân tích ý định từ các văn bản trực tuyến bằng cách xác định cụm từ
chứa ý định (intention phrase) và các thành phần khác của ý định (intention
- Mở đầu 4
components). Theo tác giả, cụm chứa ý định được trích chọn bằng kỹ thuật
bootstrapping, còn các thành phần khác của ý định được trích chọn bằng
luật hoặc bằng kỹ thuật học máy như CRFs. Các công trình trên đã phân
tích được ý định trong từng phạm vi và lĩnh vực cụ thể. Tuy vậy, chưa có
công trình nào tiếp cận vấn đề phân tích ý định theo một quy trình tổng
quát, xuyên suốt với đầy đủ các bước từ phát hiện (hay lọc) ý định, xác định
miền quan tâm của ý định, và trích chọn nội dung cụ thể của ý định. Trong
đó, mỗi bước cần được mô hình hoá thành bài toán phân loại, phân tích ngôn
ngữ hoặc trích chọn thông tin phù hợp.
3) Phân tích và hiểu ý định trên đa miền quan tâm. Đặc biệt
là khả năng mở rộng phân tích ý định cho các miền dữ liệu mới.
Theo đó, các nghiên cứu của Li (2010) [67], Castellanos và cộng sự (2012)
[16], Chen và cộng sự (2013) [21], Heyrani–Nobari và cộng sự (2014) [76],
Gupta và cộng sự (2014) [35], Wang và cộng sự (2015) [97], Kim và cộng sự
(2016) [55], Shang (2017) [92] Labidi và cộng sự (2018) [65] đã đề xuất các
phương pháp phù hợp cho từng điều kiện bài toán cụ thể. Tuy vậy, mỗi miền
quan tâm (miền ứng dụng) sẽ có một tập thuộc tính hay ràng buộc ý định
riêng. Ví dụ, các thuộc tính về ý định du lịch có thể bao gồm nơi đến, phương
tiện, khách sạn, số lượng người . . . trong khi ý định mua nhà sẽ xem xét các
khía cạnh loại hình bất động sản (nhà đất hay chung cư), địa điểm, diện tích,
hướng nhà . . . . Việc mở rộng miền, học chuyển đổi từ miền này sang miền
khác hay thiết kế cơ chế trích chọn thông tin ý định từ đa miền quan tâm
là những vấn đề hầu như chưa được cộng đồng nghiên cứu xét đến. Một số
ít nghiên cứu về vấn đề học chuyển đổi trong bài toán phân tích ý định hầu
hết mới được khai thác trong những năm gần đây, cụ thể là của các tác giả
Ngo và cộng sự (2017) [71], Song và cộng sự (2018) [93].
Ngoài ra, dù vấn đề phân tích và hiểu ý định từ văn bản gây được nhiều
chú ý trong thời gian gần đây, cộng đồng nghiên cứu vẫn còn thiếu các tập
dữ liệu gán nhãn làm chuẩn mực chung để thử nghiệm, so sánh, đánh giá các
phương pháp. Đặc biệt, chưa có bất cứ tập dữ liệu tiếng Việt được gán nhãn
chuẩn cho hướng nghiên cứu này. Theo hiểu biết của tác giả, luận án này là
công trình đầu tiên đặt vấn đề phân tích và hiểu ý định trong văn bản tiếng
Việt, cụ thể là cho các văn bản ngắn trên các kênh truyền thông xã hội trực
tuyến. Vì thế, luận án xem thử thách về đặc thù ngôn ngữ, về việc thiếu dữ
liệu đánh giá là một trong những nhiệm vụ cần giải quyết và vượt qua.
- Mở đầu 5
Mục tiêu và nội dung nghiên cứu của luận án
Từ việc phân tích những vấn đề trọng tâm đề cập ở trên, luận án đặt ra
mục tiêu nghiên cứu chính như sau:
Mục tiêu nghiên cứu: Đề xuất và xây dựng các mô hình tự động phân
tích ý định từ các văn bản (bài đăng/bình luận) tiếng Việt ngắn trên các
phương tiện truyền thông xã hội trực tuyến.
Để đạt được mục tiêu nghiên cứu đề ra, luận án cần giải quyết và thực
hiện những nội dung nghiên cứu quan trọng sau đây:
1) Đề xuất định nghĩa và biểu diễn cấu trúc ý định: Trước tiên, luận án
thực hiện tìm hiểu, khảo sát các định nghĩa về ý định của các nghiên cứu liên
quan. Từ đó, luận án đề xuất một định nghĩa về ý định cũng như cách biểu
diễn ý định phù hợp cho các văn bản trực tuyến tiếng Việt có độ dài ngắn.
2) Đề xuất tiến trình phân tích ý định cũng như cách thức mô hình hoá và
giải quyết các bước cụ thể trong tiến trình đó : Tiến trình này bao hàm đầy
đủ các bước từ phát hiện sự hiện diện của ý định (xác định văn bản chứa
ý định), xác định miền quan tâm của ý định, và đặc biệt là trích chọn các
thông tin cụ thể trong cấu trúc ý định.
3) Đề xuất phân tích và xác định ý định đa miền quan tâm: Luận án cần
làm sáng tỏ những giả thuyết quan trọng về trích chọn thông tin ý định từ
đa miền quan tâm cũng như mối tương quan giữa các mô hình, kết quả phân
tích cho từng miền riêng lẻ và trên nhiều miền ? Liệu chúng ta có thể sử dụng
dữ liệu và tri thức từ một miền đã có để phân tích trên các miền mới ? Một
phần quan trọng của luận án sẽ tìm kiếm câu trả lời cho những câu hỏi này.
Bên cạnh các mục tiêu và nội dung nghiên cứu chính vừa nêu, một trong
những động lực nghiên cứu của luận án là phân tích ý định cho văn bản
truyền thông xã hội tiếng Việt. Theo hiểu biết của nghiên cứu sinh, luận án
này cùng các công trình khoa học đã công bố là những nỗ lực đầu tiên để
phân tích ý định người viết từ văn bản tiếng Việt một cách có hệ thống.
Luận án xem xét các yếu tố như tính đa dạng về ngôn từ, về cách hành văn
tiếng Việt. Và một khó khăn nữa luận án phải khắc phục là việc thiếu hoàn
toàn dữ liệu gán nhãn ý định. Do đó, bên cạnh các phương pháp, kỹ thuật
đề xuất, luận án sẽ xây dựng các tập ngữ liệu gán nhãn ý định để phục vụ
cho thực nghiệm, đánh giá, so sánh cũng như chia sẻ với cộng đồng tạo tiền
- Mở đầu 6
đề cho các nghiên cứu về sau.
Phạm vi và phương pháp nghiên cứu
Ý định thể hiện trong văn bản rất đa dạng. Việc phân tích đầy đủ, chính
xác ý định của người viết cần thêm nhiều nghiên cứu từ cộng đồng. Luận án
này hạn chế phạm vi và nội dung nghiên cứu như sau:
Dạng ý định: Luận án chỉ quan tâm các ý định tường minh hay còn gọi là
ý định rõ (explicit intents). Luận án chưa xem xét phân tích các ý định ẩn
(implicit intents). Luận án có thể xử lý trường hợp đa ý định trong văn bản,
nhưng không xử lý trường hợp đa ý định trong cùng một câu hoặc các ý định
có tính lồng nhau. Luận án cũng không xem xét khía cạnh về tính hiệu lực
của ý định, nghĩa là một ý định có thể đề cập trong quá khứ và có thể đã hết
hiệu lực nhưng vẫn được xem là hợp lệ.
Dạng dữ liệu: Dữ liệu văn bản mà luận án đề cập đều là các bài đăng, bình
luận của người dùng trên các phương tiện truyền thông xã hội trực tuyến.
Để ngắn gọn, luận án sử dụng thuật ngữ văn bản trực tuyến hoặc bài đăng.
Độ dài mỗi văn bản trực tuyến cần phải từ 2 đến 500 từ. Trong phạm vi luận
án này, khái niệm “một từ” (“one word” trong tiếng Anh) được hiểu tương
đương với khái niệm “một âm tiết” trong tiếng Việt.
Về phương pháp nghiên cứu, luận án khảo sát những cách tiếp cận và
phương pháp liên quan đến bài toán phân tích ý định đã được công bố trên
thế giới. Tiếp đó, luận án đề xuất các mô hình, phương pháp để giải quyết
các bài toán trong vấn đề phân tích và hiểu ý định từ văn bản, đồng thời
nghiên cứu thực nghiệm để kiểm chứng đánh giá các đề xuất của luận án.
Các kết quả và đóng góp chính của luận án
Với các vấn đề đặt ra cùng các nội dung nghiên cứu đã nêu, luận án đạt
được một số kết quả và đóng góp chính như sau:
Thư nhất, luận án đã đề xuất định nghĩa về ý định rõ hướng miền quan
tâm (explicit intent) phù hợp cho các văn bản truyền thông xã hội trực tuyến.
Theo đó, ý định là một bộ năm (5–tuple) bao gồm (1) người đưa ra ý định
(tức người viết), (2) thông tin ngữ cảnh của ý định, (3) miền lĩnh vực của ý
định, (4) cụm từ khoá chỉ ý định, và (5) tập các thuộc tính hay ràng buộc
- Mở đầu 7
của ý định. Luận án cũng đề xuất tiến trình phân tích và xác định ý định
ba pha gồm ba bài toán: lọc ý định, xác định miền quan tâm của ý định, và
trích chọn thông tin chi tiết của ý định. Các nội dung và kết quả này được
trình bày trong công trình của Lương và cộng sự (2016a) [LTLe1].
Thứ hai, luận án đã mô hình hoá hai bài toán lọc văn bản chứa ý định và
xác định miền quan tâm của ý định dưới dạng bài toán phân lớp nhị phân
và bài toán phân lớp đa lớp. Luận án đã đề xuất các mô hình học máy và
mô hình học sâu hiệu quả, phù hợp để giải quyết hai bài toán này. Các nội
dung và kết quả này được trình bày trong ba công trình của Lương và cộng
sự (2016a) [LTLe1], Lương và cộng sự (2016b) [LTLe2] và Lương (2020)
[LTLe6].
Thứ ba, luận án đã mô hình hoá bài toán xác định các nội dung của ý định
dưới dạng bài toán trích chọn thông tin trên dữ liệu chuỗi. Luận án đã đề xuất
tập nhãn đặc trưng cho các nội dung ý định trong từng miền lĩnh vực. Các
mô hình học máy thống kê cho dữ liệu chuỗi như CRFs, mô hình học sâu Bi–
LSTM–CRFs được đề xuất để giải quyết bài toán này. Luận án đặc biệt chú
trọng đến việc tích hợp các dạng thông tin, thuộc tính khác nhau, đặc trưng
mang đặc thù ngôn ngữ tiếng Việt để nâng cao hiệu quả trích chọn thông
tin ý định. Các kết quả này được trình bày trong công trình của Lương và
cộng sự (2017) [LTLe3]. Luận án cũng đề xuất nâng cao hiệu quả trích chọn
thông tin ý định dựa trên các mô hình học kết hợp (ensemble learning). Kết
quả này được trình bày ở công trình của Lương và cộng sự (2019) [LTLe4].
Thứ tư, luận án đề xuất tiếp cận phân tích và xác định ý định đa miền
quan tâm bằng cách đề xuất tập nhãn chung cho các miền dữ liệu. Luận án
đã tiến hành thực nghiệm, so sánh đánh giá hiệu quả của hai cách tiếp cận
phụ thuộc miền và độc lập miền cũng như thảo luận về ưu và nhược điểm
của mỗi cách tiếp cận. Nội dung và kết quả này được trình bày trong công
trình của Lương và cộng sự (2020) [LTLe5].
Ngoài các kết quả trên, luận án cũng đã xây dựng các bộ dữ liệu cho các
bài toán như lọc ý định, xác định miền quan tâm của ý định, trích chọn thông
tin ý định, trích chọn ý định độc lập miền . . . Dữ liệu được thu thập từ hàng
ngàn bài đăng trên các phương tiện truyền thông trực tuyến tiếng Việt như
diễn đàn, sàn thương mại điện tử, mạng xã hội. Các bộ dữ liệu được thiết kế
và xây dựng cẩn thận để có thể dùng cho việc so sánh, đánh giá trong các
- Mở đầu 8
nghiên về sau của nghiên cứu sinh và chia sẻ với cộng đồng nghiên cứu.
Các công trình khoa học của luận án được đánh chỉ mục bởi DBLP 1 và
Google Scholar 2 . Các công trình cũng đã bắt đầu được quan tâm và trích
dẫn từ cộng đồng nghiên cứu.
Cấu trúc của luận án
Nội dung của luận án được chia thành năm chương chính như sau:
Chương 1, Tổng quan về ý định và phân tích ý định, giới thiệu tổng quan
về ý định và thể hiện ý định trong ngôn ngữ cũng sơ lược về vấn đề phân tích
và hiểu ý định trong văn bản. Theo đó, chương này đề cập các hướng nghiên
cứu chính liên quan như xác định ý định trong câu truy vấn tìm kiếm, phân
tích ý định trong ngôn ngữ nói và trong các văn bản ngắn. Phần cuối của
chương trình bày một số cách tiếp cận và kỹ thuật học máy được áp dụng để
phân tích và hiểu ý định.
Chương 2, Phân tích ý định từ văn bản trực tuyến, trình bày bài toán phân
tích và hiểu ý định từ văn bản trực tuyến tiếng Việt. Theo đó, luận án sẽ
trình bày các định nghĩa và cấu trúc của ý định người dùng, định nghĩa về
miền quan tâm. Chương này cũng mô tả tiến trình ba pha được đề xuất để
phân tích và xác định ý định từ văn bản trực tuyến tiếng Việt.
Chương 3, Phát hiện ý định và xác định miền quan tâm của ý định, trình
bày hai phương pháp luận án đề xuất để giải quyết lần lượt các vấn đề ở pha
thứ nhất và pha thứ hai trong tiến trình phân tích ý định ba pha được đề
xuất ở Chương 2. Trong đó, vấn đề thứ nhất nhằm lọc các văn bản có chứa
ý định. Vấn đề thứ hai nhằm xác định miền lĩnh vực của ý định. Ở mỗi vấn
đề, luận án sẽ trình bày cách tiếp cận, phương pháp đề xuất cũng như thực
nghiệm, phân tích và đánh giá kết quả đạt được.
Chương 4, Phân tích và trích chọn nội dung ý định, tập trung giải quyết
pha thứ ba trong tiến trình ba pha giới thiệu ở Chương 2. Theo đó, pha này
là phân tích nội dung bài đăng và trích chọn cụm từ chỉ ý định cũng như
xác định các thông tin, thuộc tính của ý định đó. Luận án trình bày cách
thức mô hình hoá vấn đề dưới dạng bài toán trích chọn thông tin trên dữ
liệu chuỗi và giải quyết bằng hai phương pháp học máy thống kê hiện đại là
1. DBLP: https://dblp.org/pers/hd/l/Luong:Thai=Le
2. Google Scholar: https://scholar.google.com/citations ?user=I1FbHw4AAAAJ
nguon tai.lieu . vn