- Trang Chủ
- Quản trị mạng
- Nghiên cứu và ứng dụng Deep Learning trong tổng hợp ý kiến khách hàng điện tử: Trường hợp bài toán dịch vụ khách sạn
Xem mẫu
- Trường Đại học Kinh tế - Đại học Đà Nẵng
NGHIÊN CỨU VÀ ỨNG DỤNG DEEP LEARNING TRONG TỔNG
HỢP Ý KIẾNKHÁCH HÀNG ĐIỆN TỬ: TRƯỜNG HỢP BÀI TOÁN
DỊCH VỤ KHÁCH SẠN
AN APPLICATION OF NATURAL LANGUAGE PROCESSING, DEEP
LEARNINGAND RULE-BASED FOR SENTIMENT ANALYSIS OF ONLINE
CUSTOMER REVIEWS: A CASE STUDY FROM HOTEL SERVICE
GVHD: Nguyễn Thành Thủy
SVTH: Trần Thị Châu Giang, Ngô Triệu Long, Nguyễn An Phú,
Trương Đình Hoàng, Nguyễn Mạnh Dần
Trường Đại học Kinh tế - Đại học Đà Nẵng
thuynt@due.edu.vn
TÓM TẮT
Thời đại kết nối và sức mạnh của hiệu ứng cộng đồng, truyền miệng luôn là một trong những phương thức
marketing hiệu quả nhất. Ngày nay, các bình luận đánh giá của khách hàng về trải nghiệm của họ đối với
một hàng hóa – dịch vụ trên các phương tiện truyền thông xã hội rất được chú trọng. Chúng là một nguồn
tham khảo quan trọng, mang lại quyết định cho sự lựa chọn của khách hàng mới, và là cơ sở để xây dựng và
cải tiến chất
lượng dịch vụ nhằm gia tăng sự hài lòng và trung thành của khách hàng đối với doanh nghiệp. Trong
nghiên cứu này, chúng tôi sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên trong việc thu thập và trích xuất
thông tin bình luận trên văn bản tiếng Việt, thực nghiệm trên tập dữ liệu của bài toán dịch vụ khách sạn.
Ứng dụng Deep Learning với các mô hình mạng Neural DNN, CNN, Bi-LSTM để phân lớp sắc thái bình
luận là tích cực hay tiêu cực, với kết quả độ chính xác đạt 96%. Ứng dụng kỹ thuật Rule-Based để phân
tách thực thể, làm cơ sở cho việc chấm điểm chất lượng dịch vụ dựa trên mức độ hài lòng của khách hàng.
Từ khóa: NLP, Deep Learning, CNN, DNN, Bi-LSTM, Rule-Based.
ABSTRACT
In the age of connection, word of mouth is always one of the best effective marketing methods via the
community power. Recently, customers’ reviews about their real experience on goods or services on social
media are highly focused. They are not only a trustful reference source for a new customer on making
decisions but also an important information for managers to maintain and improve their service quality
which can increase customer satisfaction and gain loyal customers. In this study, we use Natural Language
Processing techniques in collecting, extracting online comments (in Vietnamese), and experimenting on the
hotel reviews data set. We apply Neural Networks models in Deep Learning like DNN, CNN, Bi-LSTM to
classify a review as a positive or a negative, with approximately 96% accuracy. Finally, Rule-based
technology is used to separate and recognize objects, making a basis for grading hotel service quality. We
conclude by comparing accuracy of different strategic models and discuss about the result after grading
service quality of group 4 of 3-star hotels in Danang, Vietnam.
Keywords: NLP, Deep Learning, CNN, DNN, Bi-LSTM, Rule-Based.
156
- Hội nghị Sinh viên nghiên cứu khoa học năm học 2018-2019
1. Giới thiệu
Các doanh nghiệp trong lĩnh vực khách sạn hằng năm chi ra một khoản chi phí vô cùng lớn trong việc
hoàn thiện và nâng cao chất lượng dịch vụ khách sạn. Nhưng để việc làm này thực sự hiệu quả với số tiền
doanh nghiệp bỏ ra, họ phải cân nhắc đến cảm nhận thực của khách hàng đã trải nghiệm, vì điều đó phản ánh
chính xác nhất tình trạng hiện tại của khách sạn: làm tốt những mặt nào và còn hạn chế những điều gì?
Ứng dụng các mô hình Deep Learning vào việc xây dựng hệ thống phần mềm hỗ trợ trích xuất thông
tin, phân loại và phân tích một cách tự động những dữ liệu nhận xét, đánh giá (review) trực tuyến của khách
hàng ở dạng văn bản (ngôn ngữ tiếng Việt) về mức độ hài lòng: trường hợp bài toán dịch vụ khách sạn.
Bài nghiên cứu sẽ tập trung giải quyết các mục tiêu cụ thể như sau:
- Xác định một review tích cực (Positive) hay tiêu cực (Negative);
- Tách đối tượng (được gom thành 4 nhóm đối tượng: nhân viên, phòng nghỉ, sự tiện lợi, dịch vụ)
có xuất hiện trong một review;
- Chấm điểm khách sạn dựa trên số review tích cực và tiêu cực; và chấm điểm 4 tiêu chí (đối
tượng), dựa theo mức độ hài lòng được thể hiện trong các review của rất cả các khác hàng cho một
khách sạn cụ thể.
Đối tượng nghiên cứu:
- Các công nghệ và kỹ thuật thiết kế hệ thống phân tích tự động;
- Công nghệ trích xuất thông tin tự động (Data Crawling);
- Lý thuyết xử lý ngôn ngữ tự nhiên với ngôn ngữ tiếng Việt, đánh giá mặt ngữ nghĩa trong câu;
- Lý thiết về học máy (Deep Learning), lý thuyết khai phá dữ liệu (Data Mining) giúp tối ưu trí
tuệ nhân tạo của việc phân tích và đưa ra kết quả
Bài nghiên cứu thực hiện trong phạm vi các trang web của khách sạn, resort trên địa bàn thành phố Đà
Nẵng; các website chuyên cho việc đặt phòng trực tuyến có hỗ trợ tiếp nhận ý kiến phản hồi từ khách hàng
bằng ngôn ngữ tiếng Việt.
Về mặt ý nghĩa khoa học, bài nghiên cứu thực nghiệm các giả thuyết về các kỹ thuật xử lý trích xuất
dữ liệu tự động, xử lý ngôn ngữ tự nhiên,... cũng như các kỹ thuật học máy, khai phá dữ liệu trong huấn
luyện và trang bị khả năng tự học cho hệ thống. Ngoài ra, từ kết quả nghiên cứu, các doanh nghiệp có thể tối
ưu hóa chi phí, tăng hiệu suất và hiệu quả của hoạt động kinh doanh dịch vụ cũng như trải nghiệm khách
hàng điện tử.
2. Cơ sở lý thuyết và phương pháp nghiên cứu
2.1. Cơ sở lý thuyết
2.1.1. Trích xuất dữ liệu tự động (Crawler)
Crawler là 1 từ để ám chỉ các công cụ (phần mềm, modules, plugins) có chức năng chính là tự động
phân tích dữ liệu từ nguồn nội dung sau đó bóc tách những thông tin cần thiết theo tiêu chí mà nó được lập
trình viên hệ thống thiết lập. Quá trình thực hiện được gọi là Web Crawling hay Spidering.
2.1.2. Xử lý ngôn ngữ tự nhiên – ngôn ngữ Tiếng Việt:
Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là một nhánh của trí tuệ nhân tạo tập
trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là
một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo
nhất của tư duy và giao tiếp. [6] Xử lý ngôn ngữ là một kỹ thuật quan trọng nhằm giúp máy tính hiểu được
ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc
157
- Trường Đại học Kinh tế - Đại học Đà Nẵng
có liên quan đến ngôn ngữ như: dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông
tin, ... [6].
2.1.3. Phương pháp Học sâu – Deep Learning
Deep Learning là một kỹ thuật máy học (Machine Learning) mạnh mẽ đang được nhiều người trong
ngành biết đến và nghiên cứu. Với khả năng biểu diễn thông tin (Represent Problem/Feature Engineering)
và học (Learning). Bên cạnh các lĩnh vực đã gặt hái được nhiều thành công như xử lý ảnh số và video số, hay
xử lý tiếng nói, và được áp dụng vào trong xử lý ngôn ngữ tự nhiên.
Ngày nay các bài toán trong lĩnh vực Machine Learning nói chung và cả Deep Learning nói riêng được
chia làm 3 loại chính là: Supervised Learning, Unsupervised Learning, Reinforcement Learning. Bài nghiên
cứu tập trung vào bài toán phân loại là một nhánh trong Supervised Learning.
2.1.4. Nhận diện thực thể và chấm điểm chất lượng dịch vụ:
Các bình luận ảnh hưởng đến hầu hết các giai đoạn trong mô hình 5A (nhận biết (aware), thu hút
(appeal), tìm hiểu (ask), hành động (act) và ủng hộ (advocate)). Mỗi quyết định được đưa ra đều bị ảnh
hưởng bởi các yếu tố bên trong và bên ngoài [4]. Trong việc lựa chọn khách sạn, ngoài những sở thích, điều
kiện cá nhân phù hợp, chúng ta hiển nhiên bị thu hút những nơi có điểm đánh giá cao. Xây dựng và cải tiến
chất lượng dịch vụ được xem như là một vấn đề hết sức quan trọng trong kinh doanh nói chung và kinh
doanh khách sạn nói riêng nhắm gia tăng sự hài lòng và trung thành của khách hàng đối với doanh nghiệp.
Những tín hiệu trong việc lựa chọn khách sạn của khách hàng gồm: Phòng nghỉ, Nhân viên, Đồ ăn thức
uống, Các dịch vụ giá trị gia tăng, An ninh và Sự tiện lợi. [3] Từ đây nhóm nghiên cứu đã chia các nhân tố
này thành 4 nhóm chính: Phòng nghỉ, Nhân viên, Sự tiện lợi và Dịch vụ
Sau khi đã nhận diện được các thực thể (các nhân tố ảnh hưởng đến sự hài lòng khách hàng), chúng tôi
sẽ tiến hành chấm điểm đối tượng theo cách quy tắc: một điểm cộng (+) cho đối tượng xuất hiện trong bình
luận tích cực, và một điểm trừ (-) trong bình luận tiêu cực.
2.2. Phương pháp thực hiện
2.2.1. Phương pháp trích xuất dữ liệu tự động – Scrapy Framework
Scrapy là một framework được viết bằng Python, nó cấp sẵn 1 cấu trúc tương đối hoàn chỉnh để thực
hiện việc crawl và extract data từ website một cách nhanh chóng và dễ dàng
2.2.2. Phương pháp xử lý ngôn ngữ tự nhiên
Ứng dụng các thư viện đã được xây dựng sẵn cho xử lý tiếng Việt (VNTokenizer, PosTagging) và kết
hợp với một số kỹ thuật nhóm tự nghiên cứu và xây dựng để tiền xử lý dữ liệu. Dữ liệu kiểu text sẽ được
chuyển hóa thành các vector để máy có thể hiểu và xử lý thông qua WordEmbbeding.
2.2.3. Phương pháp xây hình mô hình phân lớp:
Ứng dụng các kỹ thuật DNN, CNN và Bi-LSTM của Deep Learning kết hợp với kỹ thuật điều chỉnh
tham số để tiến hành huấn luyện và phân lớp dữ liệu.
2.2.4. Phương pháp tách vế câu và nhận diện thực thể:
Sử dụng công cụ khá phổ biến là Regular Expression (còn gọi là biểu thức chính quy) để tiến hành tách
câu. Công cụ này là một bộ cú pháp dùng để so khớp các chuỗi hoặc một tập các chuỗi.
Phương pháp tách câu của nhóm là tiến trình gồm các bước như sau:
Bước 1: Tạo danh sách gồm: giới từ (từ nối tương phản), dấu kết thúc câu (dấu chấm, dấu chấm thang,
dấu chấm phẩy, ...)
Bước 2: Sử dụng Regular Expression để tiến hành tách câu dựa vào danh sách đã tạo trên.
158
- Hội nghị Sinh viên nghiên cứu khoa học năm học 2018-2019
Đối với vấn đề nhận diện thực thể, chúng tôi sử dụng phương pháp Rule-Based để xác định số lần xuất
hiện của đối tượng (nhân tố ảnh hưởng), để đánh giá bình luận đó đang nhắc tới đối tượng nào và ghi điểm
cho đối tượng đó.
3. Kết quả và đánh giá
3.1. Kết quả
3.1.1. Kết quả thực nghiệm phân lớp dữ liệu trên mô hình neural network
Bảng 1. Kết quả hiệu suất của các mô hình Deep Learning
Tên mô hình F1-Score
DNN 0.961
Bi-LSTM 0.955
CNN 0.954
Dựa vào kết quả thực nghiệm trên các tập dữ liệu, đưa ra độ chính xác của các mô hình mạng neural ở
bảng trên với thang đo từ 0-100, nhìn về độ chính xác của các mô hình mạng neural, với cùng dữ liệu thì
DNN cho kết quả tốt nhất. Nhưng kết quả chênh lệch không khác nhau bao nhiêu và điều này chưa thể kết
luận mạng DNN tốt hơn CNN và Bi-LSTM.
3.1.2. Kết quả thực nghiệm nhận diện thực thể và chấm điểm chất lượng dịch vụ:
Bảng 2. Kết quả chấm điểm chất lượng dịch vụ theo nhân tố theo câu bình luận (Trích)
159
- Trường Đại học Kinh tế - Đại học Đà Nẵng
Mỗi câu bình luận sẽ có nhiều vế, mỗi vế (có thể) có nhiều ý khác nhau và có sự nhập nhằng về cảm
xúc giữa negative và positive trong một câu. Để khắc phục vấn đề này, chúng tôi đã tách một câu thành
nhiều vế và phân tích độc lập nhằm tăng độ chính xác.
Dưới đây là kết quả phân tích của 4 khách sạn (3 sao) tại Đà Nẵng: Hoàng Quân, LaMaison,
Lamuno, và AnaMaison:
Bảng 3. cho thấy tỷ lệ giữa số lượng bình luận tích cực và tiêu cực của các khách sạn AnaMaison,
LaMaison, và Lamuno là khá đồng đều, tuy nhiên, có sự chêch lệch lớn đối với khách sạn Hoàng Quân vì số
lượng bình luận tiêu cực gần gấp đôi số lượng bình luận tích cực.
160
- Hội nghị Sinh viên nghiên cứu khoa học năm học 2018-2019
Kết quả phân tích cho thấy, đối với các nhóm nhân tố như: Nhân viên, CSVC và Dịch vụ, Khách sạn
Lamuno có số lượng bình luận tích cực cao nhất, đồng thời số lượng bình luận tiêu cực hầu hết đều thấp hơn
các khách sạn còn lại. Mặt khác, khách sạn Hoàng Quân lại có số lượng bình luận tiêu cực cao nhất ở cả 4
nhóm nhân tố trong khi số lượng bình luận tích cực khá là thấp. Đây là một điều đáng lưu ý với doanh
nghiệp khách sạn cũng như là khách hàng trong chất lượng dịch vụ.
3.2. Đánh giá
Đề tài đã nghiên cứu và thực nghiệm giải thuật mạng Neural, trong việc phân tích sắc thái và phân
loại các bình luận trên văn bản tiếng Việt về dịch vụ khách sạn - lưu trú. Phục vụ cho những yêu cầu đánh
giá mức độ biểu cảm của người dùng thông qua các website đặt phòng khách sạn trực tuyến, từ đó làm cơ sở
cho việc chấm điểm mức độ hài lòng về chất lượng dịch vụ khách sạn – lưu trú của khách hàng điện tử. Dựa
trên việc nghiên cứu cơ sở lý thuyết và các công nghệ liên quan, đề tài xây dựng mô hình mạng neural
CNNs, RNNs, ANNs và nghiên cứu thực nghiệm việc kết hợp các mạng này để phân loại văn bản, cho ra kết
quả đáp ứng những mục tiêu đã đề ra.
4. Kết luận
4.1. Kết quả đạt được của đề tài:
- Xây dựng mô hình deep learning và thực nghiệm trên tập dữ liệu với 14,000 câu văn bản bình luận
(tiếng Việt); xác định được sắc thái cảm xúc là tích cực hay tiêu cực; kết quả dự đoán với độ chính xác
(accuracy) được đo lường đạt 96%;
- Sử dụng kỹ thuật Rule-based để phân tách thực thể (nhân tố ảnh hưởng đến chất lượng dịch vụ)
trong một câu văn bản, từ đó gom thành 4 nhóm thực thể, làm cơ sở cho việc chấm điểm chất lượng dịch vụ
dựa trên mức độ hài lòng của khách hàng;
- Thực nghiệm chấm điểm chất lượng dịch vụ cho 4 khách sạn 3 sao trên địa bàn thành phố Đà Nẵng,
dựa trên các bình luận phản hồi về chất lượng dịch vụ của khách hàng đối với các khách sạn tương ứng;
4.2. Hạn chế:
Một số vấn đề có thể ảnh hưởng đến quá trình huấn luyện và kết quả dự đoán:
- Tập dữ liệu huấn luyện dựa trên tập đã được gán nhãn (tiêu cực/ tích cực) của người viết nhận xét;
- Sự nhập nhằng về mặt ngữ nghĩa trong ngôn ngữ tiếng Việt;
- Lỗi chính tả, từ viết tắt, từ địa phương, từ đồng nghĩa, sai ngữ pháp,... chưa được giải quyết hiệu
quả;
- Đề tài chỉ dừng lại ở việc phân loại với 2 mức độ cảm xúc (tiêu cực/tích cực).
4.3. Hướng phát triển của đề tài
- Nâng cao chất lượng trong chuẩn hóa dữ liệu, giải quyết sự nhập nhằng về mặt ngữ nghĩa, lỗi chính
tả, từ viết tắt,...;
- Mở rộng phân loại mức độ cảm xúc trên thang đo Likert 5 mức độ;
Ứng dụng các kỹ thuật nhận diện thực thể (Named-entity recognition – NER) hiệu quả hơn nhằm
tăng độ chính xác trong chấm điểm chất lượng dịch vụ;
TÀI LIỆU THAM KHẢO
[1] Alia Karim Abdul Hassan, Ahmed Bahaa aldeen abdulwahhab, 2017, “Reviews Sentiment analysis for
collaborative recommender system”, DOI: 10.24017/science.2017.3.22;
[2] Nguyễn Thái Ân, 2017, “Ứng dụng Deep Learning cho phân tích cảm xúc với dữ liệu twitter”, Học viện
Bưu chính Viễn thông;
161
- Trường Đại học Kinh tế - Đại học Đà Nẵng
[3] Lê Văn Huy, Nguyễn Duy Quang, 2011, “Nghiên cứu các nhân tố tác động đến sự hài lòng của
khách du lịch quốc tế đối với khách sạn 4-5 sao: nghiên cứu thực tiễn tại Green Plaza – Đà Nẵng”;
[4] Philip Kotler, 2017, “Tiếp Thị 4.0”, NXB Trẻ;
[5] Nguyễn Thạc Dân Thành, 2013, “Sentiment classification for vietnamese user reviews and its
application to a sentiment analysis system”, Đại học Công nghệ, Đại học Quốc gia Hà Nội;
[6] Vũ Hữu Tiệp, 2019, “Machine Learning cơ bản”, NXB Khoa học và Kỹ thuật;
[7] Vikram Elango, Govindrajan Narayanan, 2016, “Sentiment Analysis for Hotel Reviews”;
162
nguon tai.lieu . vn