Xem mẫu

  1. Trường Đại học Kinh tế - Đại học Đà Nẵng NGHIÊN CỨU VÀ ỨNG DỤNG DEEP LEARNING TRONG TỔNG HỢP Ý KIẾNKHÁCH HÀNG ĐIỆN TỬ: TRƯỜNG HỢP BÀI TOÁN DỊCH VỤ KHÁCH SẠN AN APPLICATION OF NATURAL LANGUAGE PROCESSING, DEEP LEARNINGAND RULE-BASED FOR SENTIMENT ANALYSIS OF ONLINE CUSTOMER REVIEWS: A CASE STUDY FROM HOTEL SERVICE GVHD: Nguyễn Thành Thủy SVTH: Trần Thị Châu Giang, Ngô Triệu Long, Nguyễn An Phú, Trương Đình Hoàng, Nguyễn Mạnh Dần Trường Đại học Kinh tế - Đại học Đà Nẵng thuynt@due.edu.vn TÓM TẮT Thời đại kết nối và sức mạnh của hiệu ứng cộng đồng, truyền miệng luôn là một trong những phương thức marketing hiệu quả nhất. Ngày nay, các bình luận đánh giá của khách hàng về trải nghiệm của họ đối với một hàng hóa – dịch vụ trên các phương tiện truyền thông xã hội rất được chú trọng. Chúng là một nguồn tham khảo quan trọng, mang lại quyết định cho sự lựa chọn của khách hàng mới, và là cơ sở để xây dựng và cải tiến chất lượng dịch vụ nhằm gia tăng sự hài lòng và trung thành của khách hàng đối với doanh nghiệp. Trong nghiên cứu này, chúng tôi sử dụng các kỹ thuật xử lý ngôn ngữ tự nhiên trong việc thu thập và trích xuất thông tin bình luận trên văn bản tiếng Việt, thực nghiệm trên tập dữ liệu của bài toán dịch vụ khách sạn. Ứng dụng Deep Learning với các mô hình mạng Neural DNN, CNN, Bi-LSTM để phân lớp sắc thái bình luận là tích cực hay tiêu cực, với kết quả độ chính xác đạt 96%. Ứng dụng kỹ thuật Rule-Based để phân tách thực thể, làm cơ sở cho việc chấm điểm chất lượng dịch vụ dựa trên mức độ hài lòng của khách hàng. Từ khóa: NLP, Deep Learning, CNN, DNN, Bi-LSTM, Rule-Based. ABSTRACT In the age of connection, word of mouth is always one of the best effective marketing methods via the community power. Recently, customers’ reviews about their real experience on goods or services on social media are highly focused. They are not only a trustful reference source for a new customer on making decisions but also an important information for managers to maintain and improve their service quality which can increase customer satisfaction and gain loyal customers. In this study, we use Natural Language Processing techniques in collecting, extracting online comments (in Vietnamese), and experimenting on the hotel reviews data set. We apply Neural Networks models in Deep Learning like DNN, CNN, Bi-LSTM to classify a review as a positive or a negative, with approximately 96% accuracy. Finally, Rule-based technology is used to separate and recognize objects, making a basis for grading hotel service quality. We conclude by comparing accuracy of different strategic models and discuss about the result after grading service quality of group 4 of 3-star hotels in Danang, Vietnam. Keywords: NLP, Deep Learning, CNN, DNN, Bi-LSTM, Rule-Based. 156
  2. Hội nghị Sinh viên nghiên cứu khoa học năm học 2018-2019 1. Giới thiệu Các doanh nghiệp trong lĩnh vực khách sạn hằng năm chi ra một khoản chi phí vô cùng lớn trong việc hoàn thiện và nâng cao chất lượng dịch vụ khách sạn. Nhưng để việc làm này thực sự hiệu quả với số tiền doanh nghiệp bỏ ra, họ phải cân nhắc đến cảm nhận thực của khách hàng đã trải nghiệm, vì điều đó phản ánh chính xác nhất tình trạng hiện tại của khách sạn: làm tốt những mặt nào và còn hạn chế những điều gì? Ứng dụng các mô hình Deep Learning vào việc xây dựng hệ thống phần mềm hỗ trợ trích xuất thông tin, phân loại và phân tích một cách tự động những dữ liệu nhận xét, đánh giá (review) trực tuyến của khách hàng ở dạng văn bản (ngôn ngữ tiếng Việt) về mức độ hài lòng: trường hợp bài toán dịch vụ khách sạn. Bài nghiên cứu sẽ tập trung giải quyết các mục tiêu cụ thể như sau: - Xác định một review tích cực (Positive) hay tiêu cực (Negative); - Tách đối tượng (được gom thành 4 nhóm đối tượng: nhân viên, phòng nghỉ, sự tiện lợi, dịch vụ) có xuất hiện trong một review; - Chấm điểm khách sạn dựa trên số review tích cực và tiêu cực; và chấm điểm 4 tiêu chí (đối tượng), dựa theo mức độ hài lòng được thể hiện trong các review của rất cả các khác hàng cho một khách sạn cụ thể. Đối tượng nghiên cứu: - Các công nghệ và kỹ thuật thiết kế hệ thống phân tích tự động; - Công nghệ trích xuất thông tin tự động (Data Crawling); - Lý thuyết xử lý ngôn ngữ tự nhiên với ngôn ngữ tiếng Việt, đánh giá mặt ngữ nghĩa trong câu; - Lý thiết về học máy (Deep Learning), lý thuyết khai phá dữ liệu (Data Mining) giúp tối ưu trí tuệ nhân tạo của việc phân tích và đưa ra kết quả Bài nghiên cứu thực hiện trong phạm vi các trang web của khách sạn, resort trên địa bàn thành phố Đà Nẵng; các website chuyên cho việc đặt phòng trực tuyến có hỗ trợ tiếp nhận ý kiến phản hồi từ khách hàng bằng ngôn ngữ tiếng Việt. Về mặt ý nghĩa khoa học, bài nghiên cứu thực nghiệm các giả thuyết về các kỹ thuật xử lý trích xuất dữ liệu tự động, xử lý ngôn ngữ tự nhiên,... cũng như các kỹ thuật học máy, khai phá dữ liệu trong huấn luyện và trang bị khả năng tự học cho hệ thống. Ngoài ra, từ kết quả nghiên cứu, các doanh nghiệp có thể tối ưu hóa chi phí, tăng hiệu suất và hiệu quả của hoạt động kinh doanh dịch vụ cũng như trải nghiệm khách hàng điện tử. 2. Cơ sở lý thuyết và phương pháp nghiên cứu 2.1. Cơ sở lý thuyết 2.1.1. Trích xuất dữ liệu tự động (Crawler) Crawler là 1 từ để ám chỉ các công cụ (phần mềm, modules, plugins) có chức năng chính là tự động phân tích dữ liệu từ nguồn nội dung sau đó bóc tách những thông tin cần thiết theo tiêu chí mà nó được lập trình viên hệ thống thiết lập. Quá trình thực hiện được gọi là Web Crawling hay Spidering. 2.1.2. Xử lý ngôn ngữ tự nhiên – ngôn ngữ Tiếng Việt: Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy và giao tiếp. [6] Xử lý ngôn ngữ là một kỹ thuật quan trọng nhằm giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc 157
  3. Trường Đại học Kinh tế - Đại học Đà Nẵng có liên quan đến ngôn ngữ như: dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin, ... [6]. 2.1.3. Phương pháp Học sâu – Deep Learning Deep Learning là một kỹ thuật máy học (Machine Learning) mạnh mẽ đang được nhiều người trong ngành biết đến và nghiên cứu. Với khả năng biểu diễn thông tin (Represent Problem/Feature Engineering) và học (Learning). Bên cạnh các lĩnh vực đã gặt hái được nhiều thành công như xử lý ảnh số và video số, hay xử lý tiếng nói, và được áp dụng vào trong xử lý ngôn ngữ tự nhiên. Ngày nay các bài toán trong lĩnh vực Machine Learning nói chung và cả Deep Learning nói riêng được chia làm 3 loại chính là: Supervised Learning, Unsupervised Learning, Reinforcement Learning. Bài nghiên cứu tập trung vào bài toán phân loại là một nhánh trong Supervised Learning. 2.1.4. Nhận diện thực thể và chấm điểm chất lượng dịch vụ: Các bình luận ảnh hưởng đến hầu hết các giai đoạn trong mô hình 5A (nhận biết (aware), thu hút (appeal), tìm hiểu (ask), hành động (act) và ủng hộ (advocate)). Mỗi quyết định được đưa ra đều bị ảnh hưởng bởi các yếu tố bên trong và bên ngoài [4]. Trong việc lựa chọn khách sạn, ngoài những sở thích, điều kiện cá nhân phù hợp, chúng ta hiển nhiên bị thu hút những nơi có điểm đánh giá cao. Xây dựng và cải tiến chất lượng dịch vụ được xem như là một vấn đề hết sức quan trọng trong kinh doanh nói chung và kinh doanh khách sạn nói riêng nhắm gia tăng sự hài lòng và trung thành của khách hàng đối với doanh nghiệp. Những tín hiệu trong việc lựa chọn khách sạn của khách hàng gồm: Phòng nghỉ, Nhân viên, Đồ ăn thức uống, Các dịch vụ giá trị gia tăng, An ninh và Sự tiện lợi. [3] Từ đây nhóm nghiên cứu đã chia các nhân tố này thành 4 nhóm chính: Phòng nghỉ, Nhân viên, Sự tiện lợi và Dịch vụ Sau khi đã nhận diện được các thực thể (các nhân tố ảnh hưởng đến sự hài lòng khách hàng), chúng tôi sẽ tiến hành chấm điểm đối tượng theo cách quy tắc: một điểm cộng (+) cho đối tượng xuất hiện trong bình luận tích cực, và một điểm trừ (-) trong bình luận tiêu cực. 2.2. Phương pháp thực hiện 2.2.1. Phương pháp trích xuất dữ liệu tự động – Scrapy Framework Scrapy là một framework được viết bằng Python, nó cấp sẵn 1 cấu trúc tương đối hoàn chỉnh để thực hiện việc crawl và extract data từ website một cách nhanh chóng và dễ dàng 2.2.2. Phương pháp xử lý ngôn ngữ tự nhiên Ứng dụng các thư viện đã được xây dựng sẵn cho xử lý tiếng Việt (VNTokenizer, PosTagging) và kết hợp với một số kỹ thuật nhóm tự nghiên cứu và xây dựng để tiền xử lý dữ liệu. Dữ liệu kiểu text sẽ được chuyển hóa thành các vector để máy có thể hiểu và xử lý thông qua WordEmbbeding. 2.2.3. Phương pháp xây hình mô hình phân lớp: Ứng dụng các kỹ thuật DNN, CNN và Bi-LSTM của Deep Learning kết hợp với kỹ thuật điều chỉnh tham số để tiến hành huấn luyện và phân lớp dữ liệu. 2.2.4. Phương pháp tách vế câu và nhận diện thực thể: Sử dụng công cụ khá phổ biến là Regular Expression (còn gọi là biểu thức chính quy) để tiến hành tách câu. Công cụ này là một bộ cú pháp dùng để so khớp các chuỗi hoặc một tập các chuỗi. Phương pháp tách câu của nhóm là tiến trình gồm các bước như sau: Bước 1: Tạo danh sách gồm: giới từ (từ nối tương phản), dấu kết thúc câu (dấu chấm, dấu chấm thang, dấu chấm phẩy, ...) Bước 2: Sử dụng Regular Expression để tiến hành tách câu dựa vào danh sách đã tạo trên. 158
  4. Hội nghị Sinh viên nghiên cứu khoa học năm học 2018-2019 Đối với vấn đề nhận diện thực thể, chúng tôi sử dụng phương pháp Rule-Based để xác định số lần xuất hiện của đối tượng (nhân tố ảnh hưởng), để đánh giá bình luận đó đang nhắc tới đối tượng nào và ghi điểm cho đối tượng đó. 3. Kết quả và đánh giá 3.1. Kết quả 3.1.1. Kết quả thực nghiệm phân lớp dữ liệu trên mô hình neural network Bảng 1. Kết quả hiệu suất của các mô hình Deep Learning Tên mô hình F1-Score DNN 0.961 Bi-LSTM 0.955 CNN 0.954 Dựa vào kết quả thực nghiệm trên các tập dữ liệu, đưa ra độ chính xác của các mô hình mạng neural ở bảng trên với thang đo từ 0-100, nhìn về độ chính xác của các mô hình mạng neural, với cùng dữ liệu thì DNN cho kết quả tốt nhất. Nhưng kết quả chênh lệch không khác nhau bao nhiêu và điều này chưa thể kết luận mạng DNN tốt hơn CNN và Bi-LSTM. 3.1.2. Kết quả thực nghiệm nhận diện thực thể và chấm điểm chất lượng dịch vụ: Bảng 2. Kết quả chấm điểm chất lượng dịch vụ theo nhân tố theo câu bình luận (Trích) 159
  5. Trường Đại học Kinh tế - Đại học Đà Nẵng Mỗi câu bình luận sẽ có nhiều vế, mỗi vế (có thể) có nhiều ý khác nhau và có sự nhập nhằng về cảm xúc giữa negative và positive trong một câu. Để khắc phục vấn đề này, chúng tôi đã tách một câu thành nhiều vế và phân tích độc lập nhằm tăng độ chính xác. Dưới đây là kết quả phân tích của 4 khách sạn (3 sao) tại Đà Nẵng: Hoàng Quân, LaMaison, Lamuno, và AnaMaison: Bảng 3. cho thấy tỷ lệ giữa số lượng bình luận tích cực và tiêu cực của các khách sạn AnaMaison, LaMaison, và Lamuno là khá đồng đều, tuy nhiên, có sự chêch lệch lớn đối với khách sạn Hoàng Quân vì số lượng bình luận tiêu cực gần gấp đôi số lượng bình luận tích cực. 160
  6. Hội nghị Sinh viên nghiên cứu khoa học năm học 2018-2019 Kết quả phân tích cho thấy, đối với các nhóm nhân tố như: Nhân viên, CSVC và Dịch vụ, Khách sạn Lamuno có số lượng bình luận tích cực cao nhất, đồng thời số lượng bình luận tiêu cực hầu hết đều thấp hơn các khách sạn còn lại. Mặt khác, khách sạn Hoàng Quân lại có số lượng bình luận tiêu cực cao nhất ở cả 4 nhóm nhân tố trong khi số lượng bình luận tích cực khá là thấp. Đây là một điều đáng lưu ý với doanh nghiệp khách sạn cũng như là khách hàng trong chất lượng dịch vụ. 3.2. Đánh giá Đề tài đã nghiên cứu và thực nghiệm giải thuật mạng Neural, trong việc phân tích sắc thái và phân loại các bình luận trên văn bản tiếng Việt về dịch vụ khách sạn - lưu trú. Phục vụ cho những yêu cầu đánh giá mức độ biểu cảm của người dùng thông qua các website đặt phòng khách sạn trực tuyến, từ đó làm cơ sở cho việc chấm điểm mức độ hài lòng về chất lượng dịch vụ khách sạn – lưu trú của khách hàng điện tử. Dựa trên việc nghiên cứu cơ sở lý thuyết và các công nghệ liên quan, đề tài xây dựng mô hình mạng neural CNNs, RNNs, ANNs và nghiên cứu thực nghiệm việc kết hợp các mạng này để phân loại văn bản, cho ra kết quả đáp ứng những mục tiêu đã đề ra. 4. Kết luận 4.1. Kết quả đạt được của đề tài: - Xây dựng mô hình deep learning và thực nghiệm trên tập dữ liệu với 14,000 câu văn bản bình luận (tiếng Việt); xác định được sắc thái cảm xúc là tích cực hay tiêu cực; kết quả dự đoán với độ chính xác (accuracy) được đo lường đạt 96%; - Sử dụng kỹ thuật Rule-based để phân tách thực thể (nhân tố ảnh hưởng đến chất lượng dịch vụ) trong một câu văn bản, từ đó gom thành 4 nhóm thực thể, làm cơ sở cho việc chấm điểm chất lượng dịch vụ dựa trên mức độ hài lòng của khách hàng; - Thực nghiệm chấm điểm chất lượng dịch vụ cho 4 khách sạn 3 sao trên địa bàn thành phố Đà Nẵng, dựa trên các bình luận phản hồi về chất lượng dịch vụ của khách hàng đối với các khách sạn tương ứng; 4.2. Hạn chế: Một số vấn đề có thể ảnh hưởng đến quá trình huấn luyện và kết quả dự đoán: - Tập dữ liệu huấn luyện dựa trên tập đã được gán nhãn (tiêu cực/ tích cực) của người viết nhận xét; - Sự nhập nhằng về mặt ngữ nghĩa trong ngôn ngữ tiếng Việt; - Lỗi chính tả, từ viết tắt, từ địa phương, từ đồng nghĩa, sai ngữ pháp,... chưa được giải quyết hiệu quả; - Đề tài chỉ dừng lại ở việc phân loại với 2 mức độ cảm xúc (tiêu cực/tích cực). 4.3. Hướng phát triển của đề tài - Nâng cao chất lượng trong chuẩn hóa dữ liệu, giải quyết sự nhập nhằng về mặt ngữ nghĩa, lỗi chính tả, từ viết tắt,...; - Mở rộng phân loại mức độ cảm xúc trên thang đo Likert 5 mức độ; Ứng dụng các kỹ thuật nhận diện thực thể (Named-entity recognition – NER) hiệu quả hơn nhằm tăng độ chính xác trong chấm điểm chất lượng dịch vụ; TÀI LIỆU THAM KHẢO [1] Alia Karim Abdul Hassan, Ahmed Bahaa aldeen abdulwahhab, 2017, “Reviews Sentiment analysis for collaborative recommender system”, DOI: 10.24017/science.2017.3.22; [2] Nguyễn Thái Ân, 2017, “Ứng dụng Deep Learning cho phân tích cảm xúc với dữ liệu twitter”, Học viện Bưu chính Viễn thông; 161
  7. Trường Đại học Kinh tế - Đại học Đà Nẵng [3] Lê Văn Huy, Nguyễn Duy Quang, 2011, “Nghiên cứu các nhân tố tác động đến sự hài lòng của khách du lịch quốc tế đối với khách sạn 4-5 sao: nghiên cứu thực tiễn tại Green Plaza – Đà Nẵng”; [4] Philip Kotler, 2017, “Tiếp Thị 4.0”, NXB Trẻ; [5] Nguyễn Thạc Dân Thành, 2013, “Sentiment classification for vietnamese user reviews and its application to a sentiment analysis system”, Đại học Công nghệ, Đại học Quốc gia Hà Nội; [6] Vũ Hữu Tiệp, 2019, “Machine Learning cơ bản”, NXB Khoa học và Kỹ thuật; [7] Vikram Elango, Govindrajan Narayanan, 2016, “Sentiment Analysis for Hotel Reviews”; 162
nguon tai.lieu . vn