Xem mẫu
- Một Cải Tiến Từ Điển Cảm Xúc Tiếng Việt
Theo Chủ Đề
Nguyễn Ngọc Duy, Lê Minh Hóa
Khoa Công nghệ Thông tin II,
Học Viện Công Nghệ Bưu Chính Viễn Thông
Email:duynn, hoasac@ptithcm.edu.vn
Abstract —Môi trường internet mang lại nguồn tài nguyên phong hạn chế, dẫn đến hạn chế khả năng nhận diện cảm xúc ở các
phú là các ý kiến về các vấn đề xã hội cũng như đánh giá sản văn bản tiếng Việt. Do đó, các bài toán liên quan đến phân tích
phẩm của người dùng. Vấn đề khai thác cảm xúc của các cá cảm xúc tiếng Việt cũng sẽ bị hạn chế. Vì thế, nhu cầu về một
nhân, thăm dò ý kiến cộng đồng về những vấn đề nổi bật trong bộ từ điển cảm xúc tiếng Việt xây dựng dựa trên đặc trưng
cuộc sống, các sản phẩm trong kinh doanh từ nguồn tài nguyên
ngôn ngữ tiếng Việt là rất lớn. Bài báo này đề xuất cải tiến
này rất được chú trọng. Cảm xúc thường được thể hiện rất tinh
tế liên quan đến ngôn ngữ và văn hóa. Để khai thác nguồn tài phương pháp xác định trọng số cảm xúc cho các mục từ tiếng
nguyên này ở khía cạnh cảm xúc thì từ điển cảm xúc là một Việt dùng trong lĩnh vực hẹp là các văn bản tiếng Việt đánh giá
thành phần cơ bản quan trọng. Bài báo này đề xuất phương pháp xe ô tô đã được đề xuất ở công trình [2]. Để đánh giá sự hiệu
cải tiến cách xác định trọng số cảm xúc của các từ và cụm từ quả của phương pháp đề xuất, bài sẽ thử nghiệm phân loại cảm
tiếng Việt dựa trên mối quan hệ ngữ nghĩa và các yếu tố đặc xúc bằng phương pháp học máy Support Vector Machine –
trưng của tiếng Việt trong một miền dữ liệu cụ thể là chủ đề đánh SVM dựa trên từ điển cảm xúc được xây dựng bằng phương
giá xe ô tô. Bài báo có đánh giá kết quả của phương pháp đề xuất pháp này. Để có cơ sở so sánh, bài báo cũng thử nghiệm phân
bằng thử nghiệm phân loại ý kiến đánh giá xe ô tô trên các trang loại cảm xúc bằng phương pháp học sâu (Deep Learning)
báo mạng tiếng Việt với phương pháp học máy Support Vector
không dựa trên từ điển cảm xúc.
Machine, và đối sánh kết quả với phương pháp học sâu – Deep
learning – không dựa vào từ điển cảm xúc. Để đánh giá sự hiệu quả của từ điển đề xuất, bài báo sẽ
dùng phương pháp học máy Support Vector Machine – SVM
Keywords- Từ điển, ý kiến, cảm xúc, từ điển cảm xúc, phân loại và phương pháp học sâu (Deep Learning).
cảm xúc, phân tích cảm xúc. Mô hình học sâu đã được biết đến từ lâu khi đã mang lại
cho các lĩnh vực xử lý ảnh và xử lý tín hiệu những kết quả rất
I. GIỚI THIỆU tốt. Đối với lĩnh vực xử lý ngôn ngữ tự nhiên thì học sâu chỉ
mới được quan tâm trong thời gian gần đây. Yoon Kim [17]
Ngày nay internet đã trở nên rất phổ biến ở Việt Nam cũng
tiên phong ứng dụng học sâu vào lĩnh vực xử lý ngôn ngữ tự
như trên thế giới. Thông tin trên internet gia tăng rất nhanh.
nhiên với mô hình mạng nơron tích chập (Convolution Neural
Trong môi trường này, mọi người có thể thể hiện suy nghĩ về
Network) dùng cho phân loại cảm xúc như ở hình 1. Mô hình
mọi vấn đề trong cuộc sống như văn hóa, kinh tế ... mà không
chia thành các tầng độc lập. Tầng Word Embedding là ma trận
bị ràng buộc nào về chuẩn mực ngôn ngữ. Mỗi ý kiến như vậy
trọng số của của các từ trong kho ngữ liệu.
ngoài ý nghĩ thông tin còn chứa cả cảm xúc của người viết.
Đây là nguồn tài nguyên rất giá trị. Vì vậy nhu cầu khai thác
nguồn tài nguyên này là rất lớn. Khi phân tích cảm xúc, vấn đề
quan trọng là nhận diện các thực thể cảm xúc, xác định mức độ
cảm xúc mà nó thể hiện lên văn bản. Đã có nhiều bộ từ điển
cảm xúc được thực hiện bằng nhiều phương pháp xác định
trọng số cảm xúc đã được đề xuất. Là một ngôn ngữ phổ biến,
tiếng Anh đã có những bộ từ điển cảm xúc tốt như
SentiWordNet [13], SenticNet [4]. Vì vậy, tiếng Anh đã có
nhiều công trình nghiên cứu về phân tích cảm xúc có chất Word Convolutional Pooling Fully connected
Embedding Layer Layer layer
lượng cao. Layer
Với tiếng Việt, việc nghiên cứu xây dựng từ điển cảm xúc
còn đang ở giai đoạn ban đầu. Các công trình đã được giới Hình 1: Mô hình Convolutional Neural Network cơ bản
thiệu như [8], [11], [14], hoặc bộ từ điển được biết đến khá
Ma trận này được xây dựng trên cơ sở thống kê về từ vựng
rộng rãi VietSentiWordNet, được xây dựng trên cơ sở chuyển
của kho ngữ liệu [18], từ đó xác định mối tương quan giữa các
ngữ từ các bộ từ điển SentiWordNet tiếng Anh. Nhiều phương
từ có trong kho ngữ liệu. Phương pháp này đòi hỏi kho ngữ
pháp chọn mục từ tiếng Việt được xem là phù hợp với một từ
liệu thật phong phú để có thể biểu diễn được hết các từ trong
tiếng Anh đã được đề xuất. Tuy vậy, điều này vẫn còn nhiều
một ngôn ngữ.
83
- II. CÔNG TRÌNH LIÊN QUAN theo phương pháp thủ công kết hợp với các công cụ đã có sẵn
trong giai đoạn phân đoạn từ và gán nhãn từ loại [16].
Do từ điển cảm xúc có ý nghĩa rất lớn đối với bài toán phân
tích cảm xúc để khai thác nguồn nguyên ý kiến trên mạng Từ điển
internet. Đã có rất nhiều phương pháp xây dựng từ điển cảm Kho ngữ liệu tiếng Việt
xúc được giới thiệu. Tiếng Anh là ngôn ngữ phổ biến nên cũng cảm xúc
là ngôn ngữ có nhiều bộ từ điển được biết đến nhiều nhất. Các
Tính
ngôn ngữ ít phổ biến hơn cũng được các nhà khoa học quan trọng số
tâm xây dựng bộ từ điển cảm xúc cho ngôn ngữ mình vì sự cần Từ điển Tập từ hạt cảm xúc
thiết của nó. cảm xúc giống
Bộ từ điển SentiWordNet [13] là bộ từ điển cảm xúc tiếng
Anh được sử dụng rất rộng rãi. Stefano Baccianella và các
cộng sự dựa trên quan hệ ngữ nghĩa của từ điển WordNet để Hình 2: Mô hình tính trọng số cảm xúc
tính toán ra giá trị cảm xúc cho các mục từ. SentiWordNet có
gần 120 ngàn mục từ được gán trị cảm xúc. Bên cạnh Quá trình tạo kho ngữ liệu được thực hiện như sau:
SentiWordNet, một bộ từ điển cảm xúc khác cho tiếng Anh Bước 1: Thu thập dữ liệu là các ý kiến đánh giá (review)
cũng được biết đến rộng rãi là SenticNet [4] do Erik Cambria trên các trang báo trực tuyến có chuyên mục đánh giá xe ô tô
và các cộng sự xây dựng. SenticNet hiện có khoảng 50 ngàn như VNExpress.net, danhgiaxe.com, otosaigon.com … để tạo
mục từ được gán trị cảm xúc. Điểm chung của các bộ từ điển tập dữ liệu thô.
cảm xúc này là có quá trình phát triển lâu dài, được xây dựng Bước 2: Tách câu. Loại bỏ các câu không có dấu tiếng Việt.
dựa trên kho ngữ liệu phong phú và một bộ từ điển chất lượng Gán nhãn cảm xúc cho câu.
về quan hệ ngữ nghĩa đặc trưng cho tiếng Anh là WordNet. Bước 3: Loại bỏ các câu chứa thông tin mang tính khách
Những ngôn ngữ ít phổ biến như tiếng Tây Tạng [6], tiếng quan, không chứa cảm xúc.
Việt [8, 11, 14] cũng có các công trình xây dựng bộ từ điển Bước 4: Phân đoạn từ và gán nhãn từ loại.
cảm xúc. Các bộ từ điển này thường lấy một bộ từ điển cảm 3.2. Phương pháp tính trọng số cảm xúc
xúc phổ biến của tiếng Anh như SentiWordNet để chuyển ngữ
kết hợp với các phương pháp như dựa trên thông tin tương hỗ 3.2.1. Xây dựng tập từ cảm xúc cơ sở
[6], tính toán mờ [8] nhằm tăng độ phù hợp với đặc trưng của
ngôn ngữ bản xứ. Đối tượng xe ô tô có rất nhiều đặc tính kỹ thuật. Các ý kiến
Vấn đế phức tạp khi dùng phương pháp chuyển ngữ là có đánh giá có thể chỉ tập trung vào một hoặc một vài khía cạnh
nhiều mục từ tiếng bản xứ ứng với một mục từ tiếng Anh. Các đặc tính kỹ thuật. Các khía cạnh kỹ thuật của xe ô tô thường
công trình trên đã phải đề xuất nhiều giải pháp để chọn mục từ được xem xét đánh giá, so sánh là: tổng thể, động cơ, nội và
tiếng bản xứ được xem là phù hợp nhất với một mục từ tiếng ngoại thất, an toàn, giá cả, v.v… Các mục từ thường được dùng
Anh. Tuy vậy, điều này rõ ràng vẫn sẽ có những hạn chế khả trong đánh giá, khen/chê ở mỗi khía cạnh sẽ được chọn làm từ
năng nhận diện cảm xúc ở các văn bản tiếng bản xứ. hạt giống. Ví dụ:
– Giá: đắt/rẻ, chát/ngon …
III. PHƯƠNG PHÁP TIẾP CẬN – Động cơ: mạnh/yếu, bốc/ì …
Mô hình tính trọng số cảm xúc của một từ hoặc một cụm từ – Nội thất: sang/tệ, chắc chắn/ọp ẹp …
ở bài báo không thay đổi so với [2] như hình 2. Kho ngữ liệu – Tổng thể: hầm hố/ẻo lả …
cảm xúc của bài báo này là những văn bản ý kiến đánh giá xe ô Mỗi từ/cụm từ được gán trọng số cảm xúc là 1 hoặc -1
tô tiếng Việt. Các câu chứa thông tin chủ quan (cảm xúc) của tương ứng với ý kiến khen hoặc chê. Các từ hạt giống được
người viết sẽ được chọn vào kho ngữ liệu. Tập từ hạt giống là chọn gồm cả từ đơn (nhạy, độc, đẹp …) và từ phức (hầm hố,
những từ đơn hoặc từ ghép thường dùng để khen hoặc chê một ọp ẹp …).
thành phần (khía cạnh) hoặc tổng thể chiếc xe. Các từ hạt giống 3.2.2. Sơ lược đặc trưng về từ và cụm từ trong ngôn ngữ tiếng
được gán trọng số cảm xúc -1 hoặc 1 tương ứng với ý khen Việt
hoặc chê. Các mục từ trong Từ điển tiếng Việt được tính trị
cảm xúc theo tập từ hạt giống. Theo tác giả Nguyễn Tài Cẩn [1], trong tiếng Việt, khả
năng kết hợp của các từ có những đặc trưng rất quan trọng:
3.1. Kho ngữ liệu cảm xúc Phó từ đứng trước động từ, tính từ: Thường bổ sung một
Kho ngữ liệu là tập các văn bản đã được gán nhãn cảm xúc. số ý nghĩa liên quan đến hành động, trạng thái, đặc điểm, tính
Quá trình thu thập dữ liệu sẽ cần chi phí lớn về thời gian và chất nêu ở động từ hoặc tính từ như: quan hệ thời gian, mức độ,
công sức nếu thực hiện bằng phương pháp thủ công. Tuy sự tiếp diễn tương tự, sự phủ định, sự cầu khiến. Ví dụ: đã, rất,
nhiên, để đảm bảo chất lượng cho kho ngữ liệu bài báo vẫn xây cũng, chưa ...
dựng kho ngữ liệu bằng phương pháp này. Phó từ đứng sau động từ, tính từ: Thường bổ sung ý nghĩa
Kho ngữ liệu của bài báo là tập hợp gần 2500 văn bản với về đến hành động, trạng thái, đặc điểm, tính chất của động từ
hơn 4000 câu (xem chi tiết ở bảng 5) được xác định cảm xúc hoặc tính từ về mức độ, khả năng, kết quả và hướng. Ví dụ:
lắm, quá ...
84
- Những phó từ thường gặp: đã, đang, cũng, sẽ, vẫn, còn, : hệ số độ mịn giữa các trọng số cảm xúc của các điểm
đều, được, rất, thật, lắm, quá ... chia trên thang, 0 < < 0.25
Dựa vào các đặc trưng trên của tiếng Việt, bài báo sẽ tính Hệ số xác định dấu của trị cảm xúc, = 1
toán trọng số cảm xúc cho các từ ghép để mở rộng từ điển cảm log 2 (1 n ): độ chênh lệch trị cảm xúc giữa các các
xúc. Bài báo này chỉ tính trọng số cảm xúc cho các cụm từ gồm cụm từ so với từ hạt giống.
một phó từ chỉ cấp độ kết hợp với một tính từ hoặc động từ.
Các phó từ được chia thành các mức cao, khá, thấp, kém và Bảng 2: Thang độ của cụm tính từ.
mức không khi ghép chung với tính từ và động từ. Bảng 1 liệt
kê một số phó từ cùng cấp độ. n Cụm từ
Bảng 1: Một số phó từ cùng mức độ 2 cực kỳ sang
Cao Khá Thấp Kém Không 1.5 sang cực kỳ
cực kỳ rất khá hơi không 1 quá sang
cực quá tạm cũng chẳng 0.5 sang quá
vô cùng thật tương đối chả 0 sang
-1 khá sang
Ví dụ: cực kỳ đẹp > thật đẹp > đẹp > khá đẹp > cũng đẹp >
không đẹp. -2 hơi sang
Khi các phó từ đứng trước tính từ hoặc động từ sẽ làm tăng không sang
mức độ cảm xúc của cụm tính từ hoặc cụm động từ tương ứng.
Ngược lại sẽ làm giảm mức cảm xúc của cụm từ nếu chúng
đứng sau. Trị cảm xúc của cụm tính từ theo giá trị như bảng 3.
Ví dụ: thật đẹp > đẹp thật Bảng 3: Trọng số cảm xúc của từ ghép giữa phó từ và tính từ
Trọng số cảm xúc của một từ, cụm từ thể hiện mức độ cảm
xúc mà người đọc cảm nhận. Độ lớn, nhỏ về trọng cảm xúc của T
các từ, cụm từ thể hiện mối tương quan giữa chúng về khả n Cụm từ
năng giúp người đọc cảm nhận được ý kiến, cảm xúc người = 0.1 = 0.15 = 0.2
viết thể hiện trong văn bản. 2 cực kỳ sang 1.263 1.379 1.485
Xét hai phát biểu như sau:
1. “Chiếc xe này rất bốc” 1.5 sang cực kỳ 1.202 1.293 1.379
2. “Chiếc xe này rất đẹp” quá sang 1.138 1.202 1.263
1
Cụm động từ “rất bốc” ở câu 1 cho người đọc nhận định
rằng người viết có cảm xúc rất tích cực về chiếc xe, ở khía 0.5 sang quá 1.070 1.104 1.138
cạnh vận hành của nó. Với câu 2 thì cụm tính từ “rất đẹp” cho
chúng ta nhận định rằng người viết đánh giá rất cao phần thiết 0 sang 1 1 1
kế ngoại hình của xe. Tổng quan là rất khen chiếc xe. Tuy -1 khá sang 0.848 0.766 0.678
nhiên, có thể nói cụm động từ “rất bốc” và tính từ “rất đẹp”
có mức độ tác động về mặt cảm xúc đến người đọc là khác -2 hơi sang 0.678 0.485 0.263
nhau. Câu 2 nhận xét về khía cạnh tĩnh của xe ô tô với cụm không sang 0 0 0
tính từ “rất đẹp”. Trong khi đó, câu 1 nhận xét về khía cạnh
động của xe với cụm động từ “rất bốc”. Hiệu quả tác động về
Tính trọng số cảm xúc cho cụm động từ
cảm xúc của câu 1 với cụm động từ “rất bốc” đến người đọc sẽ
Như đã đề cập ở phần trên, cụm động từ sẽ có trị cảm xúc
lớn hơn. Tương tự, khi nói động cơ của xe là “rất tiết kiệm” sẽ
lớn hơn cụm tính từ. Bài báo đề xuất sẽ lớn hơn cụm tính từ 1
có hiệu quả cảm xúc hơn khen xe chạy “rất êm”. Do đó, bài
(một) thang độ so với cụm tính từ. Trọng số cảm xúc T của
báo sẽ chia thang độ cảm xúc của cụm động từ lớn hơn cụm
cụm động từ được tính bởi công thức (2).
tính từ.
Tính trọng số cảm xúc cho cụm tính từ T = (1 log 2 (1 (n 1) )) (2)
Bài báo này sử dụng công thức đề xuất của [2] để tính trọng Trị cảm xúc của cụm động từ theo giá trị như bảng 4.
số cảm xúc T cho cụm tính từ có dạng như công thức (1). Bảng 4: Trọng số cảm xúc của từ ghép giữa phó từ và động từ
T = (1 log 2 (1 n )) (1)
Trong đó: T
n Cụm từ
n: cơ sở xác định độ chênh lệch cảm xúc giữa các cụm = 0.1 = 0.15 = 0.2
từ.
n: là giá trị độ chia như trong bảng 2, n [-2; 2]. 2 cực kỳ bốc 1.379 1.536 1.678
85
- 1.5 bốc cực kỳ 1.322 1.459 1.585 Bảng 5: Số liệu của từ điển đề xuất
1 quá bốc 1.263 1.379 1.485 Thành phần Số lượng
0.5 bốc quá 1.202 1.293 1.379 Từ hạt giống 76
0 bốc 1.138 1.202 1.263 Số từ có trọng số dương 551
-1 khá bốc 1 1 1 Số từ có trọng số âm 463
-2 hơi bốc 0.848 0.766 0. 678 Số từ được gán trọng số cảm xúc 1014
không bốc 0 0 0 Bảng 6: Số liệu về kho ngữ liệu
Thành phần Số lượng
3.2.3. Tính trọng số cảm xúc theo phương pháp thông tin Số mẫu xe được đánh giá 81
tương hỗ (PMI) Số ý kiến 2.125
Từ hạt giống và các từ dẫn xuất, bài báo tiếp tục tính trọng Số câu đã tách thành câu đơn theo khía
số cảm xúc của các từ khác trong từ điển tiếng Việt trên cơ sở 4.413
cạnh được gán nhãn dùng cho huấn luyện
quan hệ tương hỗ thông tin. Mối quan hệ này được xác định Số câu được gán nhãn dùng cho thử
theo thông tin tương hỗ từng điểm (pointwise mutual 441
nghiệm
information - PMI) [9]. Phương pháp này giúp xác định độ phụ
thuộc qua lại giữa hai mục từ trong một tập ngữ liệu. Các bước 3
tính như sau: Số loại nhãn cảm xúc (khen, trung
Bước 1: Tính PMI như công thức (2): tính, chê)
p ( w1 & w2 ) Số câu nhãn “Khen” 1.611
PMI ( w1 , w2 ) log 2 (2)
Số câu nhãn “Trung tính” 1.627
p ( w1 ) p ( w2 )
p(w1), p(w2): xác suất của từ w1, w2 trong kho ngữ liệu, Số câu nhãn “Chê” 1.616
p(w1&w2): xác suất từ w1 và từ w2 cùng trong kho ngữ
4.2 Phương pháp thử nghiệm
liệu.
Bước 2: Chuẩn hóa PMI [7] theo công thức (3) để có giá trị
4.2.1. Phương pháp học máy Support Vector Machine
npmi(w1;w2) [-1;1].
pmi(w1 , w2 ) Các vector đặc trưng cảm xúc của câu dùng cho phương
npmi(w1 , w2 ) (3)
pháp này có số chiều là số khía cạnh của xe ô tô mà các nhà sản
h(w1 , w2 ) xuất thường dùng khi giới thiệu về xe, gọi là các khía cạnh
Trong đó: chuẩn. Các khía cạnh chuẩn cụ thể bài báo dùng làm các phần
h( w1 , w2 ) p( w1 , w2 ) log 2 ( p( w1 , w2 )) là entropy của tử tạo nên các vector trong thử nghiệm bằng phương pháp
w1 , w2 SVM: động cơ, giá bán, vận hành, an toàn, ngoại thất, nội thất,
cặp từ w1 và w2. tiện nghi, kích thước, trọng lượng, tổng thể.
npmi(w1;w2) = 1 khi w1 và w2 xuất hiện cùng nhau, 4.2.2. Mô hình học sâu (deep learning)
npmi(w1;w2) = -1 khi w1 và w2 không bao giờ xuất hiện
cùng nhau. Bài báo thử nghiệm phân loại cảm xúc bằng mạng nơron tích
Bước 3: Tính trọng số cảm xúc theo mô hình thông tin tương chập (Convolution Neural Network – CNN) dùng thư viện
hỗ theo công thức (4): TensorFlow. Thông số cấu hình của CNN cho thử nghiệm trình
bày ở bảng 7.
SO( w)
npmi( w; w ) npmi( w; w ) (4)
w+, w-: các từ hạt giống có trọng số cảm xúc dương và cảm Bảng 7: Các thông số cấu hình cho CNN
xúc âm. Word Embedding size 300
IV. THỬ NGHIỆM Filter size 3, 4, 5
Dropout 0.5
4.1 Dữ liệu thử nghiệm Batch size 64
Dùng từ điển với trọng số cảm xúc được tính theo phương L2 weight decay 0.0014
pháp đề xuất của bài báo với số liệu trình bày trong bảng 5, bài
báo thử nghiệm phân loại cảm xúc cho tập dữ liệu văn bản ý kiến
Hệ số L2 được chọn thủ công qua quá trình thử nghiệm.
đánh giá xe ô tô có số liệu như bảng 6. Số câu của các lớp ý kiến
Ma trận ở tầng Word Embedding được xây dựng bằng công
“khen”, “chê” và “trung tính” tương đương nhau, độ chênh lệch
cụ word2vec. Thông số cấu hình công cụ word2vec được mô tả
là không đáng kể.
ở bảng 8.
86
- Bảng 8: Thông số cấu hình công cụ word2vec – Độ đúng (Accuracy) đạt được với phương pháp SVM tốt
Kích thước vector từ (size) 300
nhất đạt 74.83% ở trường hợp = 0.2 (bảng 9) là một kết quả
khá tốt. Điều này cho thấy từ điển xây dựng bằng phương pháp
Khoảng cách từ dự đoán lớn nhất (window) 10 bài báo đề xuất có chất lượng khá cao đối với phương pháp học
Tần suất từ tối thiểu (min_count) 2 máy SVM.
Thuật toán CBOW – Độ chính xác (Precision) của lớp khen trong cả ba trường
hợp thử nghiệm với phương pháp SVM đều tốt hơn hai lớp còn
4.3 Kết quả thử nghiệm lại. Độ chính xác chênh lệch giữa các lớp cảm xúc còn lớn.
Trong cả ba trường hợp, độ đo của lớp trung tính là rất thấp.
Dùng công thức tính độ đúng (Accuracy), độ chính xác
Điều này có thế nó, từ điển chưa có hiệu quả với trường hợp
(Precision) độ truy hồi (Recall) như trong [15]. Kết quả thử
các ý kiến là chưa thật rõ ràng.
nghiệm đánh giá bộ từ điền với một số hệ số độ mịn , đối với
– Độ đo truy hồi (Recall) chỉ tốt trong trường hợp từ điển xây
công thức (1), được trình bày ở bảng 9, bảng 10, bảng 11. Bảng
dựng với = 0.2 (bảng 9). Hai trường hợp còn lại cho kết quả
12 trình bày kết quả thử nghiệm của phương pháp học sâu.
không được tốt (bảng 10 và bảng 11).
Bảng 9: Kết quả thử nghiệm với SVM khi = 0,2 – Phương pháp học sâu thu được kết quả (bảng 12) tương
đương phương pháp SVM ở trường hợp = 0.15 (bảng 10).
Độ chính xác Độ truy hồi Độ đúng Đây là phương pháp không phụ thuộc từ điển cảm xúc, nhưng
Lớp (%) (%) (%) cần một kho ngữ liệu dùng cho huấn luyện phong phú. Vì vậy,
Khen 80.04 59.20 với một kho ngữ liệu chưa thật sự phong phú có thể là nguyên
nhân phương pháp chưa thể hiện hết khả năng.
Trung hòa 65.13 63.06 74.83
Chê 79.43 57.83 V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Bài báo đã giới thiệu một phương pháp tính toán trọng số
Bảng 10: Kết quả thử nghiệm với SVM khi = 0,15 cảm xúc cho bộ từ điển cảm xúc tiếng Việt trong phạm vi một
Độ chính xác Độ truy hồi Độ đúng miền xác định là lĩnh vực đánh giá xe ô tô. Việc phân biệt trị
Lớp (%) (%) (%) cảm xúc giữa từ loại tính từ và động từ đã cải thiện được hiệu
năng phân loại ý kiến so với việc không phân biệt từ loại. Do
Khen 79.05 57.07 phương pháp tính trọng số cảm xúc dựa trên thông tin tương hỗ
Trung hòa 62.50 60.51 73.02 nên việc có được kho ngữ liệu phong phú cũng có thể nâng cao
chất lượng cho từ điển. Bên cạnh đó, việc thử nghiệm phương
Chê 78.01 55.56 pháp xây dựng từ điển bài báo đã đề xuất cho các miền dữ liệu
khác cũng sẽ được quan tâm nghiên cứu.
Bảng 11: Kết quả thử nghiệm với SVM khi = 0,1
Độ chính xác Độ truy hồi Độ đúng TÀI LIỆU THAM KHẢO
Lớp (%) (%) (%)
[1] Nguyễn Tài Cẩn, “Ngữ pháp tiếng Việt”, Đại học Quốc gia Hà Nội, Hà
Khen 77.70 53.99 Nội, 1996.
[2] Nguyen Ngoc Duy, “Xây dựng từ điển cảm xúc tiếng Việt theo chủ đề”,
Trung hòa 59.21 56.60 70.29 Kỷ yếu hội thảo quốc gia về Điện tử, Truyền thông và Công nghệ
Thông tin, 2017, pages 89-94.
Chê 74.47 52.50 [3] Nguyễn Ngọc Duy, Phan Thị Tươi, “Tóm tắt văn bản trên cơ sở phân loại
ý kiến độc giả của báo mạng tiếng Việt”, Tạp chí Phát triển Khoa học và
Bảng 12: Kết quả thử nghiệm với CNN Công nghệ, Đại học Quốc gia Thành phố Hồ Chí Minh, K5, 19, pp. 53-
61, 2016.
Độ chính xác Độ truy hồi Độ đúng [4] Erik Cambria, Daniel Olsher, Dheeraj Rajagopal, “SenticNet 3: a common
Lớp (%) (%) (%) and common-sense knowledge base for cognition-driven sentiment
analysis”, Proceedings of the 28th AAAI Conference on Artificial
Khen 78.38 57.43 Intelligence, pp. 1515-1521, 2014.
[5] Peter D. Turney, “Thumbs Up or Thumbs Down? Semantic Orientation
Trung hòa 63.16 60.76 73.24 Applied to Unsupervised Classification of Reviews”, Proceedings of the
40th Annual Meeting of the Association for Computational Linguistics,
Chê 78.72 55.78 USA, pp. 417-424, 2002.
[6] Zhen Zhang and Lirong Qiu, “A Sentiment Calculation Method Based on
Tibetan Semantic Relations”, International Journal of Database Theory
– Khi độ mịn về trọng số cảm xúc của cụm tính từ hoặc cụm and Application Vol. 9, No. 9, pp. 149-156, 2016.
động từ càng thấp ( càng lớn) giữa các điểm của thang đo thì [7] Bouma, Gerlof, “Normalized Pointwise Mutual Information in
các độ đo càng tăng. Độ đo tốt nhất của bộ từ điển trong các Collocation Extraction”, Proceedings of the Biennial GSCL Conference,
pp. 31-40, 2009.
trường hợp thử nghiệm là ứng với = 0.2 (bảng 9). Như vậy, [8] Thien Khai Tran, Tuoi Thi Phan, “Computing Sentiment Scores of Verb
nếu trọng số cảm xúc giữa các điểm của thang đo không chênh Phrases for Vietnamese”, Proceedings of the Conference on
lệch nhiều sẽ làm giảm khả năng phân loại cảm xúc của Computational Linguistics and Speech Processing ROCLING, pp. 204-
phương pháp thử nghiệm SVM. 213, 2016.
87
- [9] Kenneth Ward Church, Patrick Hanks – Word association norms, mutual Proceedings of the 8th International Workshop on Multi-disciplinary
information, and lexicography, Journal Computational Linguistics 16 (1) Trends in Artificial Intelligence, pp. 136-148, 2014.
(1990) 22-29. [15] Sotiris Kotsiantis, Dimitris Kanellopoulos, and Panayiotis Pintelas,
[10] Yoon Kim, “Convolutional neural networks for sentence classification”, “Handling imbalanced datasets: A review, GESTS International
in Proceedings of the 2014 Conference on Empirical Methods in Transactions on Computer Science and Engineering Vol. 30, No. 1, pp.
Natural Language Processing, EMNLP, 2014, pages 1746-1751. 25-36, 2006.
[11] Thien Khai Tran, Tuoi Thi Phan, “Computing Sentiment Scores of [16] Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai
Adjective Phrases for Vietnamese”, The 10th International Workshop, Nguyen, Minh Le Nguyen, “From Treebank Conversion to Automatic
MIWAI, Chiang Mai, Thailand, pp. 288-296, 2016. Dependency Parsing for Vietnamese”, International Conference on
[12] Ashequl Qadir, “Detecting oipnion sentences specific to product features Application of Natural Language to Information Systems, pp. 196-207,
in customer reviews using typed dependency relations”, Events in 2014.
Emerging Text Types (eETTs) - Borovets, Bulgaria, University of [17] Yoon Kim, “Convolutional neural networks for sentence classification”,
Wolverhampton, UK, pp. 38–43, 2009. in Proceedings of the 2014 Conference on Empirical Methods in
[13] Stefano Baccianella, Andrea Esuli, Fabrizio Sebastiani, “SentiWordNet Natural Language Processing, EMNLP, 2014, pages 1746-1751
3.0: An Enhanced Lexical Resource for Sentiment Analysis and [18] Xin Rong, “word2vec parameter learning explained”, arXiv preprint
Opinion Mining”, in Proceedings of the International Conference on arXiv:1411.2738, 2014.
Language Resources and Evaluation, 2010, pages 17-23.
[14] Hong Nam Nguyen, Thanh Van Le, Hai Son Le, Tran Vu Pham, “Domain
Specific Sentiment Dictionary for Opinion Mining of Vietnamese Text”,
88
nguon tai.lieu . vn