Xem mẫu
- Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019
DOI: 10.15625/vap.2019.00060
THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT
Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc
Khoa Công nghệ Thông tin và Truyền Thông
Trường Đại học Cần Thơ
lnkhang@ctu.edu.vn, phanchikhang7@gmail.com, baongocst96@gmail.com
TÓM TẮT: Tóm tắt văn bản là một bài toán rất được quan tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm
tắt văn bản thường ngắn hơn văn bản ban đầu, súc tích, nhưng vẫn giữ nguyên ý chính. Bài báo này trình bày thực nghiệm các
phương pháp tóm tắt rút trích trên các văn bản tiếng Việt. Chúng tôi xây dựng tập dữ liệu gồm 150.000 bài báo được rút trích từ
các trang báo mạng phổ biến ở Việt Nam. Tập dữ liệu này được dùng để đào tạo bộ từ vựng cho tiếng Việt và là tập dữ liệu mẫu
dùng trong bài toán tóm tắt văn bản. Phương pháp centroid-based và mô hình GRU-RNN 2 chiều được áp dụng để xây dựng tóm tắt
rút trích.
Từ khóa: Tóm tắt rút trích, nhúng từ, centroid-based, GRU-RNN.
I. GIỚI THIỆU
Josef Steinberger và Karel Ježek [1] định nghĩa tóm tắt văn bản tự động là “quá trình nhận vào một văn bản
gốc và trình bày lại các nội dung cốt lõi của văn bản gốc tùy theo nhu cầu của người dùng,.. .Đầu tiên văn bản gốc
sẽ được đọc và xác định nội dung. Sau đó, các ý chính của văn bản gốc được trích xuất và trình bày ngắn gọn trong
một bản tóm tắt,…”. Bài toán tóm tắt văn bản được nghiên cứu tập trung vào hai hướng chính [2]: tóm tắt rút trích
(extraction summarization) và tóm tắt tóm lược (abstraction summarization). Phương pháp tóm tắt rút trích là
phương pháp tạo ra văn bản tóm tắt bằng cách chọn câu hoặc đoạn văn “nổi bật” từ tài liệu gốc. Tóm tắt tóm lược
xây dựng một biểu diễn ngữ nghĩa các từ bên trong văn bản gốc và sử dụng kỹ thuật khác nhau để tạ o ra một bản
tóm tắt gần gũi với những gì con người có thể tạo ra. Văn bản tóm tắt được tạo ra bởi phương pháp tóm lược có thể
chứa các từ không có trong văn bản gốc.
Tóm tắt rút trích có những ưu điểm nổi bật như ít phức tạp hơn, ít tốn kém hơn, bản tóm tắt đúng ngữ pháp và
ngữ nghĩa. Có nhiều phương pháp trích xuất câu khác nhau để xây dựng tóm tắt. Các nghiên cứu tóm tắt rút trích có
thể kể đến như sử dụng đồ thị biểu diễn câu trong văn bản gốc [3] và [4], dựa trên tần số xuất hiện của từ [5], tính
điểm quan trọng của câu trong văn bản gốc bằng cách sử dụng trọng số T F-IDF [6] và [7]. Gần đây, có sự đột phá
lớn trong việc áp dụng các mạng nơron trong lĩnh vực xử lý ngôn ngữ tự nhiên, bao gồm cả tóm tắt văn bản. Một số
nghiên cứu tóm tắt rút trích sử dụng mạng nơron có thể kể đến như sử dụng mạng CNN (convolutional neural
network) [8], kết hợp mô hình DivSelect và mô hình CNNLM (được xây dựng bằng cách cải tiến mô hình NNLM -
neural network language model- dựa trên mạng CNN [9], mô hình mã hóa - giải mã (encoder - decoder) dựa trên
mạng hồi quy tập trung [10]. Trong bài báo này, chúng tôi tìm hiểu một số phương pháp rút trích nổi bật hiện có và
tiến hành thực nghiệm trên tập dữ liệu là văn bản tiếng Việt được thu thập từ các bài báo trực tuyến.
II. CHUẨN BỊ DỮ LIỆU
Thực hiện tóm tắt văn bản theo hướng rút trích trải qua nhiều công đoạn. Phần tiếp theo của bày báo trình bày
chi tiết các bước chuẩn bị dữ liệu cho việc xây dựng văn bản tóm tắt ở tiếng Việt: tiền xử lý dữ liệu và đào tạo bộ
từ vựng.
A. Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là bước đầu tiên trong quá trình xây dựng tóm tắt văn bản. Tiền xử lý dữ liệu thực chất là
làm sạch dữ liệu trước khi đưa vào mô hình huấn luyện, làm sạch dữ liệu giúp cho tóm tắt chính xác và đạt hiệu quả
cao hơn.
Đầu tiên là phát hiện ranh giới câu trong đoạn văn bản, điều này giúp ích cho việc phân tách câu, vì mô hình
tóm tắt sẽ tính toán, đánh giá từng câu để xem xét xem câu có liên quan đến bản tóm tắt hay không. Bộ công
cụ NLTK1 được sử dụng cho việc tách câu.
Tiếp đến là tách câu thành các từ để sử dụng chúng vào quá trình đào tạo bộ từ vựng tiếng Việt. Công cụ
Underthesea2 được sử dụng cho việc tách từ.
Bước cuối cùng trong quá trình tiền xử lý dữ liệu là loại bỏ các ký tự đặc biệt trong văn bản, cũng như là loại
bỏ stopword. Các ký tự đặc biệt thường gặp là: !*&^%$()-#@,.’;=-?/+{}[]. Danh sách các stopword trong
tiếng Việt được sử dụng gồm 1.942 từ được đề xuất bởi Lê Văn Duyệt 3.
1
https://www.nltk.org/
2
https://github.com/undertheseanlp
3
https://github.com/stopwords/vietnamese-stopwords
- Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 469
B. Xây dựng word embedding
Word embedding, còn gọi là “nhúng từ”, là một kỹ thuật biểu diễn các từ trong văn bản, được giới thiệu lần
đầu bởi Bengio và các cộng sự vào năm 2003 [11]. Hai phương pháp nổi tiếng được sử dụng để đào tạo word
embedding là Word2vec [12] và Glove4. Word2vec gồm 2 mô hình là CBOW (Continuous Bag of Word) dùng để
dự đoán một từ dựa vào các từ lân cận và Skipgram dùng để dự đoán ngữ cảnh xung quanh từ. Trong phạm vi
nghiên cứu, cả 3 phương pháp Word2vec - CBOW, Word2vec - Skipgram và Glove đều được sử dụng để xây dựng
word embedding trên tập dữ liệu tiếng Việt thu thập được. Kết quả của giai đoạn đào tạo này là các embedding của
các từ vựng w.
III. PHƯƠNG PHÁP CENTROID-BASED
Xây dựng tóm tắt rút trích cho văn bản dựa trên centroid-based được đề xuất bởi Gaetano Rosiello và các
cộng sự [7], [13]. Các tóm tắt được xây dựng qua các bước: tìm các từ trọng tâm trong văn bản, biễu diễn các câu
của văn bản trong một không gian vector, tính điểm cho các câu dựa trên khoảng cách của câu đến các từ trọng tâm ,
các câu gần với các từ trọng tâm sẽ được chọn để đưa vào văn bản tóm tắt. Để tiện theo dõi, chúng tôi thực nghiệm
phương pháp này để xây dựng tóm tắt cho văn bản sau:
Bằng Kiều đã làm thỏa mãn những người yêu mến giọng ca của anh bằng một đêm nhạc ấn tượng. Xuyên
suốt liveshow, khán giả một lần nữa được thưởng thức lại các ca khúc hay nhất của anh từ những ngày đầu ca hát
cho đến hôm nay. Hàng loạt những ca khúc hit của Bằng Kiều được chọn thể hiện. Hát live liên tục hơn 20 ca
khúc nhưng với chất giọng cao và truyền cảm, Bằng Kiều đã không làm người nghe thất vọng. Ba vị khách mời
Trọng Tấn, Thu Minh và Hồ Quỳnh Hương là phần quà đặc biệt mà Bằng Kiều dành cho khán giả. Bằng Kiều và
Hồ Quỳnh Hương bay bổng với "Dẫu có lỗi lầm" Kết hợp cùng Thu Minh. Phần kết hợp gây ấn tượng nhất trong
đêm có lẽ là tiết mục của Bằng Kiều và nam ca sĩ Trọng Tấn. Cả hai đã khiến khán giả có những giây phút đắm
chìm trong âm nhạc đích thực qua ca khúc O sole mio - một ca khúc nhạc cổ điển, Trọng Tấn hát tiếng Anh còn
Bằng Kiều thể hiện bằng tiếng Việt. Màn kết hợp tuyệt với đã giành được những tràng pháo tay không ngớt từ
phía khán giả. Màn kết hợp lần đầu tiên giữa Trọng Tấn và Bằng Kiều đã để lại tiếng vang lớn. Sự hòa hợp của
hai giọng ca đã đem lại cho khán giả những giây phút thăng hoa cùng âm nhạc Clip Bằng Kiều và Trọng Tấn
ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai khách mời nữ của đêm nhạc là Thu Minh và Hồ Quỳnh Hương
cũng cống hiến cho khán giả những ca khúc hit quen thuộc của mình như Thu Minh với Yêu mình anh và Bay,
Hồ Quỳnh Hương với Anh và Tình yêu mãi mãi. Hồ Quỳnh Hương Thu Minh Thêm một số hình ảnh trong đêm
diễn tối qua: Bằng Kiều quay trở lại sân khấu với trang phục khác Ca sĩ Trọng Tấn có vẻ lột xác sau khi từ bỏ
Học viện Âm nhạc Quốc gia Để khán giả có nhưng giây phút thật sảng khoái trong lúc nghỉ giải lao, Bằng Kiều
đã cho phát clip hài của anh Clip nói về chuyện bán vé liveshow Bằng Kiều với "Chị tôi" Bằng Kiều và Hồ
Quỳnh Hương. 3 vị khách mời cùng nhân vật chính đều xuất hiện ở sân khấu "Hơi thở mùa xuân" là ca khúc được
chọn để kết thúc chương trình Bằng Kiều đã có một đêm liveshow thành công rực rỡ Bằng Kiều trong vòng vây
của fan khi chương trình vừa kết thúc.
Ví dụ 1: Ví dụ nội dung văn bản cần tóm tắt
A. Chọn ra các từ trọng tâm của văn bản
Để đánh giá mức độ quan trọng của từ trong văn bản cần tóm tắt, phương pháp TF-IDF [14] được sử dụng.
Các từ có trọng số TF-IDF lớn hơn ngưỡng α sẽ được chấp nhận như là các từ trọng tâm trong văn bản đó, ký hiệu
cw. Centroid của văn bản cần tóm tắt ở Ví dụ 1 là “Kiều” và “ca khúc”.
B. Xây dựng centroid embedding
Centroid embedding C của văn bản cần tóm tắt D là tổng các embedding của các từ trọng tâm cw được xác
định ở bước A. Embedding của cw ký hiệu là E(cw).
∑
C. Xây dựng sentence embedding
Văn bản cần tóm tắt D gồm nhiều câu Sj. Tương tự như xây dựng centroid embedding, embedding của câu Sj
là E(Sj) được tính bằng tổng các embedding của các từ w trong câu.
∑
4
https://nlp.stanford.edu/projects/glove/
- 470 THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT
D. Tính điểm cho câu
Điểm của câu Sj được tính bằng khoảng cách cosine (cosine similarity score) giữa embedding của câu Sj với
centroid embedding C trong văn bản cần tóm tắt D. Nói cách khác, điểm của câu Sj chính là khoảng cách cosine giữa
Sj và C.
( )
( ) ( ( ) )
‖ ( )‖ ‖ ‖
Bảng 1 trình bày một số câu trong nội dung văn bản cần tóm tắt ở Ví dụ 1 đã được tính điểm dựa vào mối
quan hệ của các từ trong câu với các từ trọng tâm. Các câu được sắp xếp theo thứ tự giảm dần dựa vào điểm câu.
Cột “STT câu” ở Bảng 1 là số thứ tự của câu trong nội dung văn bản ban đầu.
Bảng 1: Ví dụ các câu đã được tính điểm và xếp hạng
STT Nội dung câu Điểm
câu
2 Hàng loạt những ca khúc hit của Bằng Kiều được chọn thể hiện Hát live liên tục hơn 20 ca khúc 0,9228
nhưng với chất giọng cao và truyền cảm, Bằng Kiều đã không làm người nghe thất vọng.
7 Màn kết hợp lần đầu tiên giữa Trọng Tấn và Bằng Kiều đã để lại tiếng vang lớn Sự hòa hợp của 0,8951
hai giọng ca đã đem lại cho khán giả những giây phút thăng hoa cùng âm nhạc Clip Bằng Kiều
và Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai khách mời nữ của đêm nhạc là Thu
Minh và Hồ Quỳnh Hương cũng cống hiến cho khán giả những ca khúc hit quen thuộc của mình
như Thu Minh với Yêu mình anh và Bay, Hồ Quỳnh Hương với Anh và Tình yêu mãi mãi.
5 Cả hai đã khiến khán giả có những giây phút đắm chìm trong âm nhạc đích thực qua ca khúc O 0,8714
sole mio - một ca khúc nhạc cổ điển, Trọng Tấn hát tiếng Anh còn Bằng Kiều thể hiện bằng
tiếng Việt.
4 Bằng Kiều và Hồ Quỳnh Hương bay bổng với "Dẫu có lỗi lầm" Kết hợp cùng Thu Minh Phần 0,8648
kết hợp gây ấn tượng nhất trong đêm có lẽ là tiết mục của Bằng Kiều và nam ca sĩ Trọng Tấn.
0 Bằng Kiều đã làm thỏa mãn những người yêu mến giọng ca của anh bằng một đêm nhạc ấn 0,8640
tượng.
E. Chọn câu phù hợp
Các câu được sắp xếp theo thứ tự dựa trên giá trị điểm của câu theo chiều giảm dần. Câu có điểm cao nhất sẽ
được đưa vào văn bản tóm tắt. Các câu có điểm cao kế tiếp sẽ được lần lượt thêm vào văn bản tóm tắt cho đến khi
đạt đến giới hạn câu. Tuy nhiên, để đảm bảo các câu không bị trùng lắp ý, trước khi thực hiện thêm câu vào văn bản
tóm tắt, tác giả thực hiện tính độ tương đồng cosine similarity giữa câu chuẩn bị thêm vào văn bản tóm tắt với các
câu đã được thêm vào văn bản tóm tắt trước đó, nếu độ tương đồng lớn hơn µ, câu sẽ không được thêm vào văn bản
tóm tắt.
Sau khi tính điểm và sắp xếp câu theo thứ tự điểm, các câu phù hợp được chọn đưa vào tóm tắt sẽ được sắp
xếp lại theo thứ tự tăng dần của “STT câu” trong văn bản ban đầu và xuất ra bản tóm tắt. Nội dung của bản tóm tắt
cho văn bản ở Ví dụ 1 với giới hạn 100 từ là:
Hàng loạt những ca khúc hit của Bằng Kiều được chọn thể hiện Hát live liên tục hơn 20 ca khúc nhưng với
chất giọng cao và truyền cảm, Bằng Kiều đã không làm người nghe thất vọng. Màn kết hợp lần đầu tiên giữa
Trọng Tấn và Bằng Kiều đã để lại tiếng vang lớn Sự hòa hợp của hai giọng ca đã đem lại cho khán giả những
giây phút thăng hoa cùng âm nhạc Clip Bằng Kiều và Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai
khách mời nữ của đêm nhạc là Thu Minh và Hồ Quỳnh Hương cũng cống hiến cho khán giả những ca khúc hit
quen thuộc của mình như Thu Minh với Yêu mình anh và Bay, Hồ Quỳnh Hương với Anh và Tình yêu mãi mãi.
IV. PHƯƠNG PHÁP SỬ DỤNG MÔ HÌNH GRU-RNN 2 CHIỀU
Phương pháp xây dựng tóm tắt rút trích cho văn bản sử dụng mô hình GRU-RNN 2 chiều được đề xuất bởi
Nallapati và các cộng sự [10], còn được gọi là phương pháp SummaRuNNer. Quá trình xây dựng tóm tắt cho văn
bản được thực hiện gồm 2 bước: tạo nhãn cho câu và áp dụng mô hình.
A. Tạo nhãn cho câu
Mô hình tóm tắt này dựa trên mô hình phân loại chuỗi, nên việc gán nhãn cho các câu trong văn bản cần tóm
tắt là cần thiết. Các tóm tắt trong cặp tóm tắt R - văn bản D của tập dữ liệu ban đầu là do con người thực hiện và các
tóm tắt này thường là tóm tắt tóm lược. Các câu trong văn bản cần tóm tắt D cần được gán nhãn 0 hoặc 1. Nếu câu Sj
được gán nhãn 0 nghĩa là Sj không liên quan hoặc liên quan rất ít đến tóm tắt R; ngược lại, nếu Sj được gán nhãn 1
- Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 471
nghĩa là Sj có liên quan đến tóm tắt R. Để thực hiện gán nhãn cho câu, kỹ thuật tham lam (Greedy) và phương pháp
đánh giá ROUGE [15] được sử dụng, cụ thể là ROUGE-2. Quá trình gán nhãn cho các câu trong văn bản D được
thực hiện như sau:
Tách văn bản D thành các câu Sj và tiếp tục tách các câu này thành các từ w.
Với mỗi câu Sj, phương pháp đánh giá ROUGE được sử dụng để tính điểm dựa trên sự trùng lắp của từ trong
câu Sj so với R. Câu có điểm đánh giá ROUGE lớn nhất sẽ được gán nhãn 1, các câu còn lại gán nhãn 0.
Với mỗi câu có nhãn 0, ký hiệu Sk, tiếp cận tham lam được sử dụng bằng cách lần lượt thêm từng câu Sk vào
tập các câu đã được gán nhãn 1, tại mỗi bước trước khi thêm câu Sk sẽ phải thực hiện lại đánh giá ROUGE cho
các câu đã được gán nhãn 1 và câu được thêm vào Sk so với R; nếu điểm đánh giá ROUGE cải thiện thì gán
nhãn cho câu Sk là 1.
Quá trình gán nhãn cho câu kết thúc khi không còn câu nào thêm vào cải thiện điểm số ROUGE và số lượng
câu gán nhãn 1 lớn hơn số lượng câu trong tóm tắt tóm lược.
B. Sử dụng mô hình GRU-RNN 2 chiều để xây dựng tóm tắt
Các câu trong văn bản được truy cập theo đúng trình tự trong D và quyết định nhị phân được đưa ra về việc
có nên đưa câu vào tóm tắt hay không. Quyết định nhị phân là 0 nghĩa là câu không đưa vào trong bản tóm tắt và
ngược lại quyết định nhị phân là 1 nghĩa là câu được đưa vào tóm tắt. Mô hình GRU -RNN được áp dụng là mô hình
2 tầng 2 chiều hoạt động như sau:
Tầng đầu tiên: gồm một RNN chạy ở cấp độ từ theo chiều từ từ đầu tiên đến từ cuối cùng (forward), tính toán
các biểu diễn trạng thái ẩn tại mỗi vị trí từ dựa trên từ hiện tại và trạng thái ẩn trước đó. Một RNN khác được
sử dụng ở cấp độ từ chạy theo chiều ngược lại từ từ cuối cùng đến từ đầu tiên (backward). Cặp RNN foward
và RNN backward được xem như là RNN hai chiều (bidirectional). Một điều cần lưu ý là RNN forward và
RNN backward chạy song song cùng lúc tại mỗi thời điểm đang xét.
Tầng thứ hai: cũng là một RNN hai chiều nhưng chạy ở mức câu. Các input của RNN 2 chiều mức câu là các
kết nối (concatenate) trạng thái ẩn của RNN 2 chiều mức từ. Các trạng thái ẩn RNN 2 chiều mức câu sẽ mã
hóa các biểu diễn câu trong tài liệu.
Cụ thể hơn ta xét tại thời điểm t, tức là văn bản D tại vị trí t. Tài liệu gồm nhiều câu được biểu diễn như: S1,
S2, S3…Sj…. Tại vị trí câu Sj, câu trước và sau của câu Sj lần lượt là Sj-1 và Sj+1. Khi được được áp dụng vào mô hình
sẽ chạy mức độ từ và mức độ câu. Tức là tại câu Sj, thực hiện tách câu thành các từ: w1, w2, w3, ….wk.... Khi chạy
cấp độ từ áp dụng mô hình GRU-RNN 2 chiều, ta được hai trạng thái ẩn (bộ nhớ của mạng) hf (forward) và hb
(backward). Sau khi chạy cấp độ từ, thì cấp độ câu cũng tương tự, đầu vào ở cấp độ câu là trạng thái ẩn của cấp độ
từ. Tương tự ta sẽ được trạng thái ẩn hf và hb của cấp độ câu. Bộ biểu diễn toàn bộ văn bản cần tóm tắt, được tính
dựa trên công thức.
( ∑[ ] )
Trong đó, là các trạng thái ẩn tương ứng với câu thứ j của RNN 2 chiều mức độ câu tiến và lùi tương
ứng. là số câu trong tài liệu và biểu diễn vector nối của 2 vector trạng thái ẩn và .
Giá trị nhị phân yj cho biết câu Sj có phải là một phần của tóm tắt hay không, hj là biểu diễn của câu được tạo
ra bởi phép biến đổi phi tuyến tính các trạng thái ẩn nối tiếp nhau ở bước j của RNN 2 chiều mức câu, biểu diễn của
tóm tắt tại vị trí câu Sj được tính theo công thức:
∑
Việc đưa ra quyết định về việc câu có được đưa vào văn bản tóm tắt hay không phụ thuộc vào nhiều yếu tố và
được thực hiện như sau:
( |
Trong đó:
, đại diện nội dung thông tin của câu Sj;
, biểu thị tính nổi bật của câu;
( ), biểu hiện sự dư thừa của câu đối với tài liệu tóm tắt;
và , thể hiện tầm quan trọng của vị trí tuyệt đối và tương đối của câu liên quan đến
văn bản.
- 472 THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT
Kết quả tóm tắt mô hình xây dựng được khi tóm tắt văn bản Ví dụ 1 như dưới đây.
Bằng Kiều và Hồ Quỳnh Hương bay bổng với "Dẫu có lỗi lầm" Kết hợp cùng Thu Minh Phần kết hợp gây
ấn tượng nhất trong đêm có lẽ là tiết mục của Bằng Kiều và nam ca sĩ Trọng Tấn. Màn kết hợp lần đầu tiên giữa
Trọng Tấn và Bằng Kiều đã để lại tiếng vang lớn Sự hòa hợp của hai giọng ca đã đem lại cho khán giả những
giây phút thăng hoa cùng âm nhạc Clip Bằng Kiều và Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai
khách mời nữ của đêm nhạc là Thu Minh và Hồ Quỳnh Hương cũng cống hiến cho khán giả những ca khúc hit
quen thuộc của mình như Thu Minh với Yêu mình anh và Bay, Hồ Quỳnh Hương với Anh và Tình yêu mãi mãi. 3
vị khách mời cùng nhân vật chính đều xuất hiện ở sân khấu "Hơi thở mùa xuân" là ca khúc được chọn để kết thúc
chương trình Bằng Kiều đã có một đêm liveshow thành công rực rỡ Bằng Kiều trong vòng vây của fan khi
chương trình vừa kết thúc.
V. THỰC NGHIỆM
A. Xây dựng tập dữ liệu
Để thực nghiệm, chúng tôi đã xây dựng tập dữ liệu gồm hơn 150.000 bài báo khác nhau được thu thập từ các
trang báo mạng phổ biến của Việt Nam. Các bài báo này ở nhiều lĩnh vực: khoa học, công nghệ, giáo dục, du lịch,
thể thao, tạp chí thời trang, giải trí, kinh doanh. Tập dữ liệu gồm 6 cột: title - tiêu đề của bài viết, link - đường dẫn
liên kết của bài viết, time - thời gian đăng bài, content - toàn bộ nội dung bài viết, summary - tóm tắt bài viết, author
- tác giả bài viết. Để phục vụ cho nghiên cứu này, chỉ 2 cột chính là “content” và “summary” được sử dụng, Hình 1.
Hình 1. Dữ liệu thu thập từ trang báo mạng phổ biến
B. Xây dựng word embedding
Phương pháp Word2vec CBOW, Word2vec Skipgram và Glove đều được sử dụng để xây dựng word
embedding trên tập dữ liệu các bài báo tiếng Việt thu thập được. Sau khi đào tạo word embedding, chúng tôi tiến
hành kiểm tra đánh giá mối quan hệ giữa các từ ở mỗi phương pháp. Bảng 1 trình bày một số từ gần với từ “giọng
hát”, “con cái” và “tình yêu” sau quá trình đào tạo word embedding.
Bảng 2. Ví dụ kết quả đào tạo word embedding
Word2Vec - CBOW Word2Vec - Skipgram Glove
“Giọng hát”
Từ Sim Từ Sim Từ Sim
chinh phục 0,881 bolero 0,827 vđv 0,992
bolero 0,864 nội lực 0,813 nhí 0,992
nhảy 0,859 nhí 0,813 tìm kiếm 0,992
nhí 0,859 truyền cảm 0,809 truyền hình 0,989
manga 0,853 thính phòng 0,799 quyết 0,987
nhạc phẩm 0,853 nhạc phẩm 0,787 Carolina 0,981
“Con cái”
suy nghĩ 0,955 chăm lo 0,96 khỏe 0,988
đuổi kịp 0,946 nghèo khó 0,899 cân bằng 0,982
tan vỡ 0,943 bất hạnh 0,887 tình dục 0,982
sinh hoạt 0,943 thấu hiểu 0,881 nghĩa là 0,981
- Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 473
Word2Vec - CBOW Word2Vec - Skipgram Glove
“Giọng hát”
Từ Sim Từ Sim Từ Sim
“Tình yêu”
tình cảm 0,954 tình bạn 0,816 thân thiết 0,989
cuộc đời 0,947 tình cảm 0,792 cảm xúc 0,988
yêu 0,946 ký ức 0,971 cuộc đời 0,988
hạnh phúc 0,928 tuổi thơ 0,788 tình cảm 0,983
cảm xúc 0,921 cảm động 0,784 ngoại giao 0,983
câu chuyện 0,921 bình yên 0,784 chàng 0,981
vui 0,914 mối tình 0,783 hạnh phúc 0,981
Kết quả thực nghiệm cho thấy mô hình Word2Vec cho kết quả tốt hơn so với mô hình Glove đối với tập dữ
liệu tiếng Việt đang dùng. Đặc biệt là Word2vec - Skipgram cho kết quả rất đáng mong đợi. Do đó, mô hình
Word2Vec-Skipgram đươc sử dụng để đào tạo word embedding với số chiều là 100 và số lần xuất hiện của từ ít nhất
là 4. Kết quả thu được là bộ dữ liệu gồm 200.000 từ vựng.
C. Phương pháp đánh giá
Để đánh giá các phương pháp tóm tắt văn bản, chúng ta có thể đánh giá thủ công hoặc đánh giá tự động.
Đánh giá thủ công do chuyên gia thực hiện, đánh giá trên kết quả với những tiêu chí nhất định để đưa ra kết quả cụ
thể. Đánh giá tự động, dùng những thuật toán để đánh giá kết quả một cách tự động, bằng việc so sánh kết quả tạo ra
với các kết quả tóm tắt sẵn có của dữ liệu, phương pháp tự động được sử dụng phổ biến hiện nay là ROUGE và
BLEU [16]. So với việc đánh giá thủ công, đánh giá tự động còn nhiều hạn chế do tính phức tạp của ngôn ngữ tự
nhiên, rất khó để có thể đánh giá chính xác bằng thuật toán. Tuy nhiên, việc đánh giá tự động vẫn được lựa chọn
nhiều hơn bởi đánh giá thủ công cần tiêu tốn rất nhiều chi phí. Trong phạm vi bài báo này, các phương pháp đánh
giá ROUGE-1, ROUGE-2 và ROUGE-L lần lượt được sử dụng để đánh giá kết quả thực nghiệm trên 2 tập dữ liệu:
Tập dữ liệu data1 là 10% data xây dựng được như đã mô tả phía trên.
Tập dữ liệu data2 gồm 200 bài viết được thu thập và tóm tắt thủ công trong đề tài của Phòng thí nghiệm Công
nghệ tri thức, Đại học Công nghệ, ĐHQG Hà Nội 5.
D. Kết quả thực nghiệm
Các tác giả [7] và [10] thực nghiệm trên tập dữ liệu tiếng Anh DUC-200467. Phương pháp centroid-based
giúp xây dựng tóm tắt đạt độ chính xác ROUGE-1 và ROUGE-2 trung bình lần lượt khoảng 0,388 và 0,099 với
trọng số TF-IDF là 0,3. Phương pháp sử dụng GRU-RNN 2 chiều đạt độ chính xác ROUGE-1 và ROUGE-2 và
ROUGE-L lần lượt là 0,466, 0,231 và 0,430. Kết quả của các phương pháp khi thực nghiệm trên tập dữ liệu tiếng
Việt được trình bày ở Bảng 3 và 4.
Bảng 3. Đánh giá độ chính xác của phương pháp centroid-based
Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L
Tập data 1
Precision 0,416 0,146 0,261
Recall 0,687 0,251 0,441
F-score 0,505 0,179 0,320
Tập data 2
Precision 0,743 0,461 0,636
Recall 0,739 0,447 0,634
F-score 0,741 0,454 0,635
Bảng 4. Đánh giá độ chính xác của phương pháp sử dụng mô hình GRU-RNN 2 chiều
Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L
Tập data 1
Precision 0,815 0,374 0,612
Recall 0,323 0,138 0,239
F-score 0,440 0,192 0,326
5
https://github.com/lupanh/VietnameseMDS
6
http://duc.nist.go
- 474 THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT
Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L
Tập data 2
Precision 0,520 0,344 0,376
Recall 0,873 0,587 0,645
F-score 0,629 0,418 0,458
Trong phương pháp GRU-RNN 2 chiều, chúng tôi sử dụng 80% dữ liệu cho huấn luyện, 10% dữ liệu cho
kiểm tra và 10% dữ liệu cho xác thực. Thư viện Pytorch8 được dùng để áp dụng mô hình GRU-RNN 2 chiều cho
việc tóm tắt rút trích. Dữ liệu được đưa vào mô hình huấn luyện và được tinh chỉnh tham số nhằm tăng tốc độ tính
toán như sau:
Giới hạn số câu trong mỗi tài liệu là 100 câu, mỗi câu tối đa là 50 từ.
Sử dụng kích cở trạng thái ẩn (hidden state) là 200 cho mô hình huấn luyện và tham số batch_size là 64 trong
quá trình huấn luyện.
Sau khi huấn luyện, tập dữ liệu kiểm tra được sử dụng để kiểm tra mô hình.
Một ví dụ xây dựng tóm tắt khác sử dụng phương pháp GRU-RNN 2 chiều trên văn bản cần tóm tắt có nội
dung:
“Quang Liêm cùng bạn gái và bố mẹ chụp hình lưu niệm tại lễ tổng kết. Giải cờ vua quốc tế Quang Liêm
xếp sau người vô địch là Trường Sơn khi có cùng bảy điểm nhưng thua đối đầu. Quang Liêm bắt tay chúc mừng
chức vô địch của Trường Sơn. Kỳ thủ Thảo Nguyên bạn gái của Trường Sơn luôn sát cánh bên anh mỗi giải đấu.
Cả hai luôn gắn bó với nhau như hình với bóng. Trường Sơn cho biết chính Thảo Nguyên là động lực giúp anh có
được chức vô địch này. Kỳ thủ người Uzbekistan Muminova Nafisa vô địch nữ với 55 điểm. Các vận động viên
đoạt giải cao trong khoảnh khắc nhận giải thưởng”.
Mô hình GRU-RNN 2 chiều tạo ra bản tóm tắt rút trích có nội dung như sau:
“Quang Liêm cùng bạn gái và bố mẹ chụp hình lưu niệm tại lễ tổng kết. Giải cờ vua quốc tế Quang Liêm
xếp sau người vô địch là Trường Sơn khi có cùng bảy điểm nhưng thua đối đầu. Quang Liêm bắt tay chúc mừng
chức vô địch của Trường Sơn”.
VI. KẾT LUẬN
Xây dựng tóm tắt rút trích cho văn bản bằng phương pháp centroid-based và mô hình GRU-RNN 2 chiều
đem lại kết quả khả quan trên tiếng Việt. Tuy nhiên, kết quả vẫn chưa đạt như kỳ vọng do sự ảnh hưởng của bộ từ
vựng vẫn còn hạn chế và dữ liệu xây dựng được chưa được gán nhãn nên phải gán nhãn tự động. Để cải thiện kết
quả tóm tắt, cần xây dựng một tập đầu vào word embedding với số lượng từ càng nhiều càng tốt và đảm bảo độ
chính xác trong mối liên hệ giữa các từ, lựa chọn một phương pháp gán nhãn phù hơn phương pháp ROUGE hiện
đang được sử dụng. Có thể thấy, việc chuẩn hóa dữ liệu ở giai đoạn chuẩn bị dữ liệu cũng cần thực hiện hoàn chỉnh
hơn. Các câu ở nội dung văn bản cần tóm tắt trong phần Ví dụ 1 chưa được xử lý tốt, dẫn đến kết quả xây dựng tóm
tắt cũng bị ảnh hưởng theo.
TÀI LIỆU THAM KHẢO
[1] Steinberger, Josef, and Karel Ježek, "Evaluation measures for text summarization," Computing and Informatics,
vol. 28, no. 2, pp. 251-275, 2012.
[2] Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K., "Text
summarization techniques: a brief survey," arXiv preprint arXiv:1707.02268., 2017.
[3] Erkan, Günes, and Dragomir R. Radev., "Lexrank: Graph-based lexical centrality as salience in text
summarization.," Journal of artificial intelligence research, pp. 457-479, 22 (2004).
[4] Trương Quốc Định và Nguyễn Quang Dũng, "Một giải pháp tóm tắt văn bản tiếng Việt tự động," in Hội thảo quốc
gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hà Nội, 2012.
[5] Nenkova, Ani, and Lucy Vanderwende, "The impact of frequency on summarization," Microsoft Research,
Redmond, Washington, Tech. Rep. MSR-TR-2005 101, 2005.
[6] Tạ Nguyễn, Vũ Đức Lung, "Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học tiếng việt dựa
trên cấu trúc," Tạp chí Khoa học và Công nghệ 52 (3) (2014) , pp. 269-280, 2014.
[7] Gaetano Rossiello, Pierpaolo Basile, Giovanni Semeraro, "Centroid-based Text Summarization through
8
https://pytorch.org/
- Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 475
Compositionality of Word Embeddings," 3 4 2017.
[8] Cao, Z., Li, W., Li, S., Wei, F., & Li, Y., "Attsum: Joint learning of focusing and summarization with neural
attention," arXiv preprint arXiv:1604.00125, 2016.
[9] Yin, Wenpeng, and Yulong Pei, "Optimizing Sentence Modeling and Selection for Document Summarization," in
IJCAI , 2015.
[10] Nallapati, Ramesh, Feifei Zhai, and Bowen Zhou, "SummaRuNNer: A Recurrent Neural Network Based
Sequence Model for Extractive Summarization of Documents," 2017.
[11] Bengio, Y., Ducharme, R., Vincent, P. and Jauvin, C., "A neural probabilistic language model," Journal of
machine learning research, pp. 1137-1155, 2003.
[12] Mikolov, Tomas, et al., Efficient estimation of word representations in vector space, 2013.
[13] Radev, Dragomir R., Hongyan Jing, Małgorzata Styś, and Daniel Tam, "Centroid-based summarization of
multiple documents," Information Processing & Management, 40(6), pp. 919-938, 2004.
[14] Ramos, Juan., "Using tf-idf to determine word relevance in document queries," Proceedings of the first
instructional conference on machine learning. Vol. 242, 2003.
[15] C. Y. Lin, "Rouge: A package for automatic evaluation of summaries," 2004.
[16] Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu, "BLEU: a method for automatic evaluation of
machine translation," in Proceedings of the 40th annual meeting on association for computational linguistics,
2002.
EXPERIMENTS ON GENERATING TEXT SUMMARIZATION USING EXTRACTIVE
METHODS
Lam Nhut Khang, Phan Chi Khang, Tran Bao Ngoc
ABSTRACT: Text summarization is a growing topic in the field of natural language processing. The production of text summaries
is a shortened or greatly condensed version of input text that highlights its central ideas. This paper presents experiments on
generating text summarization using extractive methods on Vietnamese articles. We construct a corpus containing 150.000
Vietnamese articles extracted from online magazines. This corpus is used to create word embeddings and to train models. The
centroid-based and bidirectional GRU-RNN models are used to generate summaries.
nguon tai.lieu . vn