Xem mẫu

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00060 THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc Khoa Công nghệ Thông tin và Truyền Thông Trường Đại học Cần Thơ lnkhang@ctu.edu.vn, phanchikhang7@gmail.com, baongocst96@gmail.com TÓM TẮT: Tóm tắt văn bản là một bài toán rất được quan tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm tắt văn bản thường ngắn hơn văn bản ban đầu, súc tích, nhưng vẫn giữ nguyên ý chính. Bài báo này trình bày thực nghiệm các phương pháp tóm tắt rút trích trên các văn bản tiếng Việt. Chúng tôi xây dựng tập dữ liệu gồm 150.000 bài báo được rút trích từ các trang báo mạng phổ biến ở Việt Nam. Tập dữ liệu này được dùng để đào tạo bộ từ vựng cho tiếng Việt và là tập dữ liệu mẫu dùng trong bài toán tóm tắt văn bản. Phương pháp centroid-based và mô hình GRU-RNN 2 chiều được áp dụng để xây dựng tóm tắt rút trích. Từ khóa: Tóm tắt rút trích, nhúng từ, centroid-based, GRU-RNN. I. GIỚI THIỆU Josef Steinberger và Karel Ježek [1] định nghĩa tóm tắt văn bản tự động là “quá trình nhận vào một văn bản gốc và trình bày lại các nội dung cốt lõi của văn bản gốc tùy theo nhu cầu của người dùng,.. .Đầu tiên văn bản gốc sẽ được đọc và xác định nội dung. Sau đó, các ý chính của văn bản gốc được trích xuất và trình bày ngắn gọn trong một bản tóm tắt,…”. Bài toán tóm tắt văn bản được nghiên cứu tập trung vào hai hướng chính [2]: tóm tắt rút trích (extraction summarization) và tóm tắt tóm lược (abstraction summarization). Phương pháp tóm tắt rút trích là phương pháp tạo ra văn bản tóm tắt bằng cách chọn câu hoặc đoạn văn “nổi bật” từ tài liệu gốc. Tóm tắt tóm lược xây dựng một biểu diễn ngữ nghĩa các từ bên trong văn bản gốc và sử dụng kỹ thuật khác nhau để tạ o ra một bản tóm tắt gần gũi với những gì con người có thể tạo ra. Văn bản tóm tắt được tạo ra bởi phương pháp tóm lược có thể chứa các từ không có trong văn bản gốc. Tóm tắt rút trích có những ưu điểm nổi bật như ít phức tạp hơn, ít tốn kém hơn, bản tóm tắt đúng ngữ pháp và ngữ nghĩa. Có nhiều phương pháp trích xuất câu khác nhau để xây dựng tóm tắt. Các nghiên cứu tóm tắt rút trích có thể kể đến như sử dụng đồ thị biểu diễn câu trong văn bản gốc [3] và [4], dựa trên tần số xuất hiện của từ [5], tính điểm quan trọng của câu trong văn bản gốc bằng cách sử dụng trọng số T F-IDF [6] và [7]. Gần đây, có sự đột phá lớn trong việc áp dụng các mạng nơron trong lĩnh vực xử lý ngôn ngữ tự nhiên, bao gồm cả tóm tắt văn bản. Một số nghiên cứu tóm tắt rút trích sử dụng mạng nơron có thể kể đến như sử dụng mạng CNN (convolutional neural network) [8], kết hợp mô hình DivSelect và mô hình CNNLM (được xây dựng bằng cách cải tiến mô hình NNLM - neural network language model- dựa trên mạng CNN [9], mô hình mã hóa - giải mã (encoder - decoder) dựa trên mạng hồi quy tập trung [10]. Trong bài báo này, chúng tôi tìm hiểu một số phương pháp rút trích nổi bật hiện có và tiến hành thực nghiệm trên tập dữ liệu là văn bản tiếng Việt được thu thập từ các bài báo trực tuyến. II. CHUẨN BỊ DỮ LIỆU Thực hiện tóm tắt văn bản theo hướng rút trích trải qua nhiều công đoạn. Phần tiếp theo của bày báo trình bày chi tiết các bước chuẩn bị dữ liệu cho việc xây dựng văn bản tóm tắt ở tiếng Việt: tiền xử lý dữ liệu và đào tạo bộ từ vựng. A. Tiền xử lý dữ liệu Tiền xử lý dữ liệu là bước đầu tiên trong quá trình xây dựng tóm tắt văn bản. Tiền xử lý dữ liệu thực chất là làm sạch dữ liệu trước khi đưa vào mô hình huấn luyện, làm sạch dữ liệu giúp cho tóm tắt chính xác và đạt hiệu quả cao hơn. Đầu tiên là phát hiện ranh giới câu trong đoạn văn bản, điều này giúp ích cho việc phân tách câu, vì mô hình tóm tắt sẽ tính toán, đánh giá từng câu để xem xét xem câu có liên quan đến bản tóm tắt hay không. Bộ công cụ NLTK1 được sử dụng cho việc tách câu. Tiếp đến là tách câu thành các từ để sử dụng chúng vào quá trình đào tạo bộ từ vựng tiếng Việt. Công cụ Underthesea2 được sử dụng cho việc tách từ. Bước cuối cùng trong quá trình tiền xử lý dữ liệu là loại bỏ các ký tự đặc biệt trong văn bản, cũng như là loại bỏ stopword. Các ký tự đặc biệt thường gặp là: !*&^%$()-#@,.’;=-?/+{}[]. Danh sách các stopword trong tiếng Việt được sử dụng gồm 1.942 từ được đề xuất bởi Lê Văn Duyệt 3. 1 https://www.nltk.org/ 2 https://github.com/undertheseanlp 3 https://github.com/stopwords/vietnamese-stopwords
  2. Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 469 B. Xây dựng word embedding Word embedding, còn gọi là “nhúng từ”, là một kỹ thuật biểu diễn các từ trong văn bản, được giới thiệu lần đầu bởi Bengio và các cộng sự vào năm 2003 [11]. Hai phương pháp nổi tiếng được sử dụng để đào tạo word embedding là Word2vec [12] và Glove4. Word2vec gồm 2 mô hình là CBOW (Continuous Bag of Word) dùng để dự đoán một từ dựa vào các từ lân cận và Skipgram dùng để dự đoán ngữ cảnh xung quanh từ. Trong phạm vi nghiên cứu, cả 3 phương pháp Word2vec - CBOW, Word2vec - Skipgram và Glove đều được sử dụng để xây dựng word embedding trên tập dữ liệu tiếng Việt thu thập được. Kết quả của giai đoạn đào tạo này là các embedding của các từ vựng w. III. PHƯƠNG PHÁP CENTROID-BASED Xây dựng tóm tắt rút trích cho văn bản dựa trên centroid-based được đề xuất bởi Gaetano Rosiello và các cộng sự [7], [13]. Các tóm tắt được xây dựng qua các bước: tìm các từ trọng tâm trong văn bản, biễu diễn các câu của văn bản trong một không gian vector, tính điểm cho các câu dựa trên khoảng cách của câu đến các từ trọng tâm , các câu gần với các từ trọng tâm sẽ được chọn để đưa vào văn bản tóm tắt. Để tiện theo dõi, chúng tôi thực nghiệm phương pháp này để xây dựng tóm tắt cho văn bản sau: Bằng Kiều đã làm thỏa mãn những người yêu mến giọng ca của anh bằng một đêm nhạc ấn tượng. Xuyên suốt liveshow, khán giả một lần nữa được thưởng thức lại các ca khúc hay nhất của anh từ những ngày đầu ca hát cho đến hôm nay. Hàng loạt những ca khúc hit của Bằng Kiều được chọn thể hiện. Hát live liên tục hơn 20 ca khúc nhưng với chất giọng cao và truyền cảm, Bằng Kiều đã không làm người nghe thất vọng. Ba vị khách mời Trọng Tấn, Thu Minh và Hồ Quỳnh Hương là phần quà đặc biệt mà Bằng Kiều dành cho khán giả. Bằng Kiều và Hồ Quỳnh Hương bay bổng với "Dẫu có lỗi lầm" Kết hợp cùng Thu Minh. Phần kết hợp gây ấn tượng nhất trong đêm có lẽ là tiết mục của Bằng Kiều và nam ca sĩ Trọng Tấn. Cả hai đã khiến khán giả có những giây phút đắm chìm trong âm nhạc đích thực qua ca khúc O sole mio - một ca khúc nhạc cổ điển, Trọng Tấn hát tiếng Anh còn Bằng Kiều thể hiện bằng tiếng Việt. Màn kết hợp tuyệt với đã giành được những tràng pháo tay không ngớt từ phía khán giả. Màn kết hợp lần đầu tiên giữa Trọng Tấn và Bằng Kiều đã để lại tiếng vang lớn. Sự hòa hợp của hai giọng ca đã đem lại cho khán giả những giây phút thăng hoa cùng âm nhạc Clip Bằng Kiều và Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai khách mời nữ của đêm nhạc là Thu Minh và Hồ Quỳnh Hương cũng cống hiến cho khán giả những ca khúc hit quen thuộc của mình như Thu Minh với Yêu mình anh và Bay, Hồ Quỳnh Hương với Anh và Tình yêu mãi mãi. Hồ Quỳnh Hương Thu Minh Thêm một số hình ảnh trong đêm diễn tối qua: Bằng Kiều quay trở lại sân khấu với trang phục khác Ca sĩ Trọng Tấn có vẻ lột xác sau khi từ bỏ Học viện Âm nhạc Quốc gia Để khán giả có nhưng giây phút thật sảng khoái trong lúc nghỉ giải lao, Bằng Kiều đã cho phát clip hài của anh Clip nói về chuyện bán vé liveshow Bằng Kiều với "Chị tôi" Bằng Kiều và Hồ Quỳnh Hương. 3 vị khách mời cùng nhân vật chính đều xuất hiện ở sân khấu "Hơi thở mùa xuân" là ca khúc được chọn để kết thúc chương trình Bằng Kiều đã có một đêm liveshow thành công rực rỡ Bằng Kiều trong vòng vây của fan khi chương trình vừa kết thúc. Ví dụ 1: Ví dụ nội dung văn bản cần tóm tắt A. Chọn ra các từ trọng tâm của văn bản Để đánh giá mức độ quan trọng của từ trong văn bản cần tóm tắt, phương pháp TF-IDF [14] được sử dụng. Các từ có trọng số TF-IDF lớn hơn ngưỡng α sẽ được chấp nhận như là các từ trọng tâm trong văn bản đó, ký hiệu cw. Centroid của văn bản cần tóm tắt ở Ví dụ 1 là “Kiều” và “ca khúc”. B. Xây dựng centroid embedding Centroid embedding C của văn bản cần tóm tắt D là tổng các embedding của các từ trọng tâm cw được xác định ở bước A. Embedding của cw ký hiệu là E(cw). ∑ C. Xây dựng sentence embedding Văn bản cần tóm tắt D gồm nhiều câu Sj. Tương tự như xây dựng centroid embedding, embedding của câu Sj là E(Sj) được tính bằng tổng các embedding của các từ w trong câu. ∑ 4 https://nlp.stanford.edu/projects/glove/
  3. 470 THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT D. Tính điểm cho câu Điểm của câu Sj được tính bằng khoảng cách cosine (cosine similarity score) giữa embedding của câu Sj với centroid embedding C trong văn bản cần tóm tắt D. Nói cách khác, điểm của câu Sj chính là khoảng cách cosine giữa Sj và C. ( ) ( ) ( ( ) ) ‖ ( )‖ ‖ ‖ Bảng 1 trình bày một số câu trong nội dung văn bản cần tóm tắt ở Ví dụ 1 đã được tính điểm dựa vào mối quan hệ của các từ trong câu với các từ trọng tâm. Các câu được sắp xếp theo thứ tự giảm dần dựa vào điểm câu. Cột “STT câu” ở Bảng 1 là số thứ tự của câu trong nội dung văn bản ban đầu. Bảng 1: Ví dụ các câu đã được tính điểm và xếp hạng STT Nội dung câu Điểm câu 2 Hàng loạt những ca khúc hit của Bằng Kiều được chọn thể hiện Hát live liên tục hơn 20 ca khúc 0,9228 nhưng với chất giọng cao và truyền cảm, Bằng Kiều đã không làm người nghe thất vọng. 7 Màn kết hợp lần đầu tiên giữa Trọng Tấn và Bằng Kiều đã để lại tiếng vang lớn Sự hòa hợp của 0,8951 hai giọng ca đã đem lại cho khán giả những giây phút thăng hoa cùng âm nhạc Clip Bằng Kiều và Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai khách mời nữ của đêm nhạc là Thu Minh và Hồ Quỳnh Hương cũng cống hiến cho khán giả những ca khúc hit quen thuộc của mình như Thu Minh với Yêu mình anh và Bay, Hồ Quỳnh Hương với Anh và Tình yêu mãi mãi. 5 Cả hai đã khiến khán giả có những giây phút đắm chìm trong âm nhạc đích thực qua ca khúc O 0,8714 sole mio - một ca khúc nhạc cổ điển, Trọng Tấn hát tiếng Anh còn Bằng Kiều thể hiện bằng tiếng Việt. 4 Bằng Kiều và Hồ Quỳnh Hương bay bổng với "Dẫu có lỗi lầm" Kết hợp cùng Thu Minh Phần 0,8648 kết hợp gây ấn tượng nhất trong đêm có lẽ là tiết mục của Bằng Kiều và nam ca sĩ Trọng Tấn. 0 Bằng Kiều đã làm thỏa mãn những người yêu mến giọng ca của anh bằng một đêm nhạc ấn 0,8640 tượng. E. Chọn câu phù hợp Các câu được sắp xếp theo thứ tự dựa trên giá trị điểm của câu theo chiều giảm dần. Câu có điểm cao nhất sẽ được đưa vào văn bản tóm tắt. Các câu có điểm cao kế tiếp sẽ được lần lượt thêm vào văn bản tóm tắt cho đến khi đạt đến giới hạn câu. Tuy nhiên, để đảm bảo các câu không bị trùng lắp ý, trước khi thực hiện thêm câu vào văn bản tóm tắt, tác giả thực hiện tính độ tương đồng cosine similarity giữa câu chuẩn bị thêm vào văn bản tóm tắt với các câu đã được thêm vào văn bản tóm tắt trước đó, nếu độ tương đồng lớn hơn µ, câu sẽ không được thêm vào văn bản tóm tắt. Sau khi tính điểm và sắp xếp câu theo thứ tự điểm, các câu phù hợp được chọn đưa vào tóm tắt sẽ được sắp xếp lại theo thứ tự tăng dần của “STT câu” trong văn bản ban đầu và xuất ra bản tóm tắt. Nội dung của bản tóm tắt cho văn bản ở Ví dụ 1 với giới hạn 100 từ là: Hàng loạt những ca khúc hit của Bằng Kiều được chọn thể hiện Hát live liên tục hơn 20 ca khúc nhưng với chất giọng cao và truyền cảm, Bằng Kiều đã không làm người nghe thất vọng. Màn kết hợp lần đầu tiên giữa Trọng Tấn và Bằng Kiều đã để lại tiếng vang lớn Sự hòa hợp của hai giọng ca đã đem lại cho khán giả những giây phút thăng hoa cùng âm nhạc Clip Bằng Kiều và Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai khách mời nữ của đêm nhạc là Thu Minh và Hồ Quỳnh Hương cũng cống hiến cho khán giả những ca khúc hit quen thuộc của mình như Thu Minh với Yêu mình anh và Bay, Hồ Quỳnh Hương với Anh và Tình yêu mãi mãi. IV. PHƯƠNG PHÁP SỬ DỤNG MÔ HÌNH GRU-RNN 2 CHIỀU Phương pháp xây dựng tóm tắt rút trích cho văn bản sử dụng mô hình GRU-RNN 2 chiều được đề xuất bởi Nallapati và các cộng sự [10], còn được gọi là phương pháp SummaRuNNer. Quá trình xây dựng tóm tắt cho văn bản được thực hiện gồm 2 bước: tạo nhãn cho câu và áp dụng mô hình. A. Tạo nhãn cho câu Mô hình tóm tắt này dựa trên mô hình phân loại chuỗi, nên việc gán nhãn cho các câu trong văn bản cần tóm tắt là cần thiết. Các tóm tắt trong cặp tóm tắt R - văn bản D của tập dữ liệu ban đầu là do con người thực hiện và các tóm tắt này thường là tóm tắt tóm lược. Các câu trong văn bản cần tóm tắt D cần được gán nhãn 0 hoặc 1. Nếu câu Sj được gán nhãn 0 nghĩa là Sj không liên quan hoặc liên quan rất ít đến tóm tắt R; ngược lại, nếu Sj được gán nhãn 1
  4. Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 471 nghĩa là Sj có liên quan đến tóm tắt R. Để thực hiện gán nhãn cho câu, kỹ thuật tham lam (Greedy) và phương pháp đánh giá ROUGE [15] được sử dụng, cụ thể là ROUGE-2. Quá trình gán nhãn cho các câu trong văn bản D được thực hiện như sau: Tách văn bản D thành các câu Sj và tiếp tục tách các câu này thành các từ w. Với mỗi câu Sj, phương pháp đánh giá ROUGE được sử dụng để tính điểm dựa trên sự trùng lắp của từ trong câu Sj so với R. Câu có điểm đánh giá ROUGE lớn nhất sẽ được gán nhãn 1, các câu còn lại gán nhãn 0. Với mỗi câu có nhãn 0, ký hiệu Sk, tiếp cận tham lam được sử dụng bằng cách lần lượt thêm từng câu Sk vào tập các câu đã được gán nhãn 1, tại mỗi bước trước khi thêm câu Sk sẽ phải thực hiện lại đánh giá ROUGE cho các câu đã được gán nhãn 1 và câu được thêm vào Sk so với R; nếu điểm đánh giá ROUGE cải thiện thì gán nhãn cho câu Sk là 1. Quá trình gán nhãn cho câu kết thúc khi không còn câu nào thêm vào cải thiện điểm số ROUGE và số lượng câu gán nhãn 1 lớn hơn số lượng câu trong tóm tắt tóm lược. B. Sử dụng mô hình GRU-RNN 2 chiều để xây dựng tóm tắt Các câu trong văn bản được truy cập theo đúng trình tự trong D và quyết định nhị phân được đưa ra về việc có nên đưa câu vào tóm tắt hay không. Quyết định nhị phân là 0 nghĩa là câu không đưa vào trong bản tóm tắt và ngược lại quyết định nhị phân là 1 nghĩa là câu được đưa vào tóm tắt. Mô hình GRU -RNN được áp dụng là mô hình 2 tầng 2 chiều hoạt động như sau: Tầng đầu tiên: gồm một RNN chạy ở cấp độ từ theo chiều từ từ đầu tiên đến từ cuối cùng (forward), tính toán các biểu diễn trạng thái ẩn tại mỗi vị trí từ dựa trên từ hiện tại và trạng thái ẩn trước đó. Một RNN khác được sử dụng ở cấp độ từ chạy theo chiều ngược lại từ từ cuối cùng đến từ đầu tiên (backward). Cặp RNN foward và RNN backward được xem như là RNN hai chiều (bidirectional). Một điều cần lưu ý là RNN forward và RNN backward chạy song song cùng lúc tại mỗi thời điểm đang xét. Tầng thứ hai: cũng là một RNN hai chiều nhưng chạy ở mức câu. Các input của RNN 2 chiều mức câu là các kết nối (concatenate) trạng thái ẩn của RNN 2 chiều mức từ. Các trạng thái ẩn RNN 2 chiều mức câu sẽ mã hóa các biểu diễn câu trong tài liệu. Cụ thể hơn ta xét tại thời điểm t, tức là văn bản D tại vị trí t. Tài liệu gồm nhiều câu được biểu diễn như: S1, S2, S3…Sj…. Tại vị trí câu Sj, câu trước và sau của câu Sj lần lượt là Sj-1 và Sj+1. Khi được được áp dụng vào mô hình sẽ chạy mức độ từ và mức độ câu. Tức là tại câu Sj, thực hiện tách câu thành các từ: w1, w2, w3, ….wk.... Khi chạy cấp độ từ áp dụng mô hình GRU-RNN 2 chiều, ta được hai trạng thái ẩn (bộ nhớ của mạng) hf (forward) và hb (backward). Sau khi chạy cấp độ từ, thì cấp độ câu cũng tương tự, đầu vào ở cấp độ câu là trạng thái ẩn của cấp độ từ. Tương tự ta sẽ được trạng thái ẩn hf và hb của cấp độ câu. Bộ biểu diễn toàn bộ văn bản cần tóm tắt, được tính dựa trên công thức. ( ∑[ ] ) Trong đó, là các trạng thái ẩn tương ứng với câu thứ j của RNN 2 chiều mức độ câu tiến và lùi tương ứng. là số câu trong tài liệu và biểu diễn vector nối của 2 vector trạng thái ẩn và . Giá trị nhị phân yj cho biết câu Sj có phải là một phần của tóm tắt hay không, hj là biểu diễn của câu được tạo ra bởi phép biến đổi phi tuyến tính các trạng thái ẩn nối tiếp nhau ở bước j của RNN 2 chiều mức câu, biểu diễn của tóm tắt tại vị trí câu Sj được tính theo công thức: ∑ Việc đưa ra quyết định về việc câu có được đưa vào văn bản tóm tắt hay không phụ thuộc vào nhiều yếu tố và được thực hiện như sau: ( | Trong đó: , đại diện nội dung thông tin của câu Sj; , biểu thị tính nổi bật của câu; ( ), biểu hiện sự dư thừa của câu đối với tài liệu tóm tắt; và , thể hiện tầm quan trọng của vị trí tuyệt đối và tương đối của câu liên quan đến văn bản.
  5. 472 THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT Kết quả tóm tắt mô hình xây dựng được khi tóm tắt văn bản Ví dụ 1 như dưới đây. Bằng Kiều và Hồ Quỳnh Hương bay bổng với "Dẫu có lỗi lầm" Kết hợp cùng Thu Minh Phần kết hợp gây ấn tượng nhất trong đêm có lẽ là tiết mục của Bằng Kiều và nam ca sĩ Trọng Tấn. Màn kết hợp lần đầu tiên giữa Trọng Tấn và Bằng Kiều đã để lại tiếng vang lớn Sự hòa hợp của hai giọng ca đã đem lại cho khán giả những giây phút thăng hoa cùng âm nhạc Clip Bằng Kiều và Trọng Tấn ngẫu hứng hát ca khúc "Bài ca xây dựng" Hai khách mời nữ của đêm nhạc là Thu Minh và Hồ Quỳnh Hương cũng cống hiến cho khán giả những ca khúc hit quen thuộc của mình như Thu Minh với Yêu mình anh và Bay, Hồ Quỳnh Hương với Anh và Tình yêu mãi mãi. 3 vị khách mời cùng nhân vật chính đều xuất hiện ở sân khấu "Hơi thở mùa xuân" là ca khúc được chọn để kết thúc chương trình Bằng Kiều đã có một đêm liveshow thành công rực rỡ Bằng Kiều trong vòng vây của fan khi chương trình vừa kết thúc. V. THỰC NGHIỆM A. Xây dựng tập dữ liệu Để thực nghiệm, chúng tôi đã xây dựng tập dữ liệu gồm hơn 150.000 bài báo khác nhau được thu thập từ các trang báo mạng phổ biến của Việt Nam. Các bài báo này ở nhiều lĩnh vực: khoa học, công nghệ, giáo dục, du lịch, thể thao, tạp chí thời trang, giải trí, kinh doanh. Tập dữ liệu gồm 6 cột: title - tiêu đề của bài viết, link - đường dẫn liên kết của bài viết, time - thời gian đăng bài, content - toàn bộ nội dung bài viết, summary - tóm tắt bài viết, author - tác giả bài viết. Để phục vụ cho nghiên cứu này, chỉ 2 cột chính là “content” và “summary” được sử dụng, Hình 1. Hình 1. Dữ liệu thu thập từ trang báo mạng phổ biến B. Xây dựng word embedding Phương pháp Word2vec CBOW, Word2vec Skipgram và Glove đều được sử dụng để xây dựng word embedding trên tập dữ liệu các bài báo tiếng Việt thu thập được. Sau khi đào tạo word embedding, chúng tôi tiến hành kiểm tra đánh giá mối quan hệ giữa các từ ở mỗi phương pháp. Bảng 1 trình bày một số từ gần với từ “giọng hát”, “con cái” và “tình yêu” sau quá trình đào tạo word embedding. Bảng 2. Ví dụ kết quả đào tạo word embedding Word2Vec - CBOW Word2Vec - Skipgram Glove “Giọng hát” Từ Sim Từ Sim Từ Sim chinh phục 0,881 bolero 0,827 vđv 0,992 bolero 0,864 nội lực 0,813 nhí 0,992 nhảy 0,859 nhí 0,813 tìm kiếm 0,992 nhí 0,859 truyền cảm 0,809 truyền hình 0,989 manga 0,853 thính phòng 0,799 quyết 0,987 nhạc phẩm 0,853 nhạc phẩm 0,787 Carolina 0,981 “Con cái” suy nghĩ 0,955 chăm lo 0,96 khỏe 0,988 đuổi kịp 0,946 nghèo khó 0,899 cân bằng 0,982 tan vỡ 0,943 bất hạnh 0,887 tình dục 0,982 sinh hoạt 0,943 thấu hiểu 0,881 nghĩa là 0,981
  6. Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 473 Word2Vec - CBOW Word2Vec - Skipgram Glove “Giọng hát” Từ Sim Từ Sim Từ Sim “Tình yêu” tình cảm 0,954 tình bạn 0,816 thân thiết 0,989 cuộc đời 0,947 tình cảm 0,792 cảm xúc 0,988 yêu 0,946 ký ức 0,971 cuộc đời 0,988 hạnh phúc 0,928 tuổi thơ 0,788 tình cảm 0,983 cảm xúc 0,921 cảm động 0,784 ngoại giao 0,983 câu chuyện 0,921 bình yên 0,784 chàng 0,981 vui 0,914 mối tình 0,783 hạnh phúc 0,981 Kết quả thực nghiệm cho thấy mô hình Word2Vec cho kết quả tốt hơn so với mô hình Glove đối với tập dữ liệu tiếng Việt đang dùng. Đặc biệt là Word2vec - Skipgram cho kết quả rất đáng mong đợi. Do đó, mô hình Word2Vec-Skipgram đươc sử dụng để đào tạo word embedding với số chiều là 100 và số lần xuất hiện của từ ít nhất là 4. Kết quả thu được là bộ dữ liệu gồm 200.000 từ vựng. C. Phương pháp đánh giá Để đánh giá các phương pháp tóm tắt văn bản, chúng ta có thể đánh giá thủ công hoặc đánh giá tự động. Đánh giá thủ công do chuyên gia thực hiện, đánh giá trên kết quả với những tiêu chí nhất định để đưa ra kết quả cụ thể. Đánh giá tự động, dùng những thuật toán để đánh giá kết quả một cách tự động, bằng việc so sánh kết quả tạo ra với các kết quả tóm tắt sẵn có của dữ liệu, phương pháp tự động được sử dụng phổ biến hiện nay là ROUGE và BLEU [16]. So với việc đánh giá thủ công, đánh giá tự động còn nhiều hạn chế do tính phức tạp của ngôn ngữ tự nhiên, rất khó để có thể đánh giá chính xác bằng thuật toán. Tuy nhiên, việc đánh giá tự động vẫn được lựa chọn nhiều hơn bởi đánh giá thủ công cần tiêu tốn rất nhiều chi phí. Trong phạm vi bài báo này, các phương pháp đánh giá ROUGE-1, ROUGE-2 và ROUGE-L lần lượt được sử dụng để đánh giá kết quả thực nghiệm trên 2 tập dữ liệu: Tập dữ liệu data1 là 10% data xây dựng được như đã mô tả phía trên. Tập dữ liệu data2 gồm 200 bài viết được thu thập và tóm tắt thủ công trong đề tài của Phòng thí nghiệm Công nghệ tri thức, Đại học Công nghệ, ĐHQG Hà Nội 5. D. Kết quả thực nghiệm Các tác giả [7] và [10] thực nghiệm trên tập dữ liệu tiếng Anh DUC-200467. Phương pháp centroid-based giúp xây dựng tóm tắt đạt độ chính xác ROUGE-1 và ROUGE-2 trung bình lần lượt khoảng 0,388 và 0,099 với trọng số TF-IDF là 0,3. Phương pháp sử dụng GRU-RNN 2 chiều đạt độ chính xác ROUGE-1 và ROUGE-2 và ROUGE-L lần lượt là 0,466, 0,231 và 0,430. Kết quả của các phương pháp khi thực nghiệm trên tập dữ liệu tiếng Việt được trình bày ở Bảng 3 và 4. Bảng 3. Đánh giá độ chính xác của phương pháp centroid-based Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L Tập data 1 Precision 0,416 0,146 0,261 Recall 0,687 0,251 0,441 F-score 0,505 0,179 0,320 Tập data 2 Precision 0,743 0,461 0,636 Recall 0,739 0,447 0,634 F-score 0,741 0,454 0,635 Bảng 4. Đánh giá độ chính xác của phương pháp sử dụng mô hình GRU-RNN 2 chiều Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L Tập data 1 Precision 0,815 0,374 0,612 Recall 0,323 0,138 0,239 F-score 0,440 0,192 0,326 5 https://github.com/lupanh/VietnameseMDS 6 http://duc.nist.go
  7. 474 THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L Tập data 2 Precision 0,520 0,344 0,376 Recall 0,873 0,587 0,645 F-score 0,629 0,418 0,458 Trong phương pháp GRU-RNN 2 chiều, chúng tôi sử dụng 80% dữ liệu cho huấn luyện, 10% dữ liệu cho kiểm tra và 10% dữ liệu cho xác thực. Thư viện Pytorch8 được dùng để áp dụng mô hình GRU-RNN 2 chiều cho việc tóm tắt rút trích. Dữ liệu được đưa vào mô hình huấn luyện và được tinh chỉnh tham số nhằm tăng tốc độ tính toán như sau: Giới hạn số câu trong mỗi tài liệu là 100 câu, mỗi câu tối đa là 50 từ. Sử dụng kích cở trạng thái ẩn (hidden state) là 200 cho mô hình huấn luyện và tham số batch_size là 64 trong quá trình huấn luyện. Sau khi huấn luyện, tập dữ liệu kiểm tra được sử dụng để kiểm tra mô hình. Một ví dụ xây dựng tóm tắt khác sử dụng phương pháp GRU-RNN 2 chiều trên văn bản cần tóm tắt có nội dung: “Quang Liêm cùng bạn gái và bố mẹ chụp hình lưu niệm tại lễ tổng kết. Giải cờ vua quốc tế Quang Liêm xếp sau người vô địch là Trường Sơn khi có cùng bảy điểm nhưng thua đối đầu. Quang Liêm bắt tay chúc mừng chức vô địch của Trường Sơn. Kỳ thủ Thảo Nguyên bạn gái của Trường Sơn luôn sát cánh bên anh mỗi giải đấu. Cả hai luôn gắn bó với nhau như hình với bóng. Trường Sơn cho biết chính Thảo Nguyên là động lực giúp anh có được chức vô địch này. Kỳ thủ người Uzbekistan Muminova Nafisa vô địch nữ với 55 điểm. Các vận động viên đoạt giải cao trong khoảnh khắc nhận giải thưởng”. Mô hình GRU-RNN 2 chiều tạo ra bản tóm tắt rút trích có nội dung như sau: “Quang Liêm cùng bạn gái và bố mẹ chụp hình lưu niệm tại lễ tổng kết. Giải cờ vua quốc tế Quang Liêm xếp sau người vô địch là Trường Sơn khi có cùng bảy điểm nhưng thua đối đầu. Quang Liêm bắt tay chúc mừng chức vô địch của Trường Sơn”. VI. KẾT LUẬN Xây dựng tóm tắt rút trích cho văn bản bằng phương pháp centroid-based và mô hình GRU-RNN 2 chiều đem lại kết quả khả quan trên tiếng Việt. Tuy nhiên, kết quả vẫn chưa đạt như kỳ vọng do sự ảnh hưởng của bộ từ vựng vẫn còn hạn chế và dữ liệu xây dựng được chưa được gán nhãn nên phải gán nhãn tự động. Để cải thiện kết quả tóm tắt, cần xây dựng một tập đầu vào word embedding với số lượng từ càng nhiều càng tốt và đảm bảo độ chính xác trong mối liên hệ giữa các từ, lựa chọn một phương pháp gán nhãn phù hơn phương pháp ROUGE hiện đang được sử dụng. Có thể thấy, việc chuẩn hóa dữ liệu ở giai đoạn chuẩn bị dữ liệu cũng cần thực hiện hoàn chỉnh hơn. Các câu ở nội dung văn bản cần tóm tắt trong phần Ví dụ 1 chưa được xử lý tốt, dẫn đến kết quả xây dựng tóm tắt cũng bị ảnh hưởng theo. TÀI LIỆU THAM KHẢO [1] Steinberger, Josef, and Karel Ježek, "Evaluation measures for text summarization," Computing and Informatics, vol. 28, no. 2, pp. 251-275, 2012. [2] Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K., "Text summarization techniques: a brief survey," arXiv preprint arXiv:1707.02268., 2017. [3] Erkan, Günes, and Dragomir R. Radev., "Lexrank: Graph-based lexical centrality as salience in text summarization.," Journal of artificial intelligence research, pp. 457-479, 22 (2004). [4] Trương Quốc Định và Nguyễn Quang Dũng, "Một giải pháp tóm tắt văn bản tiếng Việt tự động," in Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hà Nội, 2012. [5] Nenkova, Ani, and Lucy Vanderwende, "The impact of frequency on summarization," Microsoft Research, Redmond, Washington, Tech. Rep. MSR-TR-2005 101, 2005. [6] Tạ Nguyễn, Vũ Đức Lung, "Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học tiếng việt dựa trên cấu trúc," Tạp chí Khoa học và Công nghệ 52 (3) (2014) , pp. 269-280, 2014. [7] Gaetano Rossiello, Pierpaolo Basile, Giovanni Semeraro, "Centroid-based Text Summarization through 8 https://pytorch.org/
  8. Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 475 Compositionality of Word Embeddings," 3 4 2017. [8] Cao, Z., Li, W., Li, S., Wei, F., & Li, Y., "Attsum: Joint learning of focusing and summarization with neural attention," arXiv preprint arXiv:1604.00125, 2016. [9] Yin, Wenpeng, and Yulong Pei, "Optimizing Sentence Modeling and Selection for Document Summarization," in IJCAI , 2015. [10] Nallapati, Ramesh, Feifei Zhai, and Bowen Zhou, "SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documents," 2017. [11] Bengio, Y., Ducharme, R., Vincent, P. and Jauvin, C., "A neural probabilistic language model," Journal of machine learning research, pp. 1137-1155, 2003. [12] Mikolov, Tomas, et al., Efficient estimation of word representations in vector space, 2013. [13] Radev, Dragomir R., Hongyan Jing, Małgorzata Styś, and Daniel Tam, "Centroid-based summarization of multiple documents," Information Processing & Management, 40(6), pp. 919-938, 2004. [14] Ramos, Juan., "Using tf-idf to determine word relevance in document queries," Proceedings of the first instructional conference on machine learning. Vol. 242, 2003. [15] C. Y. Lin, "Rouge: A package for automatic evaluation of summaries," 2004. [16] Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu, "BLEU: a method for automatic evaluation of machine translation," in Proceedings of the 40th annual meeting on association for computational linguistics, 2002. EXPERIMENTS ON GENERATING TEXT SUMMARIZATION USING EXTRACTIVE METHODS Lam Nhut Khang, Phan Chi Khang, Tran Bao Ngoc ABSTRACT: Text summarization is a growing topic in the field of natural language processing. The production of text summaries is a shortened or greatly condensed version of input text that highlights its central ideas. This paper presents experiments on generating text summarization using extractive methods on Vietnamese articles. We construct a corpus containing 150.000 Vietnamese articles extracted from online magazines. This corpus is used to create word embeddings and to train models. The centroid-based and bidirectional GRU-RNN models are used to generate summaries.
nguon tai.lieu . vn