Xem mẫu

  1. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc ĐỀ TÀI TỐT NGHIỆP ĐẠI HỌC Họ và tên sinh viên: 1. Nguyễn Văn Thuấn 25/01/1991 TK7.2 2. Trần Quang Vinh 21/06/1990 TK7.2 Ngành đào tạo: Công Nghệ Thông Tin Chuyên ngành: Mạng máy tính và Truyền thông Khóa học: 2009-2013 Tên đề tài: TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU VÀ XÂY DỰNG ỨNG DỤNG MINH HỌA Mục tiêu đề tài: - Tìm hiểu cơ sở lý thuyết của phương pháp tóm tắt văn bản dựa vào trích xuất câu bao gồm: Tổng quan về tóm tắt văn bản, các mô hình tóm tắt, đặc điểm Tiếng Việt, phương pháp sử dụng trong tóm tắt văn bản. - Xây dựng được phần mềm tóm tắt văn bản dựa vào trích xuất các câu quan trọng trong văn bản theo một tỷ lệ nén nhất định. Nội dung cần hoàn thành: 1. Phần thuyết minh: - Cuốn báo cáo Đồ án tốt nghiệp được trình bày theo đúng quy định. Báo cáo được trình bày được ý tưởng và cách giải quyết các bài toán trong quá trình thực hiện đề tài, các phương pháp đánh giá văn bản tóm tắt với các phương pháp tóm tắt khác. - Báo các được trình bày gồm 3 phần: Phần 1: Mở đầu - Lý do chọn đề tài. - Mục đích nghiên cứu. - Nhiệm vụ nghiên cứu. - Phươn pháp nghiên cứu.
  2. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. Phần 2: Nội dung - Tổng quan về tóm tắt văn bản. - Bài toán tóm tắt văn bản tiếng việt. - Ứng dụng phương pháp cấu trúc để tóm tắt văn bản Tiếng Việt. - Xây dựng ứng dụng minh họa. - Thực nghiệm và đánh giá. Phần 3: Kết luận. - Kết quả đạt được. - Những hạn chế của đề tài. - Hướng phát triển của đề tài. 2. Phần thực hành, cài đặt: - Xây dựng phần mềm giải quyết được bài toán trong tóm tắt văn bản áp dụng phương pháp trích xuất câu. - Cài đặt các công cự hỗ trợ tách từ tách câu. - Trích xuất ra được văn bản tóm tắt theo tỉ lệ % tùy chọn với độ chính xác và đáng tin cậy cao. 3. Sản phẩm chính: - Phần mềm Tóm tắt văn bản áp dụng phương pháp trích xuất câu hoàn chỉnh. Dự kiến kính phí: Thời gian thực hiện: Ngày giao:...../...../..........., ngày hoàn thành ....../....../.......... Người hướng dẫn: -Thứ nhất: Nguyễn Thị Thanh Huệ Ký xác nhận:.............................. - Thứ hai:........................................................Ký xác nhận:.............................. Đề tài đã được Hội đồng Khoa học và Đào tạo Khoa thông qua. Hưng Yên, ngày .... tháng .... năm ........ TRƯỞNG KHOA TRƯỞNG BỘ MÔN (Ký, ghi rõ họ và tên) (Ký, ghi rõ họ và tên)
  3. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. MỞ ĐẦU Ngày nay, với sự phát triển như vũ bão của công nghệ thông tin, Internet cũng như các dịch vụ trực tuyến, ngày càng có nhiều thông tin được tạo ra. Ta có thể truy cập các thông tin đó qua sách, báo, Internet và các phương tiện truyền thông. Hơn nữa, nhu cầu đọc, tìm kiếm và lưu trữ thông tin của con người cũng ngày càng tăng lên. Tuy nhiên, với một l ượng lớn thông tin như vậy thì người ta không thể nào có đủ thời gian và sức lực để đọc hết được chúng. Giải pháp là tóm tắt lại các văn bản đó, từ đó giúp tiết kiệm thời gian và công sức nhưng vẫn có thể đọc và xử lý được nhiều văn bản. Tóm tắt văn bản tự động đã bắt đầu được nghiên cứu từ những năm 50 của thế kỉ trước. Đã có nhiều công trình nghiên cứu về lĩnh vực này và có được những kết quả đáng kể. Tóm tắt văn bản đã được sử dụng trong các phần mềm xử lý văn bản (Microsoft Office Word…), trong khai phá cơ sở dữ liệu văn bản (Oracle…), trong các ứng dụng tìm kiếm thông tin trực tuyến (hệ thống tìm kiếm Google, Yahoo…) và đều thu được những kết quả rất đáng khích lệ . Vì vậy, chúng em chọn đề tài: “Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa ” nhằm nghiên cứu những vấn đề tổng quan về xử lý ngôn ngữ tự nhiên và một số phương pháp tóm tắt văn bản. Với sự hướng dẫn của cô Nguyễn Thị Thanh Huệ.
  4. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. LỜI CẢM ƠN Sau một thời gian tìm hiểu và thực hiện đến nay đề tài “TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU VÀ XÂY DỰNG ỨNG DỤNG MINH HỌA” đã hoàn thành. Trong suốt quá trình thực hiện đề tài, chúng em đã nhận được rất nhiều sự giúp đỡ nhiệt tình. Chúng em xin chân thành cảm ơn các thầy các cô đã trang bị những kiến thức quý báu cho chúng em trong suốt quá trình học tập tại trường Đại học Sư phạm Kỹ thuật Hưng Yên. Đặc biệt là các thầy các cô trong khoa Công nghệ thông tinđã tận tình giảng dạy, chỉ bảo, trang bị cho chúng em những kiến thức cần thiết nhất trong suốt quá trình học tập và nghiên cứu tại khoa, đã tạo mọi điều kiện thuận lợi giúp chúng em thực hiện đề tài này. Chúng em xin cảm ơn cô Nguyễn Thị Thanh Huệ đã tận tình hướng dẫn, chỉ bảo chúng em trong suốt thời gian thực hiện đề tài, giúp chúng em có thể hoàn thành đề tài này. Mặc dù đã cố gắng nỗ lực thực hiện đề tài với quyết tâm cao nhưng chắc hẳn đề tài không thể tránh khỏi thiếu sót, kính mong sự đóng góp và hướng dẫn của các thầy cô. Chúng em xin chân thành cảm ơn! Hưng Yên, tháng 08 năm 2013 Nhóm sinh viên thực hiện Nguyễn Văn Thuấn Trần Quang Vinh
  5. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………….. ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… …………………………….. ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… …………………………….. ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… …………………………….. ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… …………………………….
  6. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. ……………………………………………………………………………………… …….. ……………………………………………………………………………………… ………………………………………………… NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN …………………………………………………………………………………….. ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ………………………………………………
  7. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN …………………………………………………………………………………….. ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ……………………………………………………………………………………… ………………………………………………
  8. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. MỤC LỤC DANH MỤC BẢNG BIỂU..........................................................................................13 DANH MỤC BẢNG BIỂU..........................................................................................13 PHẦN 1: MỞ ĐẦU........................................................................................................ 1 PHẦN 1: MỞ ĐẦU........................................................................................................ 1 1. Lý do chọn đề tài......................................................................................................... 1 2. Khách thể và đối tượng nghiên cứu..........................................................................1 3. Giới hạn và phạm vi nghiên cứu............................................................................... 1 4. Mục đích nghiên cứu.................................................................................................. 1 5. Nhiệm vụ nghiên cứu................................................................................................. 2 6. Phương pháp nghiên cứu............................................................................................ 1 7. Ý nghĩa lý luận và thực tiễn của đề tài ..................................................................1 PHẦN 2: NỘI DUNG..................................................................................................... 2 PHẦN 2: NỘI DUNG..................................................................................................... 2 CHƯƠNG 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN............................................2 CHƯƠNG 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN............................................2 0.1. Tổng quan................................................................................................................. 2 1.1.1. Khái niệm. .................................................................................................... 2 1.1.2.Lịch sử phát triển của tóm tắt văn bản .......................................................2 1.1.3.Phân loại các phương pháp tóm tắt văn bản...............................................4 1. Mô hình tóm tắt văn bản ...................................................................................... 6 Hình 1.1 Kiến trúc của hệ thống tóm tắt văn bản tự động ......................................6 1.1.4.Các phương pháp áp dụng trong pha phân tích............................................6 1.1.5. Các phương pháp áp dụng trong pha biến đổi............................................8 1.1.6. Các phương pháp trong pha tổng hợp kết quả ..........................................9 2. Các phương pháp đánh giá......................................................................................... 9 1.1.7. Các phương pháp đánh giá trong ..............................................................10 1.1.8. Các phương pháp đánh giá ngoài...............................................................11 3. Kết luận..................................................................................................................... 12 CHƯƠNG 2 : BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT............................13
  9. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. 4. Một số hướng tiếp cận bài toán tóm tắt văn bản ................................................13 5. Đặc điểm tiếng Việt ................................................................................................ 13 2.1.1.Đặc điểm chung .......................................................................................... 14 2.1.2.Yếu tố ngoại lai trong từ tiếng Việt..........................................................15 2.1.3.Từ dừng........................................................................................................ 15 2.1.4.Từ đồng nghĩa. ............................................................................................ 15 2.1.5. Đặc điểm chính tả .....................................................................................17 6. Phương pháp cho bài toán tóm tắt văn bản tiếng Việt.........................................18 Hình 2.1 Đồ thị liên kết các câu trong văn bản........................................................20 7. Kết luận..................................................................................................................... 20 CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN TIẾNG VIỆT......................................................................................................... 22 CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN BẢN TIẾNG VIỆT......................................................................................................... 22 8. Mô hình tóm tắt sử dụng phương pháp cấu trúc...................................................22 Hình 3.1 Mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc........................22 9. Tiền xử lý văn bản.................................................................................................... 23 10. Xử lý từ.................................................................................................................... 24 11. Xây dựng đồ thị liên kết......................................................................................... 25 Hinh 3.2: Đồ thị liên kết của văn bản input1.txt........................................................28 12. Sinh văn bản tóm tắt.............................................................................................. 28 13. Kết luận................................................................................................................... 34 CHƯƠNG 4: XÂY DỰNG ỨNG DỤNG MINH HỌA............................................35 CHƯƠNG 4: XÂY DỰNG ỨNG DỤNG MINH HỌA............................................35 14. Một số giao diện chính của hệ thống...................................................................35 4.1.1.Giao diện chính của chương trình..............................................................35 Hình 4.1: Giao diện chính của chương trình..............................................................35 4.1.2.Giao diện form quản lý từ điển từ dừng, từ đồng nghĩa.........................35 Hình 4.2: Giao diện quản lý từ dừng..........................................................................35 4.1.3.Giao diện form tách từ, tách câu.................................................................36
  10. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. Hình 4.3: Giao diện tách từ tách câu...........................................................................36 4.1.4.Giao diện form loại từ dừng, từ đồng nghĩa.............................................36 Hình 4.4: Loại bỏ từ dừng, từ đồng nghĩa trong văn bản.........................................36 4.1.5.Giao diện form xây dựng đồ thị liên kết....................................................37 Hình 4.5: Giao diện form xây dựng đồ thị liên kết cho văn bản..............................37 4.1.6.Giao diện form tóm tắt văn bản..................................................................37 Hình 4.6: Giao diện tóm tắt văn bản...........................................................................37 4.1.7.Giao diện form đánh giá độ chính xác........................................................38 Hình 4.7: Đánh giá độ chính xác của văn bản tóm tắt...............................................38 15. Một số module chính của chương trình.................................................................38 4.1.8.Module tóm tắt văn bản............................................................................... 38 4.1.9.Module quản lý từ dừng, từ đồng nghĩa....................................................39 4.1.10.Module đánh giá hệ thống tóm tắt............................................................39 16. Kết luận................................................................................................................... 39 CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ......................................................40 17. Môi trường thử nghiệm. ........................................................................................40 18. Dữ liệu thử nghiệm ............................................................................................... 40 19. Phương pháp đánh giá............................................................................................. 40 Hình 5.1: Tóm tắt văn bản input1.txt bởi con người.................................................42 20. Kết quả thực nghiệm.............................................................................................. 43 5.1.1.Thử nghiệm xác định ngưỡng.....................................................................43 Hình 5.2: Đồ thị hàm điều hòa với các ngưỡng.........................................................44 5.1.2.Đánh giá kết quả thử nghiệm đối với từng phiên bản.............................44 Hình 5.3: Đồ thị so sánh hàm điều hòa của MS Office 2007 với các phiên bản.....48 21. Kết luận................................................................................................................... 48 PHẦN 3: KẾT LUẬN................................................................................................... 49 PHẦN 3: KẾT LUẬN................................................................................................... 49 1. Kết quả đạt được...................................................................................................... 49 2. Những hạn chế của đề tài........................................................................................ 49 3. Hướng phát triển của đề tài.....................................................................................49
  11. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. TÀI LIỆU THAM KHẢO............................................................................................. 51 TÀI LIỆU THAM KHẢO............................................................................................. 51
  12. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Viết đầy đủ Ý nghĩa CSDL Cơ sở dữ liệu IR Information Retrieval Trích xuất thông tin Inverse sentence Nghịch đảo tần số câu ISF frequency Left Right Maximum Phương pháp so khớp LRMM Matching cực đại Term frequency Tần số từ khóa TF Weighted Finite State Phương pháp sử dụng Transducer bộ chuyển trạng thái WFST hữu hạn có trọng số
  13. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. DANH MỤC BẢNG BIỂU Bảng 3.1: Bậc của các đỉnh sắp xếp theo thứ tự giảm dần của văn bản input1.txt ......................................................................................................................................... 30 Bảng 3.2: Phân chia đoạn của văn bản input1.txt......................................................33 Bảng 5.1: Đánh giá sự liên quan của văn bản tóm tắt và văn bản đối sánh............41 Bảng 5.2: Kết quả đánh giá thử nghiệm với các ngưỡng khác nhau.......................43 Bảng 5.3: Đánh giá kết quả tóm tắt của Microsoft office 2007................................45 Bảng 5.4: Kết quả thử nghiệm phiên bản 1...............................................................45 Bảng 5.5: Kết quả thử nghiệm phiên bản 2..............................................................46 Bảng 5.6: Kết quả thử nghiệm phiên bản 3...............................................................47 Bảng 5.7: Bảng so sánh kết quả giữa MS Office 2007 với các phiên bản...............47
  14. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. DANH MỤC HÌNH ẢNH Hình 1.1 Kiến trúc của hệ thống tóm tắt văn bản tự động .......................................6 Hình 2.1 Đồ thị liên kết các câu trong văn bản.........................................................20 Hình 3.1 Mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc.........................22 Hinh 3.2: Đồ thị liên kết của văn bản input1.txt.........................................................28 Hình 4.1: Giao diện chính của chương trình...............................................................35 Hình 4.2: Giao diện quản lý từ dừng...........................................................................35 Hình 4.3: Giao diện tách từ tách câu............................................................................36 Hình 4.4: Loại bỏ từ dừng, từ đồng nghĩa trong văn bản..........................................36 Hình 4.5: Giao diện form xây dựng đồ thị liên kết cho văn bản...............................37 Hình 4.6: Giao diện tóm tắt văn bản............................................................................37 Hình 4.7: Đánh giá độ chính xác của văn bản tóm tắt................................................38 Hình 5.1: Tóm tắt văn bản input1.txt bởi con người..................................................42 Hình 5.2: Đồ thị hàm điều hòa với các ngưỡng..........................................................44 Hình 5.3: Đồ thị so sánh hàm điều hòa của MS Office 2007 với các phiên bản......48
  15. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. PHẦN 1: MỞ ĐẦU 1. Lý do chọn đề tài. Ngày nay, với sự phát triển như vũ bão của công nghệ thông tin, Internet cũng như các dịch vụ trực tuyến, ngày càng có nhiều thông tin được tạo ra. Ta có thể truy cập các thông tin đó qua sách, báo, Internet và các phương tiện truy ền thông. Hơn nữa, nhu cầu đọc, tìm kiếm và lưu trữ thông tin của con người cũng ngày càng tăng lên. Tuy nhiên, với một lượng lớn thông tin như vậy thì người ta không thể nào có đủ thời gian và sức lực để đọc hết được chúng. Giải pháp là tóm tắt lại các văn bản đó, từ đó giúp tiết kiệm thời gian và công sức nhưng vẫn có thể đọc và xử lý được nhiều văn bản. Tóm tắt văn bản tự động đã bắt đầu được nghiên cứu từ những năm 50 của thế kỉ trước. Đã có nhiều công trình nghiên cứu về lĩnh vực này và có được những kết quả đáng kể. Tóm tắt văn bản đã được sử dụng trong các phần mềm x ử lý văn bản (Microsoft Office Word…), trong khai phá cơ sở dữ liệu văn bản (Oracle…), trong các ứng dụng tìm kiếm thông tin trực tuyến (hệ thống tìm kiếm Google, Yahoo…) và đều thu được những kết quả rất đáng khích lệ . Vì vậy, chúng tôi chọn đề tài: “Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa” nhằm nghiên cứu những vấn đề tổng quan về xử lý ngôn ngữ tự nhiên và một số phương pháp tóm tắt văn bản. 2. Khách thể và đối tượng nghiên cứu Các văn bản, các kỹ thuật tóm tắt văn bản, các phương pháp tóm tắt văn bản. 3. Giới hạn và phạm vi nghiên cứu Nghiên cứu các kỹ thuật tóm tắt văn bản dựa vào trích xuất câu. Tóm tắt văn bản trên ngôn ngữ Tiếng Việt 4. Mục đích nghiên cứu Với đề tài “Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng d ụng minh họa” sẽ trích xuất được các nội dung chính của văn bản mà người dùng nhập vào, giảm thời gian tìm kiếm thông tin trên đoạn văn bản dài của người đọc. 1
  16. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. 5. Nhiệm vụ nghiên cứu 2
  17. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. Vận dụng các kiến thức về tóm tắt văn bản để xây dựng ứng dụng minh họa tóm tắt văn bản. 6. Phương pháp nghiên cứu - Nghiên cứu tài liệu trên internet, các kĩ thuật tóm tắt văn bản đã có. - Tham khảo ý kiến của các thầy cô trong trường. 7. Ý nghĩa lý luận và thực tiễn của đề tài - Ý nghĩa lý luận của đề tài Chương trình cùng với lý thuyết tổng quan về Tóm tắt văn bản sẽ trở thành một tài liệu nghiên cứu, tham khảo nhanh, dễ hiểu, thiết thực cho người đọc. - Ý nghĩa thực tiễn của đề tài Về mặt ứng dụng sẽ cung cấp cho người dùng một phần mềm giúp cho người đọc có thể tóm tắt nội dung chính của văn bản một cách nhanh chóng, dễ dàng không tốn thời gian cần đọc cả đoạn văn bản dài. 1
  18. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. PHẦN 2: NỘI DUNG CHƯƠNG 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN 0.1. Tổng quan. 1.1.1. Khái niệm. Tóm tắt văn bản là một lĩnh vực của xử lý ngôn ngữ tự nhiên, đã được bắt đầu nghiên cứu từ những năm 50 của thế kỉ trước. Có nhiều định nghĩa về tóm tắt văn bản: Định nghĩa tóm tắt văn bản là quá trình rút trích ra các thông tin quan trọng từ một hoặc nhiều văn bản để tạo ra văn bản ngắn gọn cho mỗi hoặc nhóm người dùng, cho từng tác vụ hay nhiều tác vụ khác nhau. Định nghĩa hệ thống tóm tắt văn bản là hệ thống đưa ra dạng biểu diễn ngắn gọn của thông tin đầu vào căn cứ theo yêu cầu của người dùng. Radev (2002) định nghĩa văn bản tóm tắt là văn bản được tạo từ một hoặc nhiều văn bản khác mà truyền tải được những thông tin quan trọng trong văn bản gốc nhưng có độ dài không quá ½ văn bản gốc (thường ngắn hơn đáng kể). Theo Partha Lal (2002) thì tóm tắt văn bản là việc thể hiện nội dung văn bản dưới dạng giản lược một cách tự động nhằm đáp ứng yêu cầu nào đó từ phía người dùng. Đỗ Phúc, Hoàng Kiếm (2006) định nghĩa tóm tắt văn bản tự động là việc tìm các ý chính của văn bản. Tựu chung lại, có ba đặc điểm quan trọng cần ph ải xem xét trong hệ thống tóm tắt văn bản: 1) Bản tóm tắt có thể được tạo ra từ một hoặc nhiều văn bản. 2) Bản tóm tắt cần truyền tải các thông tin quan trọng. 3) Bản tóm tắt cần phải ngắn. 1.1.2. Lịch sử phát triển của tóm tắt văn bản Tóm tắt văn bản bắt đầu từ những năm cuối thập kỉ 1950 với nghiên cứu của Luhn (1958) dựa trên tần số từ. Ý tưởng cơ bản của phương pháp tần s ố từ 2
  19. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. dựa trên kiến thức cho rằng tần số của từng từ trong văn bản là một đ ộ đo hữu dụng để đánh giá tầm quan trọng của chúng. Tiếp theo đó là phương pháp tóm tắt dựa trên vị trí của các câu trong văn bản của Baxendale (1958), và những nghiên cứu của Edmundson (1969) về vị trí của các câu trong văn bản và các từ/cụm từ mang ý nghĩa tổng quát (từ/cụm từ dấu hiệu). Theo đó, những câu bắt đầu và kết thúc của đoạn văn/bài viết hay những câu chứa những từ như “important” (đặc biệt), “result are” (kết quả là), “paper introduce” (bài báo giới thiệu về)… là những câu có ý nghĩa quan trọng. Đầu những năm 1970, tiếp tục có những nghiên cứu với hướng tiếp cận ngoài (sử dụng các cụm từ dấu hiệu) và được ứng dụng trong các phần mềm thương mại (Pollock và Zamora). Những năm 1980, phát triển nhiều nghiên cứu với nhiều hướng khác nhau, đặc biệt là hướng tiếp cận mức thực thể dựa trên trí tuệ nhân tạo như sử dụng script (Lehnert 1981), (DeJong 1982), các luật sản xuất và logic (Fum 1985), mạng ngữ nghĩa (Reimer và Hahn 1988), cũng như các hướng tiếp cận kết hợp (Rau 1989) hay (Aretoulaki 1994). Willam B. Cavnar (1994): biểu diễn văn bản dựa trên n-gram thay cho cách biểu diễn truyền thống bằng từ khoá. Chinatsu Anoe (1997) đã phát triển hệ DimSum để tóm tắt văn bản sử dụng xử lý ngôn ngữ tự nhiên và kĩ thuật thống kê dựa trên hệ thống tf-idf, sử dụng WordNet để xem xét ngữ nghĩa của từ và đề xuất một số kĩ thuật lượng giá. Jaine Carbonell (1998) đã tóm tắt văn bản bằng cách xếp hạng các câu trội (câu chứa các ý chính của văn bản) và rút ra các câu trội. Jade Goldstein (1999): phân loại tóm tắt dựa trên độ đo liên quan, phương pháp sử dụng kết hợp giữa ngữ học, thống kê. Mỗi câu được đặc trưng bằng các đặc tính ngữ học và độ đo thống kê. J.Larocca Neto (2000) đã tạo tóm tắt văn bản dựa trên các dãy từ trong câu được chọn theo hệ số tf, sau đó dùng kỹ thuật gom cụm (clustering) để tạo tóm tắt. 3
  20. Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa. Yoshio (2001) đã tạo tóm tắt văn bản tiếng Nhật. Có 2 phương pháp là rút câu dựa trên từ khoá và rút câu dựa trên kiến trúc ngữ nghĩa trong đó có xây d ựng độ đo mối liên kết giữa hai từ. Hiện nay, một số nghiên cứu về xử lý ngôn ngữ tự nhiên cũng bước đầu được áp dụng trong tóm tắt văn bản. Mặt khác, các nghiên cứu về tóm t ắt đa văn bản, đa ngôn ngữ và tóm tắt đa phương tiện cũng bắt đầu phát triển. 1.1.3. Phân loại các phương pháp tóm tắt văn bản. Có nhiều tiêu chí để phân loại các phương pháp tóm tắt văn bản, sau đây là một số cách phân loại tiêu biểu: Căn cứ vào dạng tóm tắt, ta có thể chia thành: - Trích xuất (extract): bản tóm tắt hoàn toàn chứa các “dãy từ” được sao chép nguyên dạng từ văn bản nguồn. “Dãy từ” ở đây có thể là cụm từ, câu hoặc đoạn văn. Tuy nhiên, với dạng trích xuất thì văn bản tóm tắt thiếu c ấu kết cần thiết, các câu được trích ra có thể không phản ánh nội dung. Nói chung văn bản tóm tắt không được “trơn” do được “lắp ghép” từ các câu, đoạn văn được trích ra. - Tóm tắt (abstracts): văn bản tóm tắt nói chung là không chứa các “dãy từ” trong văn bản nguồn mà là được “viết lại” một cách tự động. Với dạng này, người ta cần nhiều kĩ thuật xử lý ngôn ngữ. Hiện tại, đây vẫn là vấn đề khó, chưa thể giải quyết được một cách triệt để. Căn cứ vào mức độ xử lý, có thể chia thành 2 dạng: - Tiếp cận mức ngoài (surface-level): thông tin được miêu tả dưới dạng khái niệm về các đặc trưng nông (shallow feature). Các đặc trưng nông bao gồm các thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các thuật ngữ trong văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật ngữ trong các cụm từ dấu hiệu hay các thuật ngữ trong câu truy vấn của người dùng. Kết quả là một bản tóm tắt dạng trích xuất (extract). - Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng trích xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp ngôn ngữ tự nhiên. Với dạng tiếp cận này, phải cần đến những phân tích về mặt ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu 4
nguon tai.lieu . vn