Xem mẫu
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT
NAM
KHOA CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc
ĐỀ TÀI TỐT NGHIỆP ĐẠI HỌC
Họ và tên sinh viên:
1. Nguyễn Văn Thuấn 25/01/1991 TK7.2
2. Trần Quang Vinh 21/06/1990 TK7.2
Ngành đào tạo: Công Nghệ Thông Tin
Chuyên ngành: Mạng máy tính và Truyền thông
Khóa học: 2009-2013
Tên đề tài: TÓM TẮT VĂN BẢN DỰA VÀO TRÍCH XUẤT CÂU VÀ XÂY
DỰNG ỨNG DỤNG MINH HỌA
Mục tiêu đề tài:
- Tìm hiểu cơ sở lý thuyết của phương pháp tóm tắt văn bản dựa vào trích xuất
câu bao gồm: Tổng quan về tóm tắt văn bản, các mô hình tóm tắt, đặc điểm Tiếng
Việt, phương pháp sử dụng trong tóm tắt văn bản.
- Xây dựng được phần mềm tóm tắt văn bản dựa vào trích xuất các câu quan trọng
trong văn bản theo một tỷ lệ nén nhất định.
Nội dung cần hoàn thành:
1. Phần thuyết minh:
- Cuốn báo cáo Đồ án tốt nghiệp được trình bày theo đúng quy định. Báo
cáo được trình bày được ý tưởng và cách giải quyết các bài toán trong
quá trình thực hiện đề tài, các phương pháp đánh giá văn bản tóm tắt với
các phương pháp tóm tắt khác.
- Báo các được trình bày gồm 3 phần:
Phần 1: Mở đầu
- Lý do chọn đề tài.
- Mục đích nghiên cứu.
- Nhiệm vụ nghiên cứu.
- Phươn pháp nghiên cứu.
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
Phần 2: Nội dung
- Tổng quan về tóm tắt văn bản.
- Bài toán tóm tắt văn bản tiếng việt.
- Ứng dụng phương pháp cấu trúc để tóm tắt văn bản Tiếng Việt.
- Xây dựng ứng dụng minh họa.
- Thực nghiệm và đánh giá.
Phần 3: Kết luận.
- Kết quả đạt được.
- Những hạn chế của đề tài.
- Hướng phát triển của đề tài.
2. Phần thực hành, cài đặt:
- Xây dựng phần mềm giải quyết được bài toán trong tóm tắt văn bản áp
dụng phương pháp trích xuất câu.
- Cài đặt các công cự hỗ trợ tách từ tách câu.
- Trích xuất ra được văn bản tóm tắt theo tỉ lệ % tùy chọn với độ chính
xác và đáng tin cậy cao.
3. Sản phẩm chính:
- Phần mềm Tóm tắt văn bản áp dụng phương pháp trích xuất câu hoàn
chỉnh.
Dự kiến kính phí:
Thời gian thực hiện: Ngày giao:...../...../..........., ngày hoàn
thành ....../....../..........
Người hướng dẫn:
-Thứ nhất: Nguyễn Thị Thanh Huệ Ký xác
nhận:..............................
- Thứ hai:........................................................Ký xác
nhận:..............................
Đề tài đã được Hội đồng Khoa học và Đào tạo Khoa thông qua.
Hưng Yên, ngày .... tháng .... năm ........
TRƯỞNG KHOA TRƯỞNG BỘ MÔN
(Ký, ghi rõ họ và tên) (Ký, ghi rõ họ và tên)
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
MỞ ĐẦU
Ngày nay, với sự phát triển như vũ bão của công nghệ thông tin,
Internet cũng như các dịch vụ trực tuyến, ngày càng có nhiều thông tin được
tạo ra. Ta có thể truy cập các thông tin đó qua sách, báo, Internet và các
phương tiện truyền thông. Hơn nữa, nhu cầu đọc, tìm kiếm và lưu trữ
thông tin của con người cũng ngày càng tăng lên. Tuy nhiên, với một l ượng
lớn thông tin như vậy thì người ta không thể nào có đủ thời gian và sức lực
để đọc hết được chúng. Giải pháp là tóm tắt lại các văn bản đó, từ đó giúp
tiết kiệm thời gian và công sức nhưng vẫn có thể đọc và xử lý được nhiều
văn bản.
Tóm tắt văn bản tự động đã bắt đầu được nghiên cứu từ những năm
50 của thế kỉ trước. Đã có nhiều công trình nghiên cứu về lĩnh vực này và
có được những kết quả đáng kể. Tóm tắt văn bản đã được sử dụng trong
các phần mềm xử lý văn bản (Microsoft Office Word…), trong khai phá cơ
sở dữ liệu văn bản (Oracle…), trong các ứng dụng tìm kiếm thông tin trực
tuyến (hệ thống tìm kiếm Google, Yahoo…) và đều thu được những kết
quả rất đáng khích lệ . Vì vậy, chúng em chọn đề tài: “Tóm tắt văn bản
dựa vào trích xuất câu và xây dựng ứng dụng minh họa ” nhằm nghiên
cứu những vấn đề tổng quan về xử lý ngôn ngữ tự nhiên và một số phương
pháp tóm tắt văn bản. Với sự hướng dẫn của cô Nguyễn Thị Thanh Huệ.
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
LỜI CẢM ƠN
Sau một thời gian tìm hiểu và thực hiện đến nay đề tài “TÓM TẮT VĂN
BẢN DỰA VÀO TRÍCH XUẤT CÂU VÀ XÂY DỰNG ỨNG DỤNG MINH
HỌA” đã hoàn thành. Trong suốt quá trình thực hiện đề tài, chúng em đã nhận
được rất nhiều sự giúp đỡ nhiệt tình.
Chúng em xin chân thành cảm ơn các thầy các cô đã trang bị những kiến thức
quý báu cho chúng em trong suốt quá trình học tập tại trường Đại học Sư phạm
Kỹ thuật Hưng Yên. Đặc biệt là các thầy các cô trong khoa Công nghệ thông tinđã
tận tình giảng dạy, chỉ bảo, trang bị cho chúng em những kiến thức cần thiết nhất
trong suốt quá trình học tập và nghiên cứu tại khoa, đã tạo mọi điều kiện thuận
lợi giúp chúng em thực hiện đề tài này.
Chúng em xin cảm ơn cô Nguyễn Thị Thanh Huệ đã tận tình hướng dẫn,
chỉ bảo chúng em trong suốt thời gian thực hiện đề tài, giúp chúng em có thể hoàn
thành đề tài này.
Mặc dù đã cố gắng nỗ lực thực hiện đề tài với quyết tâm cao nhưng chắc
hẳn đề tài không thể tránh khỏi thiếu sót, kính mong sự đóng góp và hướng dẫn
của các thầy cô.
Chúng em xin chân thành cảm ơn!
Hưng Yên, tháng 08 năm 2013
Nhóm sinh viên thực hiện
Nguyễn Văn Thuấn
Trần Quang Vinh
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………..
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
……………………………..
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
……………………………..
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
……………………………..
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
…………………………….
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
………………………………………………………………………………………
……..
………………………………………………………………………………………
…………………………………………………
NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN
……………………………………………………………………………………..
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
NHẬN XÉT CỦA GIẢNG VIÊN PHẢN BIỆN
……………………………………………………………………………………..
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………………………………………………
………………………………………………
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
MỤC LỤC
DANH MỤC BẢNG BIỂU..........................................................................................13
DANH MỤC BẢNG BIỂU..........................................................................................13
PHẦN 1: MỞ ĐẦU........................................................................................................ 1
PHẦN 1: MỞ ĐẦU........................................................................................................ 1
1. Lý do chọn đề tài......................................................................................................... 1
2. Khách thể và đối tượng nghiên cứu..........................................................................1
3. Giới hạn và phạm vi nghiên cứu............................................................................... 1
4. Mục đích nghiên cứu.................................................................................................. 1
5. Nhiệm vụ nghiên cứu................................................................................................. 2
6. Phương pháp nghiên cứu............................................................................................ 1
7. Ý nghĩa lý luận và thực tiễn của đề tài ..................................................................1
PHẦN 2: NỘI DUNG..................................................................................................... 2
PHẦN 2: NỘI DUNG..................................................................................................... 2
CHƯƠNG 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN............................................2
CHƯƠNG 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN............................................2
0.1. Tổng quan................................................................................................................. 2
1.1.1. Khái niệm. .................................................................................................... 2
1.1.2.Lịch sử phát triển của tóm tắt văn bản .......................................................2
1.1.3.Phân loại các phương pháp tóm tắt văn bản...............................................4
1. Mô hình tóm tắt văn bản ...................................................................................... 6
Hình 1.1 Kiến trúc của hệ thống tóm tắt văn bản tự động ......................................6
1.1.4.Các phương pháp áp dụng trong pha phân tích............................................6
1.1.5. Các phương pháp áp dụng trong pha biến đổi............................................8
1.1.6. Các phương pháp trong pha tổng hợp kết quả ..........................................9
2. Các phương pháp đánh giá......................................................................................... 9
1.1.7. Các phương pháp đánh giá trong ..............................................................10
1.1.8. Các phương pháp đánh giá ngoài...............................................................11
3. Kết luận..................................................................................................................... 12
CHƯƠNG 2 : BÀI TOÁN TÓM TẮT VĂN BẢN TIẾNG VIỆT............................13
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
4. Một số hướng tiếp cận bài toán tóm tắt văn bản ................................................13
5. Đặc điểm tiếng Việt ................................................................................................ 13
2.1.1.Đặc điểm chung .......................................................................................... 14
2.1.2.Yếu tố ngoại lai trong từ tiếng Việt..........................................................15
2.1.3.Từ dừng........................................................................................................ 15
2.1.4.Từ đồng nghĩa. ............................................................................................ 15
2.1.5. Đặc điểm chính tả .....................................................................................17
6. Phương pháp cho bài toán tóm tắt văn bản tiếng Việt.........................................18
Hình 2.1 Đồ thị liên kết các câu trong văn bản........................................................20
7. Kết luận..................................................................................................................... 20
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN
BẢN TIẾNG VIỆT......................................................................................................... 22
CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP CẤU TRÚC ĐỂ TÓM TẮT VĂN
BẢN TIẾNG VIỆT......................................................................................................... 22
8. Mô hình tóm tắt sử dụng phương pháp cấu trúc...................................................22
Hình 3.1 Mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc........................22
9. Tiền xử lý văn bản.................................................................................................... 23
10. Xử lý từ.................................................................................................................... 24
11. Xây dựng đồ thị liên kết......................................................................................... 25
Hinh 3.2: Đồ thị liên kết của văn bản input1.txt........................................................28
12. Sinh văn bản tóm tắt.............................................................................................. 28
13. Kết luận................................................................................................................... 34
CHƯƠNG 4: XÂY DỰNG ỨNG DỤNG MINH HỌA............................................35
CHƯƠNG 4: XÂY DỰNG ỨNG DỤNG MINH HỌA............................................35
14. Một số giao diện chính của hệ thống...................................................................35
4.1.1.Giao diện chính của chương trình..............................................................35
Hình 4.1: Giao diện chính của chương trình..............................................................35
4.1.2.Giao diện form quản lý từ điển từ dừng, từ đồng nghĩa.........................35
Hình 4.2: Giao diện quản lý từ dừng..........................................................................35
4.1.3.Giao diện form tách từ, tách câu.................................................................36
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
Hình 4.3: Giao diện tách từ tách câu...........................................................................36
4.1.4.Giao diện form loại từ dừng, từ đồng nghĩa.............................................36
Hình 4.4: Loại bỏ từ dừng, từ đồng nghĩa trong văn bản.........................................36
4.1.5.Giao diện form xây dựng đồ thị liên kết....................................................37
Hình 4.5: Giao diện form xây dựng đồ thị liên kết cho văn bản..............................37
4.1.6.Giao diện form tóm tắt văn bản..................................................................37
Hình 4.6: Giao diện tóm tắt văn bản...........................................................................37
4.1.7.Giao diện form đánh giá độ chính xác........................................................38
Hình 4.7: Đánh giá độ chính xác của văn bản tóm tắt...............................................38
15. Một số module chính của chương trình.................................................................38
4.1.8.Module tóm tắt văn bản............................................................................... 38
4.1.9.Module quản lý từ dừng, từ đồng nghĩa....................................................39
4.1.10.Module đánh giá hệ thống tóm tắt............................................................39
16. Kết luận................................................................................................................... 39
CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ......................................................40
17. Môi trường thử nghiệm. ........................................................................................40
18. Dữ liệu thử nghiệm ............................................................................................... 40
19. Phương pháp đánh giá............................................................................................. 40
Hình 5.1: Tóm tắt văn bản input1.txt bởi con người.................................................42
20. Kết quả thực nghiệm.............................................................................................. 43
5.1.1.Thử nghiệm xác định ngưỡng.....................................................................43
Hình 5.2: Đồ thị hàm điều hòa với các ngưỡng.........................................................44
5.1.2.Đánh giá kết quả thử nghiệm đối với từng phiên bản.............................44
Hình 5.3: Đồ thị so sánh hàm điều hòa của MS Office 2007 với các phiên bản.....48
21. Kết luận................................................................................................................... 48
PHẦN 3: KẾT LUẬN................................................................................................... 49
PHẦN 3: KẾT LUẬN................................................................................................... 49
1. Kết quả đạt được...................................................................................................... 49
2. Những hạn chế của đề tài........................................................................................ 49
3. Hướng phát triển của đề tài.....................................................................................49
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
TÀI LIỆU THAM KHẢO............................................................................................. 51
TÀI LIỆU THAM KHẢO............................................................................................. 51
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Viết đầy đủ Ý nghĩa
CSDL Cơ sở dữ liệu
IR Information Retrieval Trích xuất thông tin
Inverse sentence Nghịch đảo tần số câu
ISF
frequency
Left Right Maximum Phương pháp so khớp
LRMM
Matching cực đại
Term frequency Tần số từ khóa
TF
Weighted Finite State Phương pháp sử dụng
Transducer bộ chuyển trạng thái
WFST
hữu hạn có trọng số
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
DANH MỤC BẢNG BIỂU
Bảng 3.1: Bậc của các đỉnh sắp xếp theo thứ tự giảm dần của văn bản input1.txt
......................................................................................................................................... 30
Bảng 3.2: Phân chia đoạn của văn bản input1.txt......................................................33
Bảng 5.1: Đánh giá sự liên quan của văn bản tóm tắt và văn bản đối sánh............41
Bảng 5.2: Kết quả đánh giá thử nghiệm với các ngưỡng khác nhau.......................43
Bảng 5.3: Đánh giá kết quả tóm tắt của Microsoft office 2007................................45
Bảng 5.4: Kết quả thử nghiệm phiên bản 1...............................................................45
Bảng 5.5: Kết quả thử nghiệm phiên bản 2..............................................................46
Bảng 5.6: Kết quả thử nghiệm phiên bản 3...............................................................47
Bảng 5.7: Bảng so sánh kết quả giữa MS Office 2007 với các phiên bản...............47
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
DANH MỤC HÌNH ẢNH
Hình 1.1 Kiến trúc của hệ thống tóm tắt văn bản tự động .......................................6
Hình 2.1 Đồ thị liên kết các câu trong văn bản.........................................................20
Hình 3.1 Mô hình tóm tắt văn bản sử dụng phương pháp cấu trúc.........................22
Hinh 3.2: Đồ thị liên kết của văn bản input1.txt.........................................................28
Hình 4.1: Giao diện chính của chương trình...............................................................35
Hình 4.2: Giao diện quản lý từ dừng...........................................................................35
Hình 4.3: Giao diện tách từ tách câu............................................................................36
Hình 4.4: Loại bỏ từ dừng, từ đồng nghĩa trong văn bản..........................................36
Hình 4.5: Giao diện form xây dựng đồ thị liên kết cho văn bản...............................37
Hình 4.6: Giao diện tóm tắt văn bản............................................................................37
Hình 4.7: Đánh giá độ chính xác của văn bản tóm tắt................................................38
Hình 5.1: Tóm tắt văn bản input1.txt bởi con người..................................................42
Hình 5.2: Đồ thị hàm điều hòa với các ngưỡng..........................................................44
Hình 5.3: Đồ thị so sánh hàm điều hòa của MS Office 2007 với các phiên bản......48
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
PHẦN 1: MỞ ĐẦU
1. Lý do chọn đề tài.
Ngày nay, với sự phát triển như vũ bão của công nghệ thông tin, Internet
cũng như các dịch vụ trực tuyến, ngày càng có nhiều thông tin được tạo ra. Ta có
thể truy cập các thông tin đó qua sách, báo, Internet và các phương tiện truy ền
thông. Hơn nữa, nhu cầu đọc, tìm kiếm và lưu trữ thông tin của con người cũng
ngày càng tăng lên. Tuy nhiên, với một lượng lớn thông tin như vậy thì người ta
không thể nào có đủ thời gian và sức lực để đọc hết được chúng. Giải pháp là tóm
tắt lại các văn bản đó, từ đó giúp tiết kiệm thời gian và công sức nhưng vẫn có
thể đọc và xử lý được nhiều văn bản.
Tóm tắt văn bản tự động đã bắt đầu được nghiên cứu từ những năm 50 của
thế kỉ trước. Đã có nhiều công trình nghiên cứu về lĩnh vực này và có được những
kết quả đáng kể. Tóm tắt văn bản đã được sử dụng trong các phần mềm x ử lý
văn bản (Microsoft Office Word…), trong khai phá cơ sở dữ liệu văn bản
(Oracle…), trong các ứng dụng tìm kiếm thông tin trực tuyến (hệ thống tìm kiếm
Google, Yahoo…) và đều thu được những kết quả rất đáng khích lệ . Vì vậy,
chúng tôi chọn đề tài: “Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng
dụng minh họa” nhằm nghiên cứu những vấn đề tổng quan về xử lý ngôn ngữ tự
nhiên và một số phương pháp tóm tắt văn bản.
2. Khách thể và đối tượng nghiên cứu
Các văn bản, các kỹ thuật tóm tắt văn bản, các phương pháp tóm tắt văn
bản.
3. Giới hạn và phạm vi nghiên cứu
Nghiên cứu các kỹ thuật tóm tắt văn bản dựa vào trích xuất câu.
Tóm tắt văn bản trên ngôn ngữ Tiếng Việt
4. Mục đích nghiên cứu
Với đề tài “Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng d ụng
minh họa” sẽ trích xuất được các nội dung chính của văn bản mà người dùng
nhập vào, giảm thời gian tìm kiếm thông tin trên đoạn văn bản dài của người đọc.
1
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
5. Nhiệm vụ nghiên cứu
2
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
Vận dụng các kiến thức về tóm tắt văn bản để xây dựng ứng dụng minh
họa tóm tắt văn bản.
6. Phương pháp nghiên cứu
- Nghiên cứu tài liệu trên internet, các kĩ thuật tóm tắt văn bản đã có.
- Tham khảo ý kiến của các thầy cô trong trường.
7. Ý nghĩa lý luận và thực tiễn của đề tài
- Ý nghĩa lý luận của đề tài
Chương trình cùng với lý thuyết tổng quan về Tóm tắt văn bản sẽ trở thành
một tài liệu nghiên cứu, tham khảo nhanh, dễ hiểu, thiết thực cho người đọc.
- Ý nghĩa thực tiễn của đề tài
Về mặt ứng dụng sẽ cung cấp cho người dùng một phần mềm giúp cho người
đọc có thể tóm tắt nội dung chính của văn bản một cách nhanh chóng, dễ dàng
không tốn thời gian cần đọc cả đoạn văn bản dài.
1
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
PHẦN 2: NỘI DUNG
CHƯƠNG 1: TỔNG QUAN VỀ TÓM TẮT VĂN BẢN
0.1. Tổng quan.
1.1.1. Khái niệm.
Tóm tắt văn bản là một lĩnh vực của xử lý ngôn ngữ tự nhiên, đã được bắt
đầu nghiên cứu từ những năm 50 của thế kỉ trước. Có nhiều định nghĩa về tóm tắt
văn bản:
Định nghĩa tóm tắt văn bản là quá trình rút trích ra các thông tin quan trọng
từ một hoặc nhiều văn bản để tạo ra văn bản ngắn gọn cho mỗi hoặc nhóm
người dùng, cho từng tác vụ hay nhiều tác vụ khác nhau.
Định nghĩa hệ thống tóm tắt văn bản là hệ thống đưa ra dạng biểu diễn
ngắn gọn của thông tin đầu vào căn cứ theo yêu cầu của người dùng.
Radev (2002) định nghĩa văn bản tóm tắt là văn bản được tạo từ một hoặc
nhiều văn bản khác mà truyền tải được những thông tin quan trọng trong văn bản
gốc nhưng có độ dài không quá ½ văn bản gốc (thường ngắn hơn đáng kể).
Theo Partha Lal (2002) thì tóm tắt văn bản là việc thể hiện nội dung văn bản
dưới dạng giản lược một cách tự động nhằm đáp ứng yêu cầu nào đó từ phía
người dùng.
Đỗ Phúc, Hoàng Kiếm (2006) định nghĩa tóm tắt văn bản tự động là việc
tìm các ý chính của văn bản. Tựu chung lại, có ba đặc điểm quan trọng cần ph ải
xem xét trong hệ thống tóm tắt văn bản:
1) Bản tóm tắt có thể được tạo ra từ một hoặc nhiều văn bản.
2) Bản tóm tắt cần truyền tải các thông tin quan trọng.
3) Bản tóm tắt cần phải ngắn.
1.1.2. Lịch sử phát triển của tóm tắt văn bản
Tóm tắt văn bản bắt đầu từ những năm cuối thập kỉ 1950 với nghiên cứu
của Luhn (1958) dựa trên tần số từ. Ý tưởng cơ bản của phương pháp tần s ố từ
2
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
dựa trên kiến thức cho rằng tần số của từng từ trong văn bản là một đ ộ đo hữu
dụng để đánh giá tầm quan trọng của chúng.
Tiếp theo đó là phương pháp tóm tắt dựa trên vị trí của các câu trong văn
bản của Baxendale (1958), và những nghiên cứu của Edmundson (1969) về vị trí
của các câu trong văn bản và các từ/cụm từ mang ý nghĩa tổng quát (từ/cụm từ
dấu hiệu). Theo đó, những câu bắt đầu và kết thúc của đoạn văn/bài viết hay
những câu chứa những từ như “important” (đặc biệt), “result are” (kết quả là),
“paper introduce” (bài báo giới thiệu về)… là những câu có ý nghĩa quan trọng.
Đầu những năm 1970, tiếp tục có những nghiên cứu với hướng tiếp cận
ngoài (sử dụng các cụm từ dấu hiệu) và được ứng dụng trong các phần mềm
thương mại (Pollock và Zamora).
Những năm 1980, phát triển nhiều nghiên cứu với nhiều hướng khác nhau,
đặc biệt là hướng tiếp cận mức thực thể dựa trên trí tuệ nhân tạo như sử dụng
script (Lehnert 1981), (DeJong 1982), các luật sản xuất và logic (Fum 1985), mạng
ngữ nghĩa (Reimer và Hahn 1988), cũng như các hướng tiếp cận kết hợp (Rau
1989) hay (Aretoulaki 1994). Willam B. Cavnar (1994): biểu diễn văn bản dựa trên
n-gram thay cho cách biểu diễn truyền thống bằng từ khoá.
Chinatsu Anoe (1997) đã phát triển hệ DimSum để tóm tắt văn bản sử dụng
xử lý ngôn ngữ tự nhiên và kĩ thuật thống kê dựa trên hệ thống tf-idf, sử dụng
WordNet để xem xét ngữ nghĩa của từ và đề xuất một số kĩ thuật lượng giá.
Jaine Carbonell (1998) đã tóm tắt văn bản bằng cách xếp hạng các câu trội
(câu chứa các ý chính của văn bản) và rút ra các câu trội.
Jade Goldstein (1999): phân loại tóm tắt dựa trên độ đo liên quan, phương
pháp sử dụng kết hợp giữa ngữ học, thống kê. Mỗi câu được đặc trưng bằng các
đặc tính ngữ học và độ đo thống kê.
J.Larocca Neto (2000) đã tạo tóm tắt văn bản dựa trên các dãy từ trong câu
được chọn theo hệ số tf, sau đó dùng kỹ thuật gom cụm (clustering) để tạo tóm
tắt.
3
- Tóm tắt văn bản dựa vào trích xuất câu và xây dựng ứng dụng minh họa.
Yoshio (2001) đã tạo tóm tắt văn bản tiếng Nhật. Có 2 phương pháp là rút
câu dựa trên từ khoá và rút câu dựa trên kiến trúc ngữ nghĩa trong đó có xây d ựng
độ đo mối liên kết giữa hai từ.
Hiện nay, một số nghiên cứu về xử lý ngôn ngữ tự nhiên cũng bước đầu
được áp dụng trong tóm tắt văn bản. Mặt khác, các nghiên cứu về tóm t ắt đa văn
bản, đa ngôn ngữ và tóm tắt đa phương tiện cũng bắt đầu phát triển.
1.1.3. Phân loại các phương pháp tóm tắt văn bản.
Có nhiều tiêu chí để phân loại các phương pháp tóm tắt văn bản, sau đây là
một số cách phân loại tiêu biểu:
Căn cứ vào dạng tóm tắt, ta có thể chia thành:
- Trích xuất (extract): bản tóm tắt hoàn toàn chứa các “dãy từ” được sao
chép nguyên dạng từ văn bản nguồn. “Dãy từ” ở đây có thể là cụm từ, câu hoặc
đoạn văn. Tuy nhiên, với dạng trích xuất thì văn bản tóm tắt thiếu c ấu kết cần
thiết, các câu được trích ra có thể không phản ánh nội dung. Nói chung văn bản
tóm tắt không được “trơn” do được “lắp ghép” từ các câu, đoạn văn được trích ra.
- Tóm tắt (abstracts): văn bản tóm tắt nói chung là không chứa các “dãy từ”
trong văn bản nguồn mà là được “viết lại” một cách tự động. Với dạng này,
người ta cần nhiều kĩ thuật xử lý ngôn ngữ. Hiện tại, đây vẫn là vấn đề khó, chưa
thể giải quyết được một cách triệt để.
Căn cứ vào mức độ xử lý, có thể chia thành 2 dạng:
- Tiếp cận mức ngoài (surface-level): thông tin được miêu tả dưới dạng
khái niệm về các đặc trưng nông (shallow feature). Các đặc trưng nông bao gồm
các thuật ngữ (term) quan trọng qua thống kê (dựa vào tần số của các thuật ngữ
trong văn bản), các thuật ngữ quan trọng dựa vào vị trí, các thuật ngữ trong các
cụm từ dấu hiệu hay các thuật ngữ trong câu truy vấn của người dùng. Kết quả là
một bản tóm tắt dạng trích xuất (extract).
- Tiếp cận mức sâu (deeper-level): ở mức này, bản tóm tắt có thể là dạng
trích xuất hoặc dạng tóm tắt (abstract) và cần phải sử dụng đến sinh tổng hợp
ngôn ngữ tự nhiên. Với dạng tiếp cận này, phải cần đến những phân tích về mặt
ngữ nghĩa, chẳng hạn sử dụng hướng tiếp cận thực thể để xây dựng dạng biểu
4
nguon tai.lieu . vn