Xem mẫu

HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG

KHOA CÔNG NGHỆ THÔNG TIN 1
------------

ĐỒ ÁN
TỐT NGHIỆP ĐẠI HỌC
Đề tài: “Các đặc trƣng ngôn ngữ cho bài
toán phân loại câu hỏi tiếng Việt”

Giảng viên hƣớng dẫn

: TS. NGÔ XUÂN BÁCH

Sinh viên thực hiện

: NGUYỄN ĐÌNH NGHỊ

Lớp

: D11CNPM3

Khóa:

: 2011 – 2016

Hệ đào tạo

: ĐẠI HỌC CHÍNH QUY

Hà Nội 12/2015

ĐỒ ÁN TỐT NGHIỆP

TÓM TẮT
Trong thời đại bùng nổ Công nghệ thông tin hiện nay, phương thức sử dụng giấy
tờ trong giao dịch đã dần được số hóa chuyển sang các dạng văn bản lưu trữ trên máy
tính hoặc truyền tải trên mạng. Bởi nhiều tính năng ưu việt của tài liệu số như: cách
lưu trữ gọn nhẹ, thời gian lưu trữ lâu dài, tiện dụng trong trao đổi, đặc biệt là qua
Internet, nên ngày nay, số lượng văn bản số tăng lên một cách chóng mặt, đặc biệt là
trên World Wide Web. Cùng với sự gia tăng về số lượng văn bản, nhu cầu tìm kiếm
văn bản cũng tăng theo. Với số lượng văn bản đồ sộ thì yêu cầu cần có những hệ thống
khai thác thông tin hiệu quả. Các công cụ tìm kiếm hiện thời chỉ trả về cho người dùng
một tập các tài liệu liên quan có chứa từ khóa trong câu truy vấn của người dùng. Tuy
nhiên, người dùng mong muốn một câu trả lời chính xác và cụ thể hơn, dẫn đến yêu
cầu cần phải có một hệ thống hỏi đáp tự động.
Trong những năm gần đây, hệ thống hỏi đáp tự động đã nhận được sự quan tâm
đặc biệt của các nhà nghiên cứu, các công ty (Yahoo, Google, Mcrosoft, IBM, v.v.),
các hội nghị lớn về trích chọn thông tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL,
v.v.) và đã đạt được những kết quả nhất định. Tuy nhiên các nghiên cứu về hệ thống
hỏi đáp cho tiếng Việt vẫn còn rất hạn chế. Điều này một phần là do thiếu các công cụ
đủ tốt để xử lý tiếng Việt như nhận dạng thực thể tên, phân tích cú pháp, v.v.
Đồ án “Các đặc trưng ngôn ngữ cho bài toán phân loại câu hỏi tiếng Việt” tập
trung nghiên cứu về vấn đề phân loại câu hỏi cho tiếng Việt, đây là pha đầu tiên trong
một hệ thống hỏi đáp tiếng Việt, có ý nghĩa đặc biệt quan trọng với hoạt động của cả
hệ thống. Khi một câu hỏi được phân loại sẽ giúp chúng ta thu hẹp được không gian
tìm kiếm câu trả lời cho câu hỏi và từ đó giúp hệ thống hỏi đáp có thể đưa ra được các
câu trả lời ngắn gọn và chính xác hơn.
Trên cơ sở các nghiên cứu đã có và điều kiện thực tế của các công cụ xử lý ngôn
ngữ tiếng Việt, chúng tôi tiến hành thực nghiệm việc phân loại câu hỏi tiếng Việt trên
hai bộ dữ liệu: bộ dữ liệu một gồm 3000 câu hỏi tiếng Việt, bộ dữ liệu hai gồm 3000
câu hỏi tiếng Việt và đi kèm với mỗi câu hỏi là 5 câu truy vấn từ Google. Chúng tôi sử
dụng một số phương pháp học máy thống kê như Máy véc tơ hỗ trợ (SVM), Naïve
Bayes (NB), K-láng giềng gần nhất và tiến hành thực nghiệm trên các đặc trưng ngôn
ngữ tiếng Việt như đặc trưng từ vựng, đặc trưng âm tiết, n-grams, đặc trưng nhãn từ
loại và đặc trưng cú pháp của câu. Các kết quả ban đầu đạt được khá khả quan. Bộ
phân lớp câu hỏi đạt được kết quả tốt nhất là 85.53% khi sử dụng thuật toán SVM cho
đặc trưng âm tiết 1+2 grams kết hợp với đặc trưng nhãn từ loại và đặc trưng cú pháp.
Từ khóa: Hệ thống hỏi đáp, phân loại câu hỏi, Máy véc tơ hỗ trợ, K-láng giềng
gần nhất, Naïve Bayes, cây cú pháp, n-grams.

GVHD: TS. Ngô Xuân Bách

i

SVTH: Nguyễn Đình Nghị – D11CNPM3

ĐỒ ÁN TỐT NGHIỆP

LỜI CẢM ƠN
Em xin chân thành cảm ơn TS. Ngô Xuân Bách, bộ môn Khoa học máy tính, Khoa
Công nghệ thông tin 1 đã tận tình chỉ dạy và hướng dẫn cho em trong việc lựa chọn đề
tài, thực hiện đề tài và viết báo cáo đồ án, giúp cho em có thể hoàn thành tốt đồ án này.
Em xin cảm ơn các thầy cô giáo Học viện Công nghệ Bưu chính Viễn thông, đặc
biệt các thầy cô trong khoa Công nghệ thông tin 1 đã tận tình dạy dỗ và chỉ bảo em
trong suốt 4 năm học.
Cuối cùng em xin cảm ơn gia đình, bạn bè, đồng nghiệp, những người đã luôn bên
cạnh động viên em những lúc khó khăn, và giúp đỡ em trong suốt thời gian học tập và
làm đồ án, tạo mọi điều kiện tốt nhất cho em để có thể hoàn thành tốt đồ án của mình.
Em xin chân thành cảm ơn!
Hà Nội, 12/2015
Sinh viên
Nguyễn Đình Nghị

GVHD: TS. Ngô Xuân Bách

ii

SVTH: Nguyễn Đình Nghị – D11CNPM3

ĐỒ ÁN TỐT NGHIỆP

NHẬN XÉT
(Của giảng viên phản biện)
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
Hà Nội, 12/2015
Giảng viên phản biện

GVHD: TS. Ngô Xuân Bách

iii

SVTH: Nguyễn Đình Nghị – D11CNPM3

ĐỒ ÁN TỐT NGHIỆP

NHẬN XÉT
(Của giảng viên hƣớng dẫn)
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
…………………………………………………………………………………………..
Hà Nội, 12/2015
Giảng viên hướng dẫn

GVHD: TS. Ngô Xuân Bách

iv

SVTH: Nguyễn Đình Nghị – D11CNPM3

nguon tai.lieu . vn