Xem mẫu

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
--------

NGUYỄN THANH PHONG

XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG
KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT

Luận văn Thạc sĩ Công nghệ Thông tin

ĐỒNG NAI, 2014

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
--------

NGUYỄN THANH PHONG
XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG
KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT
Chuyên ngành: Công nghệ Thông tin
Mã số: 60480201

Luận văn Thạc sĩ Công nghệ Thông tin

NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. VŨ ĐỨC LUNG

ĐỒNG NAI, 2014

LỜI CẢM ƠN
Với những lời đầu tiên, em xin dành sự cảm ơn chân thành và sâu sắc tới
thầy tiến sỹ Vũ Đức Lung đã hƣớng dẫn và giúp đỡ em tận tình trong quá trình hoàn
thành luận văn.
Em cũng xin cảm ơn quý Thầy Cô Trƣờng Đại học Lạc Hồng đã tận tình
truyền dạy kiến thức trong quá trình em học tập tại trƣờng, những kiến thức đó đã
giúp em rất nhiều trong việc học tập và nghiên cứu sau này.
Cuối cùng, xin gửi lời cảm ơn tới những ngƣời thân trong gia đình và bạn bè,
đồng nghiệp đã giúp đỡ và tạo điều kiện tốt trong quá trình làm luận văn.

Đồng Nai, tháng 08 năm 2014
Trân trọng

Nguyễn Thanh Phong

LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá
nhân, là kết quả của quá trình học tập và nghiên cứu khoa học độc lập. Trong toàn
bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân hoặc là
đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều có xuất xứ
rõ ràng và đƣợc trích dẫn hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan của mình.

Đồng Nai, tháng 08 năm 2014
Tác giả

Nguyễn Thanh Phong

MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC
KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT
DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ
MỞ ĐẦU ..................................................................................................................... 1
Lý do chọn đề tài ......................................................................................................... 1
Mục tiêu đề tài ............................................................................................................. 2
Nội dung thực hiện ...................................................................................................... 2
Phƣơng pháp thực hiện................................................................................................ 3
CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE ..... 4
1.1 Giới thiệu ............................................................................................................. 4
1.2 Các loại bộ lọc WEB có nội dung khiêu dâm ..................................................... 4
1.2.1 Bộ lọc WEB dựa vào địa chị mạng .................................................................. 4
1.2.2 Bộ lọc WEB dựa vào URL .............................................................................. 6
1.2.3 Bộ lọc WEB dựa vào DNS .............................................................................. 9
1.2.4 Bộ lọc WEB dựa vào từ khóa ........................................................................ 10
1.2.5 Bộ lọc WEB dựa vào nội dung text và hình ảnh............................................ 10
1.3 Các công trình liên quan .................................................................................. 11
CHƢƠNG 2. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN ............. 15
2.1 Rút trích nội dung của website .......................................................................... 15
2.1.1 Phân tích mã HTML ...................................................................................... 15
2.1.2 So sánh khung mẫu ........................................................................................ 16
2.1.3 Xử lý ngôn ngữ tự nhiên ................................................................................ 17
2.2 Phân tích nội dung thành các token .................................................................. 18
2.2.1 Tiền xử lý dữ liệu ........................................................................................... 19
2.2.2 Tách câu dựa trên Maximum Entropy ........................................................... 19
2.2.3 Tách từ ........................................................................................................... 21
2.2.3.1 Phƣơng pháp Maximum Matching .............................................................. 25
2.2.3.2 Phƣơng pháp Transformation – based learning – TBL................................ 25

nguon tai.lieu . vn