Xem mẫu
TẬP ĐOÀN ĐIỆN LỰC VIỆT NAM
TRƯỜNG ĐẠI HỌC ĐIỆN LỰC
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO ĐỒ ÁN THỰC TẬP TỐT NGHIỆP
XÂY DỰNG PHẦN MỀM NHẬN DẠNG KÝ TỰ
QUANG HỌC SỬ DỤNG MÃ NGUỒN MỞ
TESSERACT OCR
Giảng viên hướng dẫn: TS. NGUYỄN THỊ THANH TÂN
Sinh viên thực hiện: NGUYỄN ĐÌNH NGỌC
Ngành: CÔNG NGHỆ THÔNG TIN
Chuyên ngành: CÔNG NGHỆ PHẦN MỀM
Lớp: D6 - CNTT
Khóa: 2011 – 2016
Hà Nội, tháng 10 năm 2015.
LỜI MỞ ĐẦU
Hiện nay, nhu cầu về việc rút trích từ ngữ từ hình ảnh đang ngày càng phát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học (Optical Character Recognition) hay còn được gọi tắt là OCR. Đây là một công nghệ giúp chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành các ký tự đã được mã hóa trong máy tính. Giả sử chúng ta cần chỉnh sửa một số tài liệu giấy như: Các bài viết trên tạp chí, tờ rơi, hoặc một tập tin PDF hình ảnh. Rõ ràng, chúng ta không thể sử dụng một máy quét để chuyển các tài liệu này thành tập tin văn bản để có thể chỉnh sửa (ví dụ như trình soạn thảo Microsoft Word).
Tất cả những gì máy quét có thể làm là tạo ra một hình ảnh hoặc một bản chụp của các tài liệu. Để giải nén và sử dụng lại dữ liệu từ tài liệu được quét, hình ảnh máy ảnh hoặc hình ảnh của các tập tin PDF, chúng ta cần một phần mềm OCR. Nó sẽ xuất ra kí tự trên hình ảnh, ghép chúng thành từ và sau đó ghép các từ thành câu. Nhờ vậy, chúng ta có thể truy cập và chỉnh sửa nội dung của tài liệu gốc.
Tương tự, những tài liệu cổ đang bị hư hại theo thời gian và việc viết tay hay đánh máy lại những tài liệu này sẽ tốn rất nhiều chi phí, thời gian và không đảm bảo được độ chính xác cũng như là sự an toàn cho tài liệu nền. Việc này rất cần một công nghệ lấy từ ngữ từ hình ảnh chụp.
Bài báo cáo nhằm mục đích tìm hiểu, chỉnh sửa công cụ Tesseract để thực hiện việc rút trích các văn bản từ tập tin hình ảnh.
Tên đề tài: “Xây dựng phần mềm nhận dạng ký tự quang học sử dụng mã nguồn mở Tesseract Ocr”.
CẤU TRÚC ĐỀ TÀI
Chương 1: Tổng quan về đề tài
Quy trình chung của một hệ thống nhận dạng chữ Bài toán nhận dạng văn bản tiếng Việt Việt
Phạm vị nghiên cứu và phạm vi ứng dụng Đối tượng sử dụng
Yêu cầu phần cứng, phần mềm Yêu cầu giao diện và chức năng
Chương 2: Tìm hiểu hệ thống mã nguồn mở Tesseract OCR
Giới thiệu về bộ nhận dạng ký tự quang học Tesseract OCR Thư viện Opencv
Tiến trình nhận dạng sử dụng Tesseract OCR
Đánh giá độ chính xác nhận dạng Tesseract OCR Công cụ và ngôn ngữ sử dụng
Chương 3: Xây dựng chương trình nhận dạng văn bản tiếng Việt sử dụng thư viện Tesseract OCR
Phân tích hệ thống Thiết kế hệ thống
Thiết kế cơ sở dữ liệu
Demo giao diện chương trình Một số thử nghiệm
Cách sử dụng chương trình
Kết luận: Kết quả đạt được và phương hướng phát triển.
LỜI CẢM ƠN
Em xin gửi đến Thầy cô ở Khoa Công nghệ thông tin – Trường Đại học Điện Lực lời biết ơn sâu sắc nhất, những người đã cùng với tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho em trong thời gian học tập tại trường.
Em xin chân thành cám ơn TS. Nguyễn Thị Thanh Tân đã tận tâm hướng dẫn em qua những buổi trao đổi. Trong thời gian được học tập và thực hành dưới sự hướng dẫn của thầy và anh, em đã thu được rất nhiều kiến thức bổ ích. Nếu không có những lời hướng dẫn, dạy bảo của thầy cô thì em nghĩ đồ án này của em rất khó có thể hoàn thành được.
Xin gửi lời cảm ơn chân thành đến gia đình, bè bạn, đã luôn là nguồn động viên to lớn, giúp em vượt qua những khó khăn trong suốt quá trình học tập và thực hiện đồ án.
Mặc dù đã rất cố gắng hoàn thiện đồ án với tất cả sự nỗ lực, tuy nhiên, do bước đầu đi vào thực tế, tìm hiểu và xây dựng đồ án trong thời gian có hạn, và kiến thức còn hạn chế, nhiều bỡ ngỡ, nên đồ án “Xây dựng phần mềm nhận dạng ký tự quang học sử dụng mã nguồn mở tesseract OCR” chắc chắn sẽ không thể tránh khỏi những thiếu sót. Em rất mong nhận được sự quan tâm, thông cảm và những đóng góp quý báu của các thầy cô và các bạn để đồ án này ngày càng hoàn thiện hơn.
Một lần nữa, em xin chân thành cám ơn và luôn mong nhận được sự đóng góp của mọi người.
Sau cùng, em xin kính chúc các thầy cô trong Khoa Công nghệ thông tin dồi dào sức khỏe, niềm tin để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau.
Trân trọng!
Hà Nội, ngày 06 tháng 10 năm 2015 Sinh viên thực hiện
Nguyễn Đình Ngọc
MỤC LỤC DANH MỤC HÌNH ẢNH
DANH MỤC BẢNG BIỂU DANH MỤC KÝ HIỆU
KÝ HIỆU NHỮNG CỤM TỪ VIẾT TẮT
CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI...............................................................1
1.1 Quy trình chung của một hệ thống nhận dạng chữ...........................................1
1.2 Bài toán nhận dạng văn bản tiếng Việt Việt......................................................2
1.3 Phạm vi nghiên cứu và phạm vi ứng dụng.........................................................2
1.4 Đối tượng sử dụng...............................................................................................2
1.5 Yêu cầu phần cứng, phần mềm..........................................................................2
1.6 Yêu cầu giao diện và chức năng.........................................................................2
CHƯƠNG 2 TÌM HIỂU HỆ THỐNG MÃ NGUỒN MỞ TESSERACT OCR..3
2.1 Giới thiệu về bộ nhận dạng ký tự quang học Tesseract ....................................3
2.1.1 Lịch sử ..............................................................................................................3
2.1.2 Kiến trúc hoạt động...........................................................................................5
2.1.3 Huấn luyện dữ liệu trên tesseract.......................................................................6
2.1.4 Quá trình huấn luyện ngôn ngữ và font mới.......................................................7
2.2 Thư viện Opencv...............................................................................................10
2.2.1 Giới thiệu về thư viện Opencv.........................................................................10
2.2.2 Phiên bản opencv 1 và opencv 2......................................................................10
2.2.3 Cách tổ chức Opencv.......................................................................................14
2.3 Tiến trình nhận dạng sử dụng Tesseract OCR................................................15
2.3.1 Xác định dòng.................................................................................................15
2.3.2 Thiết lập dòng cơ sở ........................................................................................15
2.3.3 Cắt nhỏ từ........................................................................................................15
2.3.4 Nhận dạng khoảng cách giữa chữ hoặc số........................................................15
2.3.5 Nhận dạng từ...................................................................................................16
...
- tailieumienphi.vn
nguon tai.lieu . vn