Xem mẫu

TẬP ĐOÀN ĐIỆN LỰC VIỆT NAM TRƯỜNG ĐẠI HỌC ĐIỆN LỰC KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN THỰC TẬP TỐT NGHIỆP XÂY DỰNG PHẦN MỀM NHẬN DẠNG KÝ TỰ QUANG HỌC SỬ DỤNG MÃ NGUỒN MỞ TESSERACT OCR Giảng viên hướng dẫn: TS. NGUYỄN THỊ THANH TÂN Sinh viên thực hiện: NGUYỄN ĐÌNH NGỌC Ngành: CÔNG NGHỆ THÔNG TIN Chuyên ngành: CÔNG NGHỆ PHẦN MỀM Lớp: D6 - CNTT Khóa: 2011 – 2016 Hà Nội, tháng 10 năm 2015. LỜI MỞ ĐẦU Hiện nay, nhu cầu về việc rút trích từ ngữ từ hình ảnh đang ngày càng phát triển, bên cạnh sự gia tăng về nhu cầu là sự phát triển của công nghệ nhận dạng ký tự quang học (Optical Character Recognition) hay còn được gọi tắt là OCR. Đây là một công nghệ giúp chuyển đổi hình ảnh của chữ viết tay hoặc đánh máy thành các ký tự đã được mã hóa trong máy tính. Giả sử chúng ta cần chỉnh sửa một số tài liệu giấy như: Các bài viết trên tạp chí, tờ rơi, hoặc một tập tin PDF hình ảnh. Rõ ràng, chúng ta không thể sử dụng một máy quét để chuyển các tài liệu này thành tập tin văn bản để có thể chỉnh sửa (ví dụ như trình soạn thảo Microsoft Word). Tất cả những gì máy quét có thể làm là tạo ra một hình ảnh hoặc một bản chụp của các tài liệu. Để giải nén và sử dụng lại dữ liệu từ tài liệu được quét, hình ảnh máy ảnh hoặc hình ảnh của các tập tin PDF, chúng ta cần một phần mềm OCR. Nó sẽ xuất ra kí tự trên hình ảnh, ghép chúng thành từ và sau đó ghép các từ thành câu. Nhờ vậy, chúng ta có thể truy cập và chỉnh sửa nội dung của tài liệu gốc. Tương tự, những tài liệu cổ đang bị hư hại theo thời gian và việc viết tay hay đánh máy lại những tài liệu này sẽ tốn rất nhiều chi phí, thời gian và không đảm bảo được độ chính xác cũng như là sự an toàn cho tài liệu nền. Việc này rất cần một công nghệ lấy từ ngữ từ hình ảnh chụp. Bài báo cáo nhằm mục đích tìm hiểu, chỉnh sửa công cụ Tesseract để thực hiện việc rút trích các văn bản từ tập tin hình ảnh. Tên đề tài: “Xây dựng phần mềm nhận dạng ký tự quang học sử dụng mã nguồn mở Tesseract Ocr”. CẤU TRÚC ĐỀ TÀI Chương 1: Tổng quan về đề tài  Quy trình chung của một hệ thống nhận dạng chữ  Bài toán nhận dạng văn bản tiếng Việt Việt  Phạm vị nghiên cứu và phạm vi ứng dụng  Đối tượng sử dụng  Yêu cầu phần cứng, phần mềm  Yêu cầu giao diện và chức năng Chương 2: Tìm hiểu hệ thống mã nguồn mở Tesseract OCR  Giới thiệu về bộ nhận dạng ký tự quang học Tesseract OCR  Thư viện Opencv  Tiến trình nhận dạng sử dụng Tesseract OCR  Đánh giá độ chính xác nhận dạng Tesseract OCR  Công cụ và ngôn ngữ sử dụng Chương 3: Xây dựng chương trình nhận dạng văn bản tiếng Việt sử dụng thư viện Tesseract OCR  Phân tích hệ thống  Thiết kế hệ thống  Thiết kế cơ sở dữ liệu  Demo giao diện chương trình  Một số thử nghiệm  Cách sử dụng chương trình Kết luận: Kết quả đạt được và phương hướng phát triển. LỜI CẢM ƠN Em xin gửi đến Thầy cô ở Khoa Công nghệ thông tin – Trường Đại học Điện Lực lời biết ơn sâu sắc nhất, những người đã cùng với tri thức và tâm huyết của mình để truyền đạt vốn kiến thức quý báu cho em trong thời gian học tập tại trường. Em xin chân thành cám ơn TS. Nguyễn Thị Thanh Tân đã tận tâm hướng dẫn em qua những buổi trao đổi. Trong thời gian được học tập và thực hành dưới sự hướng dẫn của thầy và anh, em đã thu được rất nhiều kiến thức bổ ích. Nếu không có những lời hướng dẫn, dạy bảo của thầy cô thì em nghĩ đồ án này của em rất khó có thể hoàn thành được. Xin gửi lời cảm ơn chân thành đến gia đình, bè bạn, đã luôn là nguồn động viên to lớn, giúp em vượt qua những khó khăn trong suốt quá trình học tập và thực hiện đồ án. Mặc dù đã rất cố gắng hoàn thiện đồ án với tất cả sự nỗ lực, tuy nhiên, do bước đầu đi vào thực tế, tìm hiểu và xây dựng đồ án trong thời gian có hạn, và kiến thức còn hạn chế, nhiều bỡ ngỡ, nên đồ án “Xây dựng phần mềm nhận dạng ký tự quang học sử dụng mã nguồn mở tesseract OCR” chắc chắn sẽ không thể tránh khỏi những thiếu sót. Em rất mong nhận được sự quan tâm, thông cảm và những đóng góp quý báu của các thầy cô và các bạn để đồ án này ngày càng hoàn thiện hơn. Một lần nữa, em xin chân thành cám ơn và luôn mong nhận được sự đóng góp của mọi người. Sau cùng, em xin kính chúc các thầy cô trong Khoa Công nghệ thông tin dồi dào sức khỏe, niềm tin để tiếp tục thực hiện sứ mệnh cao đẹp của mình là truyền đạt kiến thức cho thế hệ mai sau. Trân trọng! Hà Nội, ngày 06 tháng 10 năm 2015 Sinh viên thực hiện Nguyễn Đình Ngọc MỤC LỤC DANH MỤC HÌNH ẢNH DANH MỤC BẢNG BIỂU DANH MỤC KÝ HIỆU KÝ HIỆU NHỮNG CỤM TỪ VIẾT TẮT CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI...............................................................1 1.1 Quy trình chung của một hệ thống nhận dạng chữ...........................................1 1.2 Bài toán nhận dạng văn bản tiếng Việt Việt......................................................2 1.3 Phạm vi nghiên cứu và phạm vi ứng dụng.........................................................2 1.4 Đối tượng sử dụng...............................................................................................2 1.5 Yêu cầu phần cứng, phần mềm..........................................................................2 1.6 Yêu cầu giao diện và chức năng.........................................................................2 CHƯƠNG 2 TÌM HIỂU HỆ THỐNG MÃ NGUỒN MỞ TESSERACT OCR..3 2.1 Giới thiệu về bộ nhận dạng ký tự quang học Tesseract ....................................3 2.1.1 Lịch sử ..............................................................................................................3 2.1.2 Kiến trúc hoạt động...........................................................................................5 2.1.3 Huấn luyện dữ liệu trên tesseract.......................................................................6 2.1.4 Quá trình huấn luyện ngôn ngữ và font mới.......................................................7 2.2 Thư viện Opencv...............................................................................................10 2.2.1 Giới thiệu về thư viện Opencv.........................................................................10 2.2.2 Phiên bản opencv 1 và opencv 2......................................................................10 2.2.3 Cách tổ chức Opencv.......................................................................................14 2.3 Tiến trình nhận dạng sử dụng Tesseract OCR................................................15 2.3.1 Xác định dòng.................................................................................................15 2.3.2 Thiết lập dòng cơ sở ........................................................................................15 2.3.3 Cắt nhỏ từ........................................................................................................15 2.3.4 Nhận dạng khoảng cách giữa chữ hoặc số........................................................15 2.3.5 Nhận dạng từ...................................................................................................16 ... - tailieumienphi.vn
nguon tai.lieu . vn