Xem mẫu

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -------o0o------- ĐỒ ÁN TỐT NGHIỆP NGÀNH CÔNG NGHỆ THÔNG TIN HẢI PHÒNG 2013
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -------o0o------- TÌM HIỂU MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG CHO NHẬN DẠNG CHỮ VIẾT ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin HẢI PHÒNG - 2013
  3. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG -------o0o------- TÌM HIỂU MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG CHO NHẬN DẠNG CHỮ VIẾT ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ Thông tin Giáo viên hƣớng dẫn: PGS TS Ngô Quốc Tạo Sinh viên thực hiện: Nguyễn Sơn Hà Mã số sinh viên: 1351010034 HẢI PHÒNG - 2013
  4. BỘ GIÁO DỤC VÀ ĐÀO TẠO CỘNG HÒA XA HỘI CHỦ NGHĨA VIỆT NAM TRƢỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG Độc lập - Tự do - Hạnh phúc -------o0o------- NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP Sinh viên: Nguyễn Sơn Hà Mã SV: 1351010034 Lớp: CT1301 Ngành: Công nghệ Thông tin Tên đề tài:Tìm hiểu một số phƣơng pháp trích chọn đặc trƣng cho nhận dạng chữ viết.
  5. NHIỆM VỤ ĐỀ TÀI 1. Nội dung và các yêu cầu cần giải quyết trong nhiệm vụ đề tài tốt nghiệp a. Nội dung - Giới thiệu về trích chọn đặc trƣng:Đặc trƣng bất biến,khả năng khôi phục. - Trích chọn đặc trƣng từ ảnh đa cấp xám:Đối sánh mẫu,mẫu biến dạng,biến đổi ảnh Unitar,bất biến hình học,bất biến Zenite. - Trích chọn đặc trƣng từ ảnh nhị phân:Đối sánh mẫu,mẫu biến dạng,biến đổi ảnh Unitar,bất biến hình học. - Trích chọn đặc trƣng từ biên ảnh:Chiếu nghiêng,tách vùng,xấp xỉ đƣờng cong,mô tả Fourier. - Trích chọn đặc trƣng từ biểu diễn véc tơ: Đối sánh mẫu,mẫu biến dạng,đặc trƣng rời rạc,biểu diễn đồ thị,biểu diễn Fourier. b. Các yêu cầu cần giải quyết - Hiểu nội dung trích chọn đặc trƣng theo đối sánh - Viết xong đồ án - Cài đặt thử nghiệm chƣơng trình trích đặc trƣng
  6. CÁN BỘ HƢỚNG DẪN ĐỀ TÀI TỐT NGHIỆP Ngƣời hƣớng dẫn thứ nhất: Họ và tên: Ngô Quốc Tạo Học hàm, học vị: Phó giáo sƣ Tiến sĩ Cơ quan công tác: Viện Công nghệ thông tin,Viện Hàn Lâm Khoa học và Công nghệ Viêt Nam. Nội dung hƣớng dẫn: .............................................................................................. ................................................................................................................................. ................................................................................................................................. ................................................................................................................................. Ngƣời hƣớng dẫn thứ hai: Họ và tên: ............................................................................................................... Học hàm, học vị: .................................................................................................... Cơ quan công tác: ................................................................................................... Nội dung hƣớng dẫn: .............................................................................................. ................................................................................................................................. ................................................................................................................................. Đề tài tốt nghiệp đƣợc giao ngày….tháng….năm 2013. Yêu cầu phải hoàn thành trƣớc ngày….tháng….năm 2013. Đã nhận nhiệm vụ: Đ.T.T.N Đã nhận nhiệm vụ: Đ.T.T.N Sinh viên Cán bộ hƣớng dẫn Đ.T.T.N Nguyễn Sơn Hà PGS TS Ngô Quốc Tạo Hải Phòng, ngày ............tháng.........năm 2013 HIỆU TRƢỞNG GS.TS.NGƯT Trần Hữu Nghị
  7. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng PHẦN NHẬN XÉT TÓM TẮT CỦA CÁN BỘ HƢỚNG DẪN 1. Tinh thần thái độ của sinh viên trong quá trình làm đề tài tốt nghiệp: ......................................................................................................................................................... ......................................................................................................................................................... ........................................................................................................................................................ ......................................................................................................................................................... ......................................................................................................................................................... 2. Đánh giá chất lƣợng của đề tài tốt nghiệp (so với nội dung yêu cầu đã đề ra trong nhiệm vụ đề tài tốt nghiệp) ........................................................................................................................ ........................................................................................................................ ........................................................................................................................ ........................................................................................................................ ........................................................................................................................ ........................................................................................................................ ........................................................................................................................ 3. Cho điểm của cán bộ hƣớng dẫn: (Điểm ghi bằng số và chữ) ........................................................................................................................ ........................................................................................................................ Ngày.......tháng.........năm 2013 Cán bộ hƣớng dẫn chính (Ký, ghi rõ họ tên) Nguyễn Sơn Hà - CT1301
  8. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng PHẦN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BỘ CHẤM PHẢN BIỆN ĐỀ TÀI TỐT NGHIỆP 1. Đánh giá chất lƣợng đề tài tốt nghiệp (về các mặt nhƣ cơ sở lý luận, thuyết minh chƣơng trình, giá trị thực tế). 2. Cho điểm của cán bộ phản biện (Điểm ghi bằng số và chữ) ........................................................................................................................ ........................................................................................................................ Ngày.......tháng.........năm 2013 Cán bộ chấm phản biện (Ký, ghi rõ họ tên) Nguyễn Sơn Hà - CT1301
  9. LỜI CẢM ƠN Trƣớc tiên em xin đƣợc bày tỏ sự trân trọng và lòng biết ơn đối với thầy giáo PGS.TS. Ngô Quốc Tạo- Trƣởng phòng Nhận dạng và Công nghệ tri thức,Viện Công nghệ thông tin,Viện Hàn Lâm Khoa Học và Công nghệ Việt Nam. Trong suốt thời gian làm đồ án tốt nghiệp, thầy đã dành rất nhiều thời gian quí báu để tận tình chỉ bảo, hƣớng dẫn, định hƣớng cho em thực hiện đồ án. Em xin đƣợc cảm ơn các thầy cô giáo Trƣờng Đại học Dân lập Hải phòng đã giảng dạy trong quá trình học tập, thực hành, làm bài tập, giúp em hiểu thấu đáo hơn các nội dung học tập và những hạn chế cần khắc phục trong việc học tập, nghiên cứu và thực hiện bản đồ án này. Em xin cảm ơn các bạn bè và nhất là các thành viên trong gia đình đã tạo mọi điều kiện tốt nhất, động viên, cổ vũ trong suốt quá trình học tập và đồ án tốt nghiệp. Do thời gian và kiến thức có hạn nên không tránh khỏi những thiếu sót nhất định. Em rất mong nhận đƣợc sự đóng góp quý báu của thầy cô! Em xin chân thành cảm ơn! Hải Phòng, ngày tháng năm 2013. Sinh viên Nguyễn Sơn Hà
  10. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng MỤC LỤC LỜI CÁM ƠN DANH MỤC HÌNH DANH MỤC CÁC KÝ HIỆU, CỤM TỪ VIẾT TẮT PHẦN MỞ ĐẦU ........................................................................................................5 TÓM TẮT ĐỀ TÀI ...................................................................................................7 CHƢƠNG 1. TỔNG QUAN VỀ CHỮ VIẾT VÀ LÝ THUYẾT NHẬN DẠNG 8 1.1. GIỚI THIỆU .................................................................................................... 8 1.2. MÔ HÌNH TỔNG QUÁT CỦA MỘT HỆ NHẬN DẠNG CHỮ VIẾT TAY 8 1.2.1. Tiền xử lý ................................................................................................ 8 1.2.2. Khối tách chữ : ...................................................................................... 13 1.2.3. Trích chọn đặc trƣng: ............................................................................ 14 1.2.4. Huấn luyện và nhận dạng : .................................................................... 14 1.2.5. Hậu xử lý : ............................................................................................. 14 1.3. CÁC PHƢƠNG PHÁP NHẬN DẠNG CHỮ VIẾT TAY ........................ 15 1.3.1. Đối sánh mẫu: ................................................................................. 15 1.3.2. Phƣơng pháp tiếp cận cấu trúc: ........................................................ 16 1.3.3. Mạng nơ ron ................................................................................... 17 1.3.4. Mô hình Markov ẩn (HMM - Hidden Markov Model) : .................... 20 1.3.5. Máy véc tơ tựa (SVM) :................................................................... 21 1.3.6. Kết hợp các kỹ thuật nhận dạng : ..................................................... 23 1.3.7. Kết luận .......................................................................................... 24 CHƢƠNG 2: TỔNG QUAN VỀ TRÍCH CHỌN ĐẶC TRƢNG VÀ MỘT SỐ PHƢƠNG PHÁP TRÍCH CHỌN ĐẶC TRƢNG TRONG NHẬN DẠNG CHỮ VIẾT .........................................................................................................................25 2.1. Trích chọn đặc trƣng ...................................................................................... 25 2.1.1. Biến đổi toàn cục và khai triển chuỗi ..................................................... 25 2.1.2. Đặc trƣng thống kê ................................................................................. 26 2.1.3. Đặc trƣng hình học và hình thái ............................................................. 27 2.2. Đặc trƣng bất biến .......................................................................................... 28 2.3. Khả năng khôi phục ....................................................................................... 29 2.4. Trích chọn đặc trƣng từ ảnh đa cấp xám ........................................................ 29 2.4.1. Giới thiệu ............................................................................................... 29 2.4.2. Đối sánh mẫu ......................................................................................... 30 2.4.3. Mẫu biến dạng ....................................................................................... 30 Nguyễn Sơn Hà - CT1301 1
  11. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng 2.4.4. Biến đổi ảnh Unitar ............................................................................... 30 2.4.5. Bất biến Zenite ...................................................................................... 31 2.5. Trích chọn đặc trƣng từ ảnh nhị phân: ........................................................... 31 2.5.1. Giới thiệu ............................................................................................... 31 2.5.2. Biến đổi ảnh Unitar ............................................................................... 32 2.5.3. Bất biến hình học ................................................................................... 32 2.6. Trích chọn đặc trƣng từ biên ảnh: .................................................................. 32 2.6.1. Giới thiệu ............................................................................................... 32 2.6.2. Tách vùng .............................................................................................. 32 2.6.3. Xấp xỉ đƣờng cong: ............................................................................... 33 2.6.4. Mô tả Fourier: ........................................................................................ 33 2.7. Trích chọn đặc trƣng từ biểu diễn véc tơ: ...................................................... 33 2.7.1. Giới thiệu ............................................................................................... 33 2.7.2. Đối sánh mẫu ......................................................................................... 34 2.7.3. Mẫu biến dạng ....................................................................................... 34 2.7.4. Đặc trƣng rời rạc.................................................................................... 34 2.7.5. Biểu diễn Fourier ................................................................................... 34 CHƢƠNG 3: CHƢƠNG TRÌNH THỬ NGHIỆM .............................................36 3.1. Giới thiệu ....................................................................................................... 36 3.2. Xây dựng giao diện vẽ ................................................................................... 36 3.3. Xử lý dữ liệu (phân tích ảnh) ......................................................................... 37 3.4. Kết quả nhận dạng ......................................................................................... 39 3.5. Đánh giá, nhận xét ......................................................................................... 39 KẾT LUẬN ..............................................................................................................43 TÀI LIỆU THAM KHẢO ......................................................................................44 Nguyễn Sơn Hà - CT1301 2
  12. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng DANH MỤC CÁC HÌNH Hình 1.1. Sơ đồ tổng quát của một hệ nhận dạng chữ viết tay ................................. 9 Hình 1.2. . Nhị phân hóa ảnh .................................................................................... 10 Hình 1.3. Nhiễu đốm và nhiễu vệt ............................................................................ 10 Hình 1.4. Chuẩn hóa kích thƣớc ảnh các ký tự “A” và “P” ...................................... 11 Hình 1.5. (a) Ảnh gốc, (b) Ảnh sau khi đƣợc làm trơn biên ..................................... 11 Hình 1.6. Làm mảnh chữ. ......................................................................................... 12 Hình 1.7. Hiệu chỉnh độ nghiêng của văn bản ......................................................... 12 Hình 1.8. Tách dòng chữ dựa trên histogram theo chiều ngang của khối chữ ........ 13 Hình 1.9. Xác định khoảng cách giữa hai kí tự và giữa hai từ dựa trên histogram theo chiều thẳng đứng của dòng chữ ......................................................................... 14 Hình 2.1. Mô hình nhận dạng chữ viết tay rời rạc .................................................... 22 Hình 2.2 Quá trình tìm giới hạn ký tự ....................................................................... 37 Hình 2.3 Quá trình lấy mẫu xuống ............................................................................ 38 Hình 2.4. Quá trình ánh xạ từ ma trận điểm sang ma trận giá trị.............................. 41 Hình 2.5.Giao diện chính của chƣơng trình ............................................................. 41 Hình 2.6.Giao diện của chƣơng trình sau khi nhận dạng chữ viết xong .................. 41 Hình 2.7.Giao diện của ô thêm chữ viết.................................................................... 42 Hình 2.8. Giá trị của các ô vùng khi đƣợc nhận dạng .............................................. 42 Nguyễn Sơn Hà - CT1301 3
  13. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng DANH MỤC CÁC KÝ HIỆU, CỤM TỪ VIẾT TẮT HMM Markov Model (Mô hình Markov ẩn) off-line ngoại tuyến on-line trực tuyến OCR Optical Character Recognition (nhận dạng chữ quang học) SVM Support Vector Machines (Máy véc tơ tựa) SOM Self Origanizing Map USPS United States Postal service MNIST bộ mẫu chữ số viết tay NIST - Viện Công nghệ và Tiêu chuẩn Quốc gia Hoa Kỳ (National Institute of Standard and Technology of the United States) SV Support vector (véc tơ tựa) working set tập làm việc k-NN k – láng giềng gần nhất Nguyễn Sơn Hà - CT1301 4
  14. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng PHẦN MỞ ĐẦU Công nghệ thông tin ngày càng phát triển và có vai trò hết sức quan trọng không thể thiếu trong cuộc sống hiện đại. Con ngƣời ngày càng tạo ra những cỗ máy thông minh có khả năng tự nhận biết và xử lí đƣợc các công việc một cách tự động, phục vụ cho lợi ích của con ngƣời. Trong những năm gần đây, một trong những bài toán nhận đƣợc nhiều sự quan tâm và tốn nhiều công sức nhất của lĩnh vực công nghệ thông tin, đó chính là bài toán nhận dạng. Tuy mới xuất hiện chƣa lâu nhƣng nó đã rất đƣợc quan tâm vì tính ứng dụng thực tế của bài toán cũng nhƣ sự phức tạp của nó. Nhận dạng chữ viết là một lĩnh vực đã đƣợc quan tâm nghiên cứu và ứng dụng từ nhiều năm nay theo hai hƣớng chính: -Nhận dạng chữ in: phục vụ cho công việc tự động hóa đọc tài liệu, tăng tốc độ và hiệu quả nhập thông tin vào máy tính trực tiếp từ các nguồn tài liệu. -Nhận dạng chữ viết tay: với những mức độ ràng buộc khác nhau về cách viết, kiểu chữ... phục vụ cho các ứng dụng đọc và xử lý chứng từ, hóa đơn, phiếu ghi, bản thảo viết tay... Nhận dạng chữ viết tay đƣợc tách thành hai hƣớng phát triển: nhận dạng chữ viết tay trực tuyến (on-line) và nhận dạng chữ viết tay ngoại tuyến (off-line). Đến thời điểm này, bài toán nhận dạng chữ in đã đƣợc giải quyết gần nhƣ trọn vẹn .Tuy nhiên trên thế giới cũng nhƣ ở Việt Nam, bài toán nhận dạng chữ viết tay vẫn còn là vấn đề thách thức lớn đối với các nhà nghiên cứu. Bài toàn này chƣa thể giải quyết trọn vẹn vì nó phụ thuộc quá nhiều vào ngƣời viết và sự biến đổi quá đa dạng trong cách viết và trạng thái tinh thần của từng ngƣời viết. Đặc biệt đối với việc nghiên cứu nhận dạng chữ viết tiếng Việt lại càng gặp nhiều khó khăn hơn do bộ ký tự tiếng Việt có thêm phần dấu, rất dễ nhầm lẫm với các nhiễu. Trích chọn đặc trƣng trong nhận dạng chữ viết là việc tìm và chọn ra các đặc trƣng đặc thù của mỗi chữ viết,qua đó là đầu vào cho quá trình nhận dạng.Bên canh việc lựa chọn một thuật toán nhận dạng phù hợp thì việc tìm ra phƣơng pháp trích chọn đặc trƣng thích hợp sẽ nâng cao độ chính xác và giảm thời gian nhận dạng cho toàn bộ hệ thống, Với sự hấp dẫn của bài toán và những thách thức còn đang ở phía trƣớc, với niềm đam mê công nghệ hiện đại và những ứng dụng thực tế tuyệt với của nó, với khát khao khám phá và chinh phục những tri thức mới mẻ.. em đã chọn đê tài Nguyễn Sơn Hà - CT1301 5
  15. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng nghiên cứu: Tìm hiểu một số phƣơng pháp trích chọn đặc trƣng cho nhận dạng chữ viết làm để tài nghiên cứu và bảo vệ luận văn tốt nghiệp của mình. Về lý thuyết : - Tìm hiểu khái quát về chữ viết và lý thuyết nhận dạng. - Tìm hiểu về trích chọn đặc trƣng cho nhận dạng chữ viết. Về thực tiễn : - Cài đặt thử nghiệm chƣơng trình đã tìm hiểu đƣợc. Bài báo cáo đƣợc trình bày trong 3 chƣơng: - Chƣơng 1: Trình bày tổng quan về chữ viết và lý thuyết nhận dạng. - Chƣơng 2: Tổng quan về trích chọn đặc trƣng và một số phƣơng pháp trích chọn đặc trƣng cho nhận dạng chữ viết. - Chƣơng 3:Chƣơng trình thử nghiệm. - Kết luận: Tóm tắt những vấn đề tìm hiểu đƣợc trong bài, các vấn đề liên quan và đƣa ra hƣớng phát triển trong tƣơng lai. Nguyễn Sơn Hà - CT1301 6
  16. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng TÓM TẮT ĐỀ TÀI Bài báo cáo đồ án tốt nghiệp của em, nghiên cứu về “Một số phƣơng pháp trích chọn đặc trƣng cho nhận dạng chữ viết”. Nội dung nghiên cứu gồm 3 chƣơng nhƣ sau: - CHƢƠNG 1: Tổng quan về chữ viết và lý thuyết nhận dạng Chƣơng này nghiên cứu tổng quan về chữ viết và lý thuyết nhận dạng. Nhận dạng chữ là lĩnh vực đƣợc nhiều nhà nghiên cứu quan tâm và cho đến nay lĩnh vực này cũng đã đạt đƣợc nhiều thành tựu lớn lao cả về mặt lý thuyết lẫn ứng dụng thực tế.Đồng thời nêu mô hình tổng quát của một hệ nhận dạng chữ viết.. - CHƢƠNG 2: Tổng quan về trích chọn đặc trƣng và một số phƣơng pháp trích chọn đặc trƣng cho nhận dạng chữ viết. Chƣơng này nghiên cứu tổng quan về trích chọn đặc trƣng và một số phƣơng pháp trích chọn đặc trƣng cho nhận dạng chữ viết.Giới thiệu về trích chọn đặc trƣng:Đặc trƣng bất biến,khả năng khôi phục ; trích chọn đặc trƣng từ ảnh đa cấp xám( Đối sánh mẫu,mẫu biến dạng,biến đổi ảnh Unitar,bất biến hình học,bất biếnZenite );trích chọn đặc trƣng từ ảnh nhị phân ( Đối sánh mẫu,mẫu biến dạng,biến đổi ảnh Unitar,bất biến hình học ); trích chọn đặc trƣng từ biên ảnh( Chiếu nghiêng,tách vùng,xấp xỉ đƣờng cong,mô tả Fourier);trích chọn đặc trƣng từ biểu diễn vectơ( Đối sánh mẫu,mẫu biến dạng, đặc trƣng rời rạc,biểu diễn đồ thị, biểu diễn Fourier ). - CHƢƠNG 3 :Chƣơng trình thử nghiệm. Nguyễn Sơn Hà - CT1301 7
  17. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng CHƢƠNG 1. TỔNG QUAN VỀ CHỮ VIẾT VÀ LÝ THUYẾT NHẬN DẠNG 1.1. GIỚI THIỆU Nhận dạng chữ là lĩnh vực đƣợc nhiều nhà nghiên cứu quan tâm và cho đến nay lĩnh vực này cũng đã đạt đƣợc nhiều thành tựu lớn lao cả về mặt lý thuyết lẫn ứng dụng thực tế. Lĩnh vực nhận dạng chữ đƣợc chia làm hai loại: Nhận dạng chữ in và nhận dạng chữ viết tay. Đến thời điểm này, nhận dạng chữ in đã đƣợc giải quyết gần nhƣ trọn vẹn. Tuy nhiên, nhận dạng chữ viết tay vẫn đang là vấn đề thách thức lớn đối với các nhà nghiên cứu. Nhận dạng chữ viết tay đƣợc phân ra làm hai loại: nhận dạng chữ viết tay on-line (trực tuyến) và nhận dạng chữ viết tay off-line (ngoại tuyến). Nhận dạng chữ viết tay on-line đƣợc thực hiện trên cơ sở lƣu lại các thông tin về nét chữ nhƣ thứ tự nét viết, hƣớng và tốc độ của nét viết trong quá trình nó đang viết. Đây chính là cơ sở để máy tính nhận diện đƣợc các chữ cái, do đó việc nhận dạng không gặp quá nhiều khó khăn.Ngƣợc lại, đối với nhận dạng chữ viết tay off-line, dữ liệu đầu vào là ảnh văn bản đƣợc quét vào nên việc nhận dạng có độ khó cao hơn nhiều so với nhận dạng chữ viết tay on-line. Do dữ liệu đầu vào là ảnh văn bản nên nhận dạng chữ viết tay off-line và nhận dạng chữ in còn đƣợc gọi chung là nhận dạng chữ quang học (OCR - Optical Character Recognition). Khó khăn lớn nhất khi nghiên cứu bài toán nhận dạng chữ viết tay là sự biến thiên quá đa dạng trong cách viết của từng ngƣời. Cùng một ngƣời viết nhƣng đôi khi cũng có nhiều sự khác biệt trong cách viết tuỳ thuộc vào từng ngữ cảnh, kiểu viết của một ngƣời cũng có thể thay đổi theo thời gian hoặc theo thói quen... Điều này gây ra nhiều trở ngại trong việc trích chọn đặc trƣng cũng nhƣ lựa chọn mô hình nhận dạng. 1.2. MÔ HÌNH TỔNG QUÁT CỦA MỘT HỆ NHẬN DẠNG CHỮ VIẾT TAY 1.2.1. Tiền xử lý Giai đoạn này góp phần làm tăng độ chính xác phân lớp của hệ thống nhận dạng, tuy nhiên nó cũng làm cho tốc độ nhận dạng của hệ thống chậm lại. Vì vậy, tùy thuộc vào chất lƣợng ảnh quét vào của từng văn bản cụ thể để chọn một hoặc một vài chức năng trong khối này. Nếu cần ƣu tiên tốc độ xử lý và chất lƣợng của Nguyễn Sơn Hà - CT1301 8
  18. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng máy quét tốt thì có thể bỏ qua giai đoạn này. Khối tiền xử lý bao gồm một số chức năng: Nhị phân hóa ảnh, lọc nhiễu, chuẩn hóa kích thƣớc ảnh, làm trơn biên chữ, làm đầy chữ, làm mảnh chữ và xoay văn bản. 1.2.1.1. Nhị phân hóa ảnh Nhị phân hóa ảnh là một kỹ thuật chuyển ảnh đa cấp xám sang ảnh nhị phân. Trong bất kỳ bài toán phân tích hoặc nâng cao chất lƣợng ảnh nào, nó cũng cần thiết để xác định các đối tƣợng quan trọng. Nhị phân hóa ảnh phân chia ảnh thành 2 phần: phần nền và phần chữ. Hầu hết các phƣơng pháp nhị phân hóa ảnh hiện nay Nguyễn Sơn Hà - CT1301 9
  19. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng đều lựa chọn một ngƣỡng thích hợp theo cƣờng độ sáng của ảnh và sau đó chuyển tất cả các giá trị độ sáng lớn hơn ngƣỡng đó thành một giá trị độ sáng (ví dụ “trắng”) và tất cả các giá trị bé hơn ngƣỡng thành một giá trị độ sáng khác (“đen”). Hình 1.2. Nhị phân hóa ảnh. 1.2.1.2. Lọc nhiễu Nhiễu là một tập các điểm sáng thừa trên ảnh. Khử nhiễu là một vấn đề thƣờng gặp trong nhận dạng, nhiễu có nhiều loại (nhiễu đốm, nhiễu vệt, nhiễu đứt nét...). Hình 1.3. Nhiễu đốm và nhiễu vệt. Để khử các nhiễu đốm (các nhiễu với kích thƣớc nhỏ), có thể sử dụng các phƣơng pháp lọc (lọc trung bình, lọc trung vị...). Tuy nhiên, với các nhiễu vệt (hoặc các nhiễu có kích thƣớc lớn) thì các phƣơng pháp lọc tỏ ra kém hiệu quả, trong trƣờng hợp này sử dụng phƣơng pháp khử các vùng liên thông nhỏ tỏ ra có hiệu quả hơn. Nguyễn Sơn Hà - CT1301 10
  20. Đồ án tốt nghiệp Trƣờng ĐH Dân Lập Hải Phòng 1.2.1.3. Chuẩn hóa kích thƣớc ảnh Hình 1.4. Chuẩn hóa kích thước ảnh các ký tự “A” và “P”. Việc chuẩn hóa kích thƣớc ảnh dựa trên việc xác định trọng tâm ảnh, sau đó xác định khoảng cách lớn nhất từ tâm ảnh đến các cạnh trên, dƣới, trái, phải của hình chữ nhật bao quanh ảnh. Thông qua khoảng cách lớn nhất đó, có thể xác định đƣợc một tỷ lệ co, giãn của ảnh gốc so với kích thƣớc đã xác định, từ đó hiệu chỉnh kích thƣớc ảnh theo tỷ lệ co, giãn này. Nhƣ vậy, thuật toán chuẩn hóa kích thƣớc ảnh luôn luôn đảm bảo đƣợc tính cân bằng khi co giãn ảnh, ảnh sẽ không bị biến dạng hoặc bị lệch. 1.2.1.4. Làm trơn biên chữ: Đôi khi do chất lƣợng quét ảnh quá xấu, các đƣờng biên của chữ không còn giữ đƣợc dáng điệu trơn tru ban đầu mà hình thành các đƣờng răng cƣa giả tạo. Trong các trƣờng hợp này, phải dùng các thuật toán làm trơn biên để khắc phục. (a) (b) Hình 1.5. (a) Ảnh gốc, (b) Ảnh sau khi được làm trơn biên. Nguyễn Sơn Hà - CT1301 11
nguon tai.lieu . vn