Xem mẫu

  1. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 XÂY DỰNG CÔNG CỤ HỖ TRỢ ĐỌC XUẤT BẢN PHẨM LƯU CHIỂU DỰA TRÊN PHƯƠNG PHÁP ĐỐI SÁNH ẢNH TÀI LIỆU Phạm Thị Minh Thư1, Lê Việt Phương1 1 Trường Cao đẳng nghề An Giang 2 Sở Thông Tin và Truyền Thông Tỉnh An Giang Thông tin chung: ABSTRACT Ngày nhận bài: 01/10/2018 Ngày nhận kết quả bình duyệt: The research was carried out in many stages such as local features 14/11/2018 extraction image, then segmenting the image by DBSCAN algorithm Ngày chấp nhận đăng: (Density-Based Spatial Clustering of Application with Noise), clustering 08/2019 local features and comparing each document image area to matching local Title: features algorithms (SIFT, SURF). Finally, determining the mismatched A supportive tool for reading areas, wrong positions of licensing printing and has been printed document depository publications based images. The propose method is capable to decay document images into each on document image matching separated block (title, image, paragraph, table), do not use machine learning and do not need to know the detail layout of document images Keywords: Document images matching, previously; the matching performance is more accurately because of only local feature, DBSCAN, SIFT, using each decayed image region to matching and detect the differences SURF instead of using all document images. The experimental result on 223 document images were collected at “Read Depositary” part, presented the Từ khóa: accuracy of the propose method is 91%, also found the difference image Đối sánh ảnh tài liệu, gom cụm DBSCAN, đặc trưng regions between two document images and found the wrong position about SIFT, SURF layout on two document images. TÓM TẮT Nghiên cứu được thực hiện qua nhiều công đoạn như rút trích đặc trưng cục bộ cho ảnh, sau đó thực hiện phân vùng ảnh với thuật toán DBSCAN (Density-Based Spatial Clustering of Application with Noise), gom cụm các đặc trưng cục bộ và đối sánh từng vùng ảnh tài liệu với giải thuật đối sánh các đặc trưng cục bộ SIFT, SURF. Cuối cùng là xác định được các vùng bị sai khác, sai vị trí của ảnh tài liệu xin cấp phép in và ảnh tài liệu đã được in. Phương pháp nghiên cứu đưa ra có khả năng phân rã được ảnh tài liệu thành từng khối riêng biệt (tiêu đề, hình ảnh, đoạn văn bản, bảng biểu), không sử dụng máy học cũng như không cần biết trước bố cục cụ thể của ảnh tài liệu; hiệu quả đối sánh ảnh chính xác hơn vì chỉ sử dụng từng vùng ảnh đã phân rã để đối sánh và phát hiện sai khác, thay vì sử dụng toàn bộ ảnh để đối sánh. Kết quả thực nghiệm trên 223 ảnh tài liệu được thu tập tại bộ phận đọc lưu chiểu, cho thấy độ chính xác đạt được của phương pháp đề xuất là 91%, và đã tìm ra được những vùng ảnh khác nhau trên hai ảnh tài liệu, cũng như tìm ra được những vùng bị sai vị trí về bố cục trên hai ảnh tài liệu. 96
  2. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 1. GIỚI THIỆU 1) thực hiện việc nhận dạng logo trên ảnh tài liệu. Từ nhu cầu thực tế của bộ phận “đọc lưu chiểu” Tác giả sử dụng nhiều loại đặc trưng cục bộ khác tại Sở Thông tin và Truyền thông tỉnh An Giang nhau trong mô tả logo, định vị và nhận dạng logo cũng như việc nghiên cứu bài toán đối sánh ảnh trên ảnh tài liệu và kết quả nghiên cứu thể hiện tài liệu, chúng tôi thực hiện đề tài nghiên cứu và đặc trưng cục bộ SIFT mang lại kết quả tối ưu. xây dựng công cụ thực hiện việc đối sánh hai ảnh Tác giả I. Amerini và các cộng sự đã sử dụng đặc tài liệu với nhau nhằm phát hiện ra sự khác nhau trưng cục bộ SIFT trong nghiên cứu “A SIFT- giữa hai trang tài liệu, so sánh cả về mặt nội dung based forensic method for copy-move attack và bố cục văn bản. detection and transformation recovery” (Amerini, Ballan, Caldelli, Del Bimbo, & Serra, 2011, tr. 1) Trong hai hướng tiếp cận của bài toán đối sánh với mục tiêu phát hiện ra các vùng ảnh bị sao ảnh về đặc trưng toàn cục (Global feature (Kyrki, chép. Tác giả Olivier Augereau a và cs. với 2002; Lim & Galoogahi, 2010; Raoui, Houssine nghiên cứu “Semi-structured document image BOUYAKHF, Devy, & Regragui, 2011)) và đặc matching and recognition” (Augereau, Journet, & trưng cục bộ (Local feature (Kyrki 2002; Lê Việt Domenger, 2013, tr. 1) về đối sánh và nhận dạng Phương, 2015; Raoui et al. 2011)). Chúng tôi đi ảnh tài liệu cũng đã trình bày về việc sử dụng đặc sâu nghiên cứu hướng tiếp cận đối sánh ảnh tài trưng cục bộ SIFT trong đối sánh và nhận dạng liệu dựa trên các đặc trưng cục bộ SIFT (Lowe, ảnh tài liệu. Trong nghiên cứu “Image Matching 1999; Lê Việt Phương, Nayef, Visani, Ogier, & Using SIFT, SURF, BRIEF and ORB: Trần Cao Đệ, 2014). SIFT được nhiều nghiên cứu Performance Comparison for Distorted Images” của các nhà khoa học dùng rộng rãi để trích xuất (Karami, Prasad, & Shehata, 2015, tr. 1) thực hiện và mô tả các điểm đặc trưng do nó có những đặc nghiên cứu đối sánh ảnh sử dụng các đặc trưng điểm như: Bất biến với độ co, phép quay, một cục bộ SIFT, SURF, BRIEF và ORB trong trường phần phép biến đổi affine và mạnh với những thay hợp ảnh bị biến dạng. Kết quả trình bày trong đổi về độ sáng, sự che khuất và nhiễu. Bên cạnh nhiều trường hợp thì kỹ thuật ORB mang lại hiệu đó giải thuật gom cụm DBSCAN (Atrayee Dhua, suất nhanh nhất về mặt thời gian, tuy nhiên về tỉ Sarma, Singh, & Roy, 2015; Ester, Xu, Kriegel, & lệ chính xác thì kỹ thuật SIFT mang lại hiệu quả Sander, 1996), thực hiện gom cụm các đặc trưng cao hơn. cục bộ sẽ được nghiên cứu cho việc phân vùng ảnh tài liệu, thành các cụm theo bố cục cụ thể của Với bài toán trên từ nhu cầu thực tiễn và các công từng đối tượng trong trang ảnh tài liệu, kết quả sẽ trình nghiên cứu trước về đối sánh ảnh sử dụng chia ảnh tài liệu thành nhiều vùng cụ thể theo đặc trưng cục bộ. Chúng tôi thực hiện nghiên cứu từng đối tượng trong ảnh tài liệu. đối sánh ảnh tài liệu với phương pháp sử dụng các đặc trưng cục bộ, thực hiện việc đối sánh với hai Trong các công trình nghiên cứu về đối sánh ảnh mục tiêu chính. Thứ nhất là xác định xem trong với đặc trưng cục bộ như của tác giả Lê Việt hai ảnh tài liệu có những vùng nào bị khác nhau Phương với nghiên cứu “Logo detection, không. Thứ hai có vùng nào trên ảnh tài liệu bị sai recognition and spotting in context by matching vị trí không. local visual features” (Lê Việt Phương, 2015, tr. 97
  3. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 2. PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Mô hình đề xuất Hình 1. Mô hình đề xuất đối sánh ảnh tài liệu 2.2 Trích chọn đặc trưng cục bộ SIFT chọn dựa trên việc đo lường tính ổn định của SIFT (Scale invariant Feature Trasnorm) chúng. (Rusiñol & Lladós 2009; Lê Việt Phương, 2015) • Xác định hướng cho các điểm hấp dẫn là đặc trưng cục bộ bất biến đối với những phép (Orientation assignment): Một hoặc nhiều biến đổi tỉ lệ, tịnh tiến, phép quay và không đổi hướng được gán cho mỗi vị trí điểm hấp dẫn một phần đối với những thay đổi góc nhìn; đồng dựa trên hướng gradient cục bộ của ảnh. thời nó cũng rất mạnh với những thay đổi về độ • Mô tả các điểm hấp dẫn (Key-point sáng, sự che khuất, nhiễu. Phương pháp rút trích descriptor): Các gradient ảnh cục bộ được đặc trưng SIFT có thể được tóm tắt như sau: xác định ở tỷ lệ được chọn trong vùng bao • Phát hiện các điểm cực trị Scale-Space quanh mỗi điểm hấp dẫn. Các gradient được (Scale-Space extrema detection): Sử dụng biểu diễn sang một dạng mà cho phép bất hàm sai khác Gausian (Different-of- biến với sự thay đổi về hình dạng và điều Gaussian) để xác định tất cả các điểm hấp kiện chiếu sáng. dẫn tiềm năng mà bất biến với quy mô và Hình 2 là mô phỏng biên độ gradient của hướng hướng của ảnh. tại mỗi mẫu ảnh trong một vùng lân cận với điểm • Định vị các điểm hấp dẫn (key-point hấp dẫn. Mỗi điểm hấp dẫn sau khi được xác định localization): Ứng với mỗi vị trí tiềm năng, hướng sẽ được mô tả dưới dạng một vec-tor đặc hàm kiểm tra sẽ được đưa ra để quyết định trưng có 4 x 4 x 8=128 chiều. xem các điểm hấp dẫn tiềm năng có được lựa 98
  4. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 Hình 2. Ví dụ mô tả SIFT trong vùng kích thước 4 x 4 x 8 2.3 Phân cụm các đặc trưng với giải thuật DBSCAN (Ester & cs., 1996; Yaikhom, 1996) DBSCAN xác định số lượng các cụm một cách tự động và Density-Based Spatial Clustering of Application các cụm có hình dạng bất kỳ, điều này phù hợp with Noise (DBSCAN) là giải thuật phân cụm dựa với bất kỳ đối tượng nào trong ảnh tài liệu khi tiến trên mật độ đề xuất bởi Ester, Kriegel và Sander hành phân rã ảnh tài liệu. Việc phân cụm các đặc vào năm 1996. DBSCAN sử dụng hai tham số: trưng cục bộ giúp chúng ta tìm ra được các khối Khoảng cách (eps) và số điểm ít nhất cần có để cho từng đối tượng trong ảnh tài liệu như: đoạn thành một cụm MinPts. Không giống như giải văn bản, ảnh, bảng biểu… thuật phân cụm dựa trên khoảng cách khác, Hình 3. Kết quả phân cụm bởi giải thuật DBSCAN (mỗi cụm một màu). Thuật toán DBSCAN có thể tìm ra các cụm với chi tiết đối tượng cụ thể như ảnh, đoạn văn bản, hình thù bất kỳ, trong khi đó tại cùng một thời bảng biểu, logo.... Như trong hình 4(a) cho thấy điểm ít bị ảnh hưởng bởi thứ tự của các đối tượng được có những vùng ảnh được phân vùng chưa dữ liệu nhập vào. Khi có một đối tượng được chèn chính xác như vùng được đánh dấu số 1, 2 và vào chỉ tác động đến một láng giềng xác định. Eps được bao màu xanh. Khi đó để việc phân đoạn và MinPts là hai tham số toàn cục được xác định ảnh mang lại độ chính xác cao, phân vùng được bằng thủ công hoặc theo kinh nghiệm. Tham số từng đối tượng ảnh, đoạn văn bản... chúng tôi đã Eps được đưa vào là nhỏ so với kích thước của xử lý thêm cho những vùng được tô màu xanh không gian dữ liệu, thì độ phức tạp tính toán trung bằng cách kiểm tra nếu những phân đoạn ảnh có bình của mỗi truy vấn là O(nlogn). kích thước lớn hơn 1/5 của ảnh tài liệu thì cần Trong thực nghiệm trên giá trị 𝑒𝑝𝑠 = gom nhóm các đặc trưng cục bộ với DBSCAN lần max(𝑤, ℎ) /100 được chọn, trong đó w, h là độ 2 với ngưỡng eps nhỏ hơn eps=eps*85%. Kết quả cao và độ rộng của ảnh tài liệu. Tuy nhiên với trong hình 10(b) cho thấy kết quả tối ưu hơn. ngưỡng eps này đôi khi không phân vùng được 99
  5. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 (a) (b) Hình 4. Kết quả gom cụm đặc trưng cục bộ DBSCAN lần 2 với các vùng ảnh 1,2 trong hình 4 (a) vì lớn hơn 1/5 của kích thước ảnh tài liệu. Những vùng được đánh số 1.1, 1.2 là được gom cụm lại từ vùng 1 như kết quả trong hình 4 (b). 2.4 Phương pháp đối sánh điểm đặc trưng của key-point với chiều dài của nó tùy thuộc vào Một phân đoạn ảnh cho trước 𝐿𝑖 được biểu diễn mô tả đặc trưng cục bộ (ví dụ, một vector 128- bằng 𝑛𝑖 các điểm đặc trưng (key-point). Mỗi điểm chiều của mô tả SIFT và một vector 256-chiều của đặc trưng k được mô tả bằng một vector đặc trưng mô tả BRIEF(Calonder, Lepetit, Strecha, & Fua, Dk . Có thể được biểu diễn như sau: 2010)). Một key-point q thứ i trong phân vùng 𝑞 ảnh được ký hiệu bằng 𝐿𝑖 . 𝐿𝑖 = {(𝑥𝑘 , 𝑦𝑘 , 𝐷𝑘 )} 𝑤𝑖𝑡ℎ 𝑘 ∈ {1, … , 𝑛𝑖 } (1) Tương tự như vậy, một ảnh tài liệu 𝑇𝑖 được biểu diễn bằng một tập hợp các key-point đặc trưng trong đó 𝑥𝑘 , 𝑦𝑘 là vị trí x và y của điểm phát hiện cục bộ được phát hiện trong ảnh tài liệu thứ i: đặc trưng cục bộ thứ k. 𝐷𝑘 là một vector mô tả 𝑇𝑖 = {(𝑥𝑘 , 𝑦𝑘 , 𝐷𝑘 )} 𝑤𝑖𝑡ℎ 𝑘 ∈ {1, … , 𝑚𝑖 } (2) và mỗi một phần tử tiếp theo cũng được mô tả hợp điểm key-point của ảnh được đối sánh. Trong tương tự như trên. phương thức này, láng giềng gần nhất được định Hai vector đặc trưng được định nghĩa là gần nhất nghĩa là một key-point với khoảng cách gần nhất nếu chúng có khoảng cách gần nhất. Khoảng cách trong không gian mô tả. giữa hai điểm cũng được xét theo nhiều cách như Việc đối sánh các điểm đặc trưng được thực hiện độ đo Cosine, khoảng cách góc, khoảng cách trên từng điểm đặc trưng của ảnh tài liệu cần đối Euclid, khoảng cách city-block. sánh. Mỗi điểm đặc trưng q của ảnh cần đối sánh Đối sánh các điểm đặc trưng cục bộ là việc so đi tìm hai điểm đặc trưng t1 và t2 của ảnh tài liệu sánh giữa tập các key-points được phát hiện trong truy vấn sau cho hai điểm này là gần nhất theo ảnh đối sánh và tập key-point được phát hiện khoảng cách Euclidean trong không gian của trong ảnh được đối sánh. Để xác định key-point vector đặc trưng (ví dụ không gian 128 chiều của được gọi là khớp nhau (giống nhau) bằng cách vector đặc trưng SIFT). xác định các điểm láng giềng gần nhất trong tập 100
  6. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 𝑑1 = 𝑚𝑖𝑛𝑘 (||𝑆𝑞 − 𝑆𝑘 ||) Và 𝑘 ∗ = 𝑎𝑟𝑔𝑚𝑖𝑛𝑘 (||𝑆𝑞 − 𝑆𝑘 ||) (3) 𝑑2 = 𝑚𝑖𝑛𝑘#𝑘 ∗ (||𝑆𝑞 − 𝑆𝑘 ||) Với ||𝑆𝑞 − 𝑆𝑘 || là khoảng cách Euclidean giữa mờ không rõ ràng khi chọn điểm đối sánh là t1 hai vector mô tả 𝑆𝑞 𝑣à 𝑆𝑘 của hai điểm đặc trưng trong khi t2 cũng là điểm đối sánh tiềm năng. tương ứng q và k. Trong trường hợp ngược lại, khi 𝑟 ≤ 𝜑 thì có sự 𝑑1 phân biệt nhất định giữa t1 và t2’, do đó cặp đối Tỉ số 𝑟 = 𝑑2 sẽ được dùng để quyết định cặp đối sánh (q, t1) sẽ được chấp nhận. Trong thực sánh (q,t1) có thích hợp hay không dựa trên nghiệm, chúng tôi chọn 𝜑 = 0.75 dựa trên các ngưỡng 𝜑 cho trước. Nếu 𝑟 > 𝜑 có nghĩa là cặp thực nghiệm. đối sánh này không đáng tin cậy, vì sẽ có sự mập 2.5 Gom nhóm các đặc trưng được đối sánh Sau khi các đặc trưng cục bộ đã được đối sánh để tìm ra các cặp đặc trưng tương đồng thỏa điều kiện ngưỡng 𝜑 = 0.75. Tuy nhiên vẫn sẽ còn những cụm key-point không chính xác do khi đối sánh hai ảnh tài liệu có nhiều đối tượng như hình ảnh, bảng biểu, biểu đồ và văn bản; đặc biệt là văn bản sẽ tìm ra nhiều cặp key-point tương đồng ở các khối văn bản khác trên ảnh tài liệu như hình 5. Chính vì vậy sau khi tìm được số cặp key-point tương đồng chúng tôi tiến hành gom nhóm các key-point tương đồng của ảnh tài liệu thứ hai với thuật toán gom cụm DBSCAN và trên thực nghiệm chúng tôi xác định được tham số eps=max(w,h)/2 với w, h là độ rộng và độ cao của khối ảnh đang được đối sánh và MinPts=4 là hai tham số tối ưu được thực nghiệm cho việc tìm ra nhóm có số key-point cao nhất. Hình 5. (trái) Ảnh mô tả các cặp key-point được đối sánh trước khi gom nhóm và (phải) sau khi đã gom nhóm. 2.6 Lọc key-point được đối sánh với hay sai chưa tốt. Chúng tôi tiến hành lọc các key- Homography và định vị point không thực sự chính xác và xác định vùng Sau khi thực hiện gom nhóm các đặc trưng cục bộ ảnh của ảnh tài liệu đối sánh trên ảnh được đối được đối sánh kết quả đạt được như hình 5, tuy sánh dựa trên Homography dùng RANSAC(Lê nhiên, trong kết quả biểu diễn các đường nối các Việt Phương, Nayef, Visani, Ogier, & Trần Cao cặp keypoint đối sánh, còn một số keypoint chưa Đệ, 2014; Lê Việt Phương, Visani, Trần Cao Đệ, chính xác (các đường màu vàng); từ đó dẫn đến & Ogier, 2013; Krishnan & Jawahar 2016; Lê việc định vị vùng ảnh được đối sánh không chính Việt Phương, 2015; Lê Việt Phương, Đặng Quốc xác, cũng như tỉ lệ % xác định vùng ảnh là đúng Bảo, & Trần Cao Đệ, 2015). 101
  7. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 (a) (b) (c) (d) Hình 6. Ảnh mô tả những cặp key-point được đối sánh sau khi được RANSAC loại bỏ những điểm đặc trưng không thực sự giống nhau. Trong thực nghiệm đối sánh ảnh tài liệu đã phát nhiều key-point tương đồng nhau. Ngược lại, nếu hiện ra được những vùng ảnh không giống nhau chọn ngưỡng quá thấp thì sẽ có nhiều vùng không trên hai ảnh tài liệu với một số trường hợp cụ thể, giống nhưng bị nhận lầm là giống nhau dẫn đến khi tỉ lệ phần % key-point nhỏ hơn ngưỡng 𝜔 = kết quả đối sánh không cao; do có thể bị phát hiện 7%. Nếu chọn ngưỡng cao sẽ dẫn đến việc bỏ qua nhầm các vùng ảnh có bố cục phức tạp, hoặc ảnh những vùng đúng nhưng có tỉ lệ thấp do bố cục scan bị mờ. Từ đó cho thấy việc chọn ngưỡng cao ảnh phức tạp nhiều ảnh, văn bản hay biểu đồ… có sẽ hạn chế được lỗi phát hiện nhầm nhưng cũng sẽ 102
  8. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 loại bỏ những vùng đúng có tỉ lệ thấp như hình sánh lần 2 giữa vùng cần đối sánh với tất cả 6(a). key-point trích xuất này. Khi đó 𝑠𝑖 (𝑥𝑖1 , 𝑥𝑖2 ) là Để khắc phục nhược điểm này, chúng tôi đề xuất tọa độ của các điểm key-point được đối sánh giải pháp cải tiến nâng cao tỉ lệ bằng cách cố gắng trong phân đoạn ảnh của ảnh tài liệu đối sánh tìm kiếm thêm các cặp key-point đúng. Để tìm cần được đối sánh, và 𝑡𝑖 (𝑦𝑖1 , 𝑦𝑖2 ) là tọa độ của kiếm thêm các cặp key-point đúng, chúng tôi tiến các điểm key-point được đối sánh trong hình hành thực nghiệm đối sánh ảnh tài liệu lần 2 ảnh được đối sánh. nhưng chỉ với các key-point nằm trong vùng đã 3. Ước lượng lại phép biến đổi H bằng cách sử xác định của ảnh được đối sánh (Lê Việt Phương dụng tất cả các cặp key-point được đối sánh & Trần Cao Đệ, 2015; Lê Việt Phương, Visani, (𝑠𝑖 , 𝑡𝑖 ) trong bước 2. Trần Cao Đệ, & Ogier, 2013). Việc này sẽ làm 4. Lọc các điểm key-point không thật sự chính tăng tỉ lệ key-point đúng lên cao hơn nếu hai vùng xác: 𝑖𝑓 ‖𝑡𝑖 − 𝐻(𝑠𝑖 )‖ ≥ 𝜃 thì loại số key-point ảnh thật sự giống nhau và sẽ không tăng tỉ lệ key- được đối sánh không thực sự chính xác. point đúng (hoặc tăng không đáng kể) nếu hai 5. Xác định lại vị trí phân đoạn ảnh tài liệu được vùng ảnh thật sự khác nhau. Thuật toán được đề ước tính dựa trên bốn góc và phép biến đổi H. xuất cho việc lọc các keypoint không chính xác và 6. Cuối cùng, xác định tỉ lệ % của số key-point định vị vị trí của phân đoạn ảnh trong ảnh tài liệu được đối sánh và số key-point của phân đoạn đối sánh so với ảnh được đối sánh như sau: ảnh trên ảnh tài liệu đối sánh để xác định được là phân đoạn ảnh có giống hay khác trên ảnh Đối với mỗi ứng viên trong vùng của phân đoạn được đối sánh với ngưỡng tỉ lệ cho trước. ảnh tài liệu: Trong kết quả trình bày của hình 7 sau khi thực 1. Tìm một phép biến đổi H giữa các cặp key- hiện tính số key-point của vùng được đối sánh và point được đối sánh trong vùng ứng viên của thực hiện đối sánh lần 2 thì kết quả tỉ lệ % đã lớn phân đoạn ảnh tài liệu. hơn ngưỡng 7%. Do đó, thay vì bị kết luận là sai 2. Xác định một vùng giới hạn có thể chứa một như trường hợp trong hình 7(a), sau khi thực hiện phân đoạn ảnh trong ảnh được đối sánh, nhờ đối sánh theo thuật giải đã cải tiến thì kết quả đã vào phép biến đổi H và bốn góc của vùng phân được ghi nhận là đúng như hình 7(b). Và so với đoạn ảnh tài liệu. Trích xuất tất cả các key- kết quả quan sát thực tế là các vùng ảnh là đúng. point trong vùng giới hạn này. Tiến hành đối (a) (b) Hình 7. Kết quả đối sánh vùng ảnh với tỉ lệ là 6.8% (a) và kết quả đối sánh sau cải tiến là 14.43% 2.7 Xác định vùng ảnh tài liệu bị sai vị trí phải kiểm tra vị trí xuất hiện của đối tượng có Kết thúc quá trình đối sánh, chúng tôi xác định đúng vị trí tương đối so với ảnh đối sánh hay được những đối tượng tồn tại (hoặc không tồn tại) không. Vì vậy mà công việc tiếp theo của nghiên và vị trí của nó trong ảnh được đối sánh. Tuy cứu là xác định các vùng đã cho là đúng có bị sai nhiên, theo nhu cầu thực tế bài toán đặt ra là cần vị trí về mặt bố cục không. 103
  9. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 Để thực hiện, chúng tôi tiến hành so sánh vị trí Sau khi phân rã ảnh với DBSCAN, chúng tôi tiến tương đối của tâm của hai vùng ảnh so với biên hành bước thứ hai là thực hiện việc tìm từng khối của hai ảnh đã được chuẩn hoá. Hai vùng ảnh ảnh của ảnh thứ nhất trên ảnh thứ hai với việc đối được cho là không đúng vị trí khi các tọa độ của sánh các cặp đặc trưng cục bộ được mô tả bởi các vùng ảnh bị lệch nhau ở một ngưỡng cho trước vector mô tả SIFT. Trong quá trình đối sánh các (trong thực nghiệm dùng α=0.05). cặp đặc trưng cục bộ để xác định khối ảnh có 3. KẾT QUẢ VÀ THẢO LUẬN trong ảnh thứ hai không, chúng tôi thực hiện tính tỉ lệ giữa số key-point được tìm trên ảnh thứ hai Trong phần thực nghiệm, chúng tiến hành cài đặt và số key-point của ảnh thứ nhất với giá trị bằng ngôn ngữ Python và sử dụng thư viện mã ngưỡng 𝜔 = 0.07. Nghĩa là nếu số lượng key- nguồn mở OpenCV của Intel (Bradski & Kaehler, point được tìm thấy trên ảnh thứ hai đạt tỉ lệ là 7% 2012; Laganière, 2011) thực hiện việc trích đặc trở lên so với số key-point được trích đặc trưng từ trưng SIFT (Đặng Quốc Bảo & cs, 2015; Lê Việt khối ảnh thứ nhất. Thì xác định là khối ảnh có Phương & Trần Cao Đệ, 2015), SURF(Bay, trong ảnh thứ hai và ngược lại thì đánh dấu khối Tuytelaars, & Van Gool, 2006; Đặng Quốc Bảo & ảnh đó không có tại vị trí trên ảnh số hai. cs, 2015; Mandle & Pahadiya, 2016) và đối sánh các đặc trưng cục bộ. Sử dụng DBSCAN trong Như trên hình 8.a thể hiện tỉ lệ đối sánh giữa thư viện sklearn.cluster cho quá trình gom cụm khối ảnh trên ảnh đối sánh và ảnh được đối sánh các đặc trưng cục bộ. Chúng tôi sử dụng tập dữ thỏa điều kiện đạt tỉ lệ key-point trên ngưỡng ω = liệu thực tế từ bộ phận “đọc lưu chiểu” của Sở 0.07. Và với hình 8.b thể hiện tỉ lệ số key-point Thông tin và Truyền thông tỉnh An Giang với số không thỏa ngưỡng ω = 0.07. Và cuối cùng ở ảnh tài liệu chạy thực nghiệm là 223 ảnh. hình 8.c thể hiện kết quả đối sánh giữa hai ảnh tài liệu với nhau. (a) (b) 104
  10. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 (c) Hình 8. Kết quả đối sánh ảnh tài liệu, xác định được có 3 vùng không giống nhau được vẽ khung màu đỏ và 1 vùng sai vị trí được vẽ khung màu vàng Trong bảng 1 trình bày kết quả đánh giá độ chính xác của công cụ đối sánh ảnh tài liệu với hai kỹ thuật SIFT, SURF. Bảng 1. Kết quả đánh giá độ chính xác của công cụ “Đọc lưu chiểu dựa trên phương pháp đối sánh ảnh tài liệu” Từ kết quả độ chính xác của công cụ đối sánh ảnh Tuy nhiên bên cạnh đó công cụ vẫn chưa thể hỗ tài liệu, cho thấy cả hai giá trị precision và recall trợ chính xác tuyệt đối cho việc tìm ra hết các đều cao, từ đó kết quả đối sánh ảnh tài liệu với vùng khác nhau, các vùng sai vị trí. Cũng như phương pháp đối sánh các điểm đặc trưng cục bộ công cụ vẫn còn phát hiện nhầm các vùng bị sai, SIFT, SURF mang lại kết quả cao trong phạm vi một phần do chất lượng ảnh tài liệu scan vào của tập dữ liệu thực nghiệm. không tốt như trong hình 9 thể hiện một số trường hợp công cụ bị phát hiện nhầm như sau: 105
  11. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 (a:Nguyên nhân do bản in và bản xin cấp phép khi scan bị mờ) (b: Nguyên nhân ảnh tài liệu khi scan bị mất thông tin thực tế so với bản in ) (c: Số lượng keypoint được phát hiện không đủ % ngưỡng xác định là đúng) Hình 9. Ảnh bị phát hiện các vùng ảnh bị sai không đúng thực thực tế quan sát. 106
  12. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 4. KẾT LUẬN VÀ KHUYẾN NGHỊ Augereau, O., Journet, N., & Domenger, J.-P. Bài báo đã trình bày giải pháp đối sánh ảnh tài (2013). Semi-structured document image liệu với mục tiêu tìm ra được những vùng không matching and recognition, 8658, 865804. giống nhau, sai vị trí trên hai ảnh tài liệu. Với mô https://doi.org/10.1117/12.2003911 hình đề xuất đối sánh ảnh tài liệu qua năm giai Calonder, M., Lepetit, V., Strecha, C., & Fua, P. đoạn: (1) Trích đặc trưng cục bộ ảnh tài liệu với (2010). BRIEF: Binary robust independent đặc trưng cục bộ SIFT, SURF; (2) Gom cụm các elementary features. Lecture Notes in đặc trưng cục bộ với DBSCAN và gom cụm lại Computer Science (Including Subseries khi vùng ảnh được gom lớn hơn 1/5 kích thước Lecture Notes in Artificial Intelligence and ảnh tài liệu; (3) Đối sánh các đặc trưng cục bộ; (4) Lecture Notes in Bioinformatics), 6314 Định vị và xác định vị trí của vùng đối sánh LNCS(PART 4), 778–792. (Homography dùng RANSAC); (5) Xác định https://doi.org/10.1007/978-3-642-15561-1_56 vùng ảnh sai vị trí với đề xuất xác định tỉ lệ Đặng Quốc Bảo., Lê Việt Phương., Luqman, M. khoảng cách từ tâm vùng ảnh đến biên ảnh. Kết M., Coustaty, M., Trần Cao Đệ., & Ogier, J.- quả thực nghiệm cho thấy phương pháp đề xuất M. (2015). Camera-based document image đạt được độ chính xác cao có thể hỗ trợ cho công retrieval system using local features - tác đọc lưu chiểu. comparing SRIF with LLAH, SIFT, SURF and Trong tương lai chúng tôi sẽ ứng dụng kết quả ORB. In 2015 13th International Conference nghiên cứu trong các hệ thống văn phòng điện tử on Document Analysis and Recognition đáp ứng nhu cầu thực tế như: Xây dựng hệ thống (ICDAR) (pp. 1211–1215). IEEE. đối chiếu văn bản đã phát hành của một cơ quan https://doi.org/10.1109/ICDAR.2015.7333956 đơn vị, chấm bài thi tin học văn phòng tự động Edla, D. R., & Jana, P. K. (2012). A Prototype- qua ảnh kết quả bài thi... Bên cạnh đó, chúng tôi Based Modified DBSCAN for Gene tiếp tục nghiên cứu các giải thuật phân vùng và Clustering. Procedia Technology, 6, 485–492. đối sánh ảnh tài liệu cũng như việc kết hợp thêm https://doi.org/10.1016/j.protcy.2012.10.058 các đặc trưng khác về màu sắc, hình dạng, kết cấu... với mục tiêu nâng cao khả năng đối sánh Ester, M., Xu, X., Kriegel, H., & Sander, J. ảnh tài liệu. (1996). Density-based algorithm for discovering clusters in large spatial databases TÀI LIỆU THAM KHẢO with noise. Proc. Acm Sigkdd Int. Conf. Amerini, I., Ballan, L., Caldelli, R., Del Bimbo, Knowl. Discov. Data Min., pages, 226–231. A., & Serra, G. (2011). A SIFT-based forensic Retrieved from method for copy-move attack detection and http://dl.acm.org/citation.cfm?id=3001460.300 transformation recovery. IEEE Transactions 1507 on Information Forensics and Security, 6(3 PART 2), 1099–1110. Holzinger, W. E., Löcker, H., & Löcker, B. (2008). Fulgoromorpha of Seychelles: A https://doi.org/10.1109/TIFS.2011.2129512 preliminary checklist. Bulletin of Insectology, Atrayee Dhua, Sarma, D. N., Singh, S., & Roy, B. 61(1), 121–122. (2015). Segmentation of Images using https://doi.org/10.1007/11744023_32 Density-Based Algorithms. International Journal of Advanced Research in Computer Karami, E., Prasad, S., & Shehata, M. (2015). and Communication Engineering, 4 (5), 273– Image Matching Using SIFT , SURF , BRIEF 278. and ORB : Performance Comparison for https://doi.org/10.17148/IJARCCE.2015.4561 Distorted Images Image Matching Using SIFT, 107
  13. AGU International Journal of Sciences – 2019, Vol. 23 (2), 96 - 108 SURF, BRIEF and ORB: Performance Innovation, and Vision for Future (RIVF) (pp. Comparison for Distorted Images, (February 89–93). IEEE. 2016). https://doi.org/10.1109/RIVF.2015.7049880 https://doi.org/10.13140/RG.2.1.1558.3762 Le Viet Phuong, Visani, M., Tran, C. De, & Krishnan, P., & Jawahar, C. V. (2016). Matching Ogier, J.-M. (2013). Improving Logo Spotting handwritten document images. Lecture Notes and Matching for Document Categorization by in Computer Science (Including Subseries a Post-Filter Based on Homography. In 2013 Lecture Notes in Artificial Intelligence and 12th International Conference on Document Lecture Notes in Bioinformatics), 9905 LNCS, Analysis and Recognition (pp. 270–274). 766–782. IEEE. https://doi.org/10.1109/ICDAR.2013.61 https://doi.org/10.1007/978-3-319-46448-0_46 Lim, K.-L., & Galoogahi, H. K. (2010). Shape Le Viet Phuong (2015). Logo Detection, Classification Using Local and Global Recognition and Spotting in Context by Features. 2010 Fourth Pacific-Rim Symposium Matching Local Visual Features, (October). on Image and Video Technology, 115–120. Retrieved from https://doi.org/10.1109/PSIVT.2010.26 https://tel.archives-ouvertes.fr/tel-01373417 Lowe, D. G. (1999). Object recognition from local Le Viet Phuong., Dang Quoc Bao., & Trần Cao scale-invariant features. In Proceedings of the Đệ., (2015). Logo Spotting on Document Seventh IEEE International Conference on Images using Local Features. In Proceedings Computer Vision (pp.1150–1157, vol.2). of the Sixth International Symposium on https://doi.org/10.1109/ICCV.1999.790410 Information and Communication Technology - Mandle, P., & Pahadiya, B. (2016). An Advanced SoICT 2015 (pp. 1–8). New York, New York, Technique of Image Matching Using SIFT and USA: ACM Press. SURF, 5(5), 462–466. https://doi.org/10.1145/2833258.2833292 https://doi.org/10.17148/IJARCCE.2016.5510 Le Viet Phuong, Nayef, N., Visani, M., Ogier, J. 9 M., & Trần Cao Đệ., (2014). Document Raoui, Y., Houssine BOUYAKHF, E., Devy, M., retrieval based on logo spotting using key- & Regragui, F. (2011). Global and Local point matching. In Proceedings - International Image Descriptors for Content Based Image Conference on Pattern Recognition (pp. 3056– Retrieval and Object Recognition. Applied 3061). IEEE. Mathematical Sciences, 5(42), 2109–2136. https://doi.org/10.1109/ICPR.2014.527 Rusiñol, M., & Lladós, J. (2009). Logo spotting Le Viet Phuong, & Tran Cao De.,(2015). Key- by a bag-of-words approach for document point matching with post-filter using SIFT and categorization. Proceedings of the BRIEF in logo spotting. In The 2015 IEEE International Conference on Document RIVF International Conference on Computing Analysis and Recognition, ICDAR, 111–115. & Communication Technologies - Research, https://doi.org/10.1109/ICDAR.2009.103 108
nguon tai.lieu . vn