Xem mẫu

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00039 MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HỌC BIỂU DIỄN VÀ HỌC ĐA TẠP CHO GIẢM CHIỀU VỚI THÔNG TIN TỪ NGƯỜI DÙNG Cù Việt Dũng1, Nguyễn Hữu Quỳnh1, Ngô Quốc Tạo2, Trần Thị Minh Thu1 1 Khoa Công nghệ thông tin, Trƣờng Đại học Điện lực, 2 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam dungcv@epu.edu.vn, nhquynh@epu.edu.vn, thuttm@epu.edu.vn TÓM TẮT: Trong những năm gần đây, đã có nhiều phương pháp tra cứu ảnh được đông đảo các nhóm tác giả nghiên cứu và đề xuất. Tuy nhiên, các phương pháp này thường dùng một số đặc trưng thủ công và phản hồi trên tập mẫu có số lượng hạn chế nhưng số chiều đặc trưng mức lớn (the curse of dimensionality) trong không gian đặc trưng dẫn đến kết quả độ chính xác kém. Trong bài báo này, chúng tôi đề xuất một phương pháp tra cứu ảnh RMLIR hiệu quả cho phép cải thiện kết quả độ chính xác. Phương pháp của chúng tôi khai thác việc học biểu diễn ảnh bằng cách tận dụng một mô hình học sâu đã huấn luyện với tập dữ liệu lớn và tận dụng thông tin phản hồi của người dùng giải quyết vấn đề chiều đặc trưng lớn so với số mẫu phản hồi thông qua học đa tạp cho giảm chiều. Chúng tôi cũng cung cấp các kết quả và đánh giá thực nghiệm trên cơ sở dữ liệu đặc trưng 10800 ảnh để chỉ ra độ chính xác của phương pháp đề xuất. Từ khóa: Tra cứu ảnh dựa vào nội dung, tiền huấn luyện, học biểu diễn, mạng nơron tích chập, học đa tạp, giảm chiều. I. GIỚI THIỆU Hiệu quả tra cứu của một hệ thống tra cứu ảnh dựa vào nội dung chủ yếu phụ thuộc vào biểu diễn đặc trƣng và độ đo tƣơng tự, những điều này đã đƣợc nghiên cứu rộng rãi bởi các nhà nghiên cứu đa phƣơng tiện trong nhiều thập kỷ qua. Mặc dù một loạt các kỹ thuật đã đƣợc đề xuất nhƣng nó vẫn là một trong những thách thức to lớn trong nghiên cứu tra cứu ảnh dựa vào nội dung (CBIR). Về cốt lõi, các đặc trƣng hình ảnh ảnh hƣởng đến mọi khía cạnh của các ứng dụng thị giác máy tính bao gồm cả CBIR. Sự hiệu quả của bất kỳ hệ thống CBIR nào chủ yếu phụ thuộc vào biểu diễn đặc trƣng của các hình ảnh đƣợc trích rút bằng cách áp dụng một mô tả hình ảnh. Mặc dù trong nhiều thập kỷ qua, một loạt các kỹ thuật trích rút đặc trƣng đƣợc đƣa ra để tìm ra các biểu diễn hình ảnh phong phú và đầy đủ hơn về mặt ngữ nghĩa, nhƣng nó vẫn còn là một thách thức to lớn trong các ứng dụng CBIR. Các đặc trƣng thủ công đƣợc sử dụng nhiều trong các ứng dụng CBIR thông thƣờng để định lƣợng, biểu diễn nội dung của bức ảnh. Các ứng dụng trƣớc đây chủ yếu tập trung vào các đặc trƣng nguyên thủy (đặc trƣng toàn cục) mô tả toàn bộ một bức ảnh dƣới dạng một véctơ duy nhất, chẳng hạn nhữ biểu diễn màu, kết cấu hoặc đặc trƣng hình dạng. Trong hệ thống, các ảnh đƣợc biểu diễn bởi ba đặc trƣng chính: màu [1; 10; 16], kết cấu [5] và hình dạng [1; 16]. Đặc trƣng màu là đặc trƣng quan trọng nhất cho tra cứu ảnh bởi vì đặc trƣng này không nhạy cảm với tỉ lệ, xoay, cảnh trông xa và che lấp của ảnh [10]. Đặc trƣng kết cấu là một tín hiệu quan trọng khác cho tra cứu ảnh. Các nghiên cứu trƣớc đây đã chỉ ra rằng thông tin kết cấu theo cấu trúc và hƣớng phù hợp tốt với mô hình nhận thức của con ngƣời và thông tin hình dạng cũng vậy. Trong khi các kỹ thuật trên tập trung vào các đặc trƣng toàn cục thì các kỹ thuật sau đó đã cải thiện để tìm các biểu diễn ảnh bằng cách trích rút một tập các đặc trƣng bất biến cục bộ và các đặc trƣng riêng lẻ có thể đƣợc khớp với một cơ sở dữ liệu lớn của các đối tƣợng. Một trong những kỹ thuật hiệu quả nhát là kỹ thuật bag of visual words (BOVW), sử dụng các mô tả cục bộ mạnh mẽ nhƣ Scale Invariant Feature Transform (SIFT) [ 9], Speeded Up Robust Features (SURF) [2], and Binary Robust Invariant Scalable Keypoints (BRISK) [8]. Tuy nhiên nhƣợc điểm chính của BOVW là để biểu diễn một bức ảnh cần có một véctơ có số chiều lớn, mặc dù véctơ với số chiều lớn thƣờng cung cấp cho chúng ta một kết quả tốt hơn so với chiều thấp nhƣng lại gây khó khăn trong việc lập chỉ mục, tốc độ tính toán tra cứu sẽ lâu hơn. Sau đó các véctơ nhƣ Fisher Vector (FV) [ 12] và Vector of Locally Aggregated Descriptors (VLAD) [7] nhằm giải quyết vấn đề này bằng cách mã hóa một bức ảnh thành một véctơ giảm kích thƣớc mà không ảnh hƣởng đáng kể đến độ chính xác. Tuy nhiên, hiệu quả của biểu diễn đặc trƣng thủ công trong CBIR vốn đã bị hạn chế, vì những cách tiếp cận này chủ yếu thƣờng sử dụng kiến trúc mạng nông và chỉ dựa vào các đặc trƣng toàn cục, cục bộ thông thƣờng không thể mô tả ngữ nghĩa của toàn bộ bức ảnh. Các mô hình CNN cố gắng để mô hình trừu tƣợng hóa mức cao trong hình ảnh bằng cách sử dụng các kiến trúc sâu bao gồm nhiều biến đổi phi tuyến tính [15]. Trong CNN, các đặc trƣng đƣợc trích rút ở nhiều cấp độ tóm tắt và cho phép hệ thống học các hàm phức tạp, ánh xạ trực tiếp dữ liệu đầu vào thô thành đầu ra, mà không cần dựa vào các đặc trƣng đƣợc thiết kế thủ công sử dụng tri thức miền. Hiện tại vấn đề khó khăn chính là vấn đề khoảng cách ngữ nghĩa giữa các điểm ảnh mức thấp đƣợc thu bởi máy móc và khái niệm ngữ nghĩa mức cao đƣợc con ngƣời cảm nhận. Thách thức nhƣ vậy có thể bắt nguồn từ thách thức cơ bản của trí tuệ nhân tạo, đó là cách chúng ta xây dựng và huấn luyện máy tính thông minh nhƣ con ngƣời để giải quyết các vấn đề trong thế giới thực. Học máy là một trong những kỹ thuật đầy hứa hẹn sẽ giải quyết đƣợc những khó khăn, thách thức này. Để giảm khoảng cách giữa các đặc trƣng trực quan mức thấp và các khái niệm ngữ nghĩa mức cao,
  2. 308 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH KHAI THÁC HIỆU QUẢ THÔNG TIN PHẢN HỒI TỪ NGƢỜI DÙNG cách tiếp cận phản hồi liên quan (RF) đƣợc ƣu tiên lựa chọn trong các phƣơng pháp đề xuất [6, 17, 18]. Trong RF, tƣơng tác giữa ngƣời dùng và hệ thống tra cứu ảnh đƣợc cho phép và mục đích của RF là thu đƣợc các mẫu âm và dƣơng từ ngƣời dùng. Trong phản hồi liên quan, các mẫu do ngƣời dùng cung cấp thƣờng rất nhỏ so với chiều của đặc trƣng. Điều này làm cho các thuật toán hiệu quả trong không gian chiều thấp trở nên không còn ý nghĩa, chúng ta phải giải quyết bài toán gọi là “curse of dimensionality”. Trong bài báo này, chúng tôi đề xuất một phƣơng pháp tra cứu ảnh RMLIR (representations learning and manifold learning for dimensionality reduction in image retrieval) học biểu diễn ảnh và học đa tạp cho giảm chiều với phản hồi liên quan dựa vào SVM. RMLIR dựa vào quan sát rằng 1) chúng tôi thu đƣợc đặc trƣng mức cao của ảnh bằng việc học biểu diễn ảnh sử dụng mô hình tiền huấn luyện CNN. 2) giải quyết vấn đề quá khớp do “curse of dimensionality” cho pha phản hồi liên quan bằng một thuật toán học manifold cho giảm chiều khai thác tính chất hình học của dữ liệu đa tạp. Phần còn lại bài báo này đƣợc tổ chức nhƣ sau: Trong phần 2, chúng tôi trình bày phƣơng pháp tra cứu ảnh đề xuất. Phần 3 mô tả các thực nghiệm độ chính xác của chúng tôi và thảo luận các kết quả. Cuối cùng, chúng tôi đƣa ra kết luận trong phần 4. II. PHƢƠNG PHÁP TRA CỨU ẢNH ĐỀ XUẤT Trong phần này chúng tôi giới thiệu đề xuất một phƣơng pháp cứu ảnh dựa vào nội dung bao gồm hai giai đoạn: (1) học biểu diễn ảnh dựa trên tiền huấn luyện một mô hình học sâu với một tập dữ liệu huấn luyện lớn cho trƣớc ImageNet; (2) giải quyết vấn đề quá khớp bằng phƣơng pháp học manifold cho giảm chiều cho tập đặc trƣng có số chiều lớn khi phản hồi. 1. Học biểu diễn ảnh Nhƣ đƣợc trình bày trong phần trƣớc, hầu hết các hệ thống CBIR đều phụ thuộc chủ yếu vào cách biểu diễn đặc trƣng của hình ảnh. Tuy nhiên với một hệ thống CBIR thông thƣờng chỉ quan tâm đến cách biểu diễn ảnh bằng cách trích rút các đặc trƣng toàn cục hoặc cục bộ một cách thủ công dẫn đến hiệu năng của hệ thống nghèo nàn. Do đó, trong phần này, chúng tôi đề xuất kỹ thuật dựa trên học biểu diễn ảnh sử dụng mạng sâu CNN tạo ra các đặc trƣng mức cao từ hình ảnh. Trong phƣơng pháp đề xuất, chúng tôi sử dụng một mô hình CNN đã đƣợc tiền huấn luyện trên một tập dữ liệu rất lớn, sau đó sử dụng mô hình làm khởi tạo để trích rút đặc trƣng mức cao, còn đƣợc gọi là học biểu diễn ảnh. Lý do chính chúng tôi chọn cách này là tƣơng đối hiếm khi chúng ta có một bộ dữ liệu đủ lớn để huấn luyện toàn bộ CNN từ đầu; ngoài ra, huấn luyện một mô hình CNN từ đầu sẽ mất rất nhiều thời gian. Các CNN thông thƣờng đƣợc dùng cho các bài toán mang nhiệm vụ phân loại hình ảnh trong đó một hình ảnh đƣợc lan truyền qua mạng và xác suất cuối cùng đƣợc lấy từ lớp cuối của mạng. Tuy nhiên, trong quá trình học biểu diễn, thay vì cho phép hình ảnh lan truyền qua toàn bộ mạng, chúng ta có thể dừng việc truyền ở một lớp tùy ý, chẳng hạn nhƣ lớp đƣợc kết nối đầy đủ cuối cùng và trích rút các giá trị từ mạng tại thời điểm này, sau đó sử dụng chúng nhƣ các vectơ đặc trƣng. Hình 1. Kiến trúc mô hình CNN Trong phƣơng pháp đề xuất, chúng tôi chỉ sử dụng đơn thuần các lớp chập để trích rút đặc trƣng. Mục đích là để khái quát một bộ CNN đã huấn luyện trong việc học các đặc trƣng riêng biệt biểu diễn cho bức ảnh trong tập dữ liệu. Mô hình đã huấn luyện đƣợc sử dụng để lấy các véctơ đặc trƣng mạnh hơn so với lấy bằng một số thuật toán thiết kế bằng tay nhƣ SIFT, GIST, HOG,…. Chúng tôi khai thác khả năng của một mô hình khung mạng nơron tích chập đƣợc biết đến rộng rãi là ImageNet đã huấn luyện trƣớc trong ILSVRC 2012 với 1,2 triệu hình ảnh và 1000 khái niệm để nắm bắt các đặc trƣng nổi bật của hình ảnh. Nó bao gồm các lớp chập, các lớp pooling và lớp kết nối đầy đủ. Các lớp phía trƣớc thƣờng là các Convolutional layers kết hợp với các nonlinear activation functions và pooling layers (và đƣợc gọi chung là ConvNet). Layer cuối cùng là một Fully Connected Layer và thƣờng là một Softmax Regression (Hình 1). Số lƣợng đơn vị ở lớp cuối cùng bằng với số lƣợng lớp (với ImageNet là 1000). Vì vậy đầu ra ở lớp gần cuối cùng có thể đƣợc coi là véctơ đặc trƣng hữu ích và Softmax Regression chính là bộ phân lớp đƣợc sử dụng. Mô hình sử dụng đầu vào có kích thƣớc cố định 256x256, trong khi tập dữ liệu sử dụng trong phƣơng pháp đề xuất có kích thƣớc các
  3. Cù Việt Dũng, Nguyễn Hữu Quỳnh, Trần Thị Minh Thu 309 bức ảnh không cố định, vì vậy nên các bức ảnh đƣợc tiền xử lý bằng cách biến đổi các tấm ảnh về kích thƣớc 256x256. Khi coi mạng để trích rút đặc trƣng cố định, chúng tôi đã cắt mạng tại một điểm trƣớc lớp kết nối đầy đủ cuối cùng do đó tất cả các hình ảnh sẽ đƣợc trích rút từ kích hoạt của ánh xạ đặc trƣng tích chập trực tiếp. Do đó sẽ cho ta một véctơ đặc trƣng 1000 chiều cho mỗi bức ảnh. Hình 2. Kiến trúc học biểu diễn dựa trên tiền huấn luyện mô hình CNN Hình 3 trình bày thuật toán học biểu diễn ảnh RIL dựa vào tiền huấn luyện mạng học sâu CNN thu đƣợc tập đặc trƣng mức cao. Thuật toán nhận đầu vào là một tập các ảnh và mô hình đã tiền huấn luyện CNN trên bộ ImageNet. Thuật toán RIL Input: - Tập ảnh cần học - Mô hình tiền huấn luyện M Output: - Tập biểu diễn ảnh 1. Model ← LoadModel (M); 2. S← ; 3. for i=1, ..., n do 3.1 si ← ExtractFeature (xi, Model); 3.2 S = S si 4. Return S Hình 3. Thuật toán học biểu diễn RIL 2. Học đa tạp cho giảm chiều Đặc trƣng mà chúng tôi thu đƣợc qua thuật toán RIL có số chiều rất lớn, cho nên cần phải khám phá cấu trúc hình học của đa tạp để biểu diễn đặc trƣng trong một không gian số chiều thấp hơn. Đầu tiên, xây dựng một đồ thị vô hƣớng kết hợp thông tin láng giềng của tập dữ liệu. Sử dụng Laplacian của đồ thị, chúng tôi tính toán một ma trận biến đổi để ánh xạ các điểm dữ liệu vào một không gian con. Sự biến đổi tuyến tính tối ƣu bảo tồn đƣợc thông tin láng giềng địa phƣơng trong một ý nghĩa nhất định. Biểu diễn ánh xạ đƣợc tạo bởi thuật toán có thể đƣợc xem nhƣ là một xấp xỉ rời rạc tuyến tính với một ánh xạ liên tục tự nhiên từ hình học của đa tạp. Cho là một đồ thị vô hƣớng với tập đỉnh là các điểm đƣợc lấy mẫu từ submanifold cơ bản M và các điểm này đã đƣợc gán nhãn. Chúng tôi xây dựng đồ thị lân cận G để mô hình tính chất hình học cục bộ của submanifold. Trong thực hành, chiều đặc trƣng n thƣờng rất cao. Mục tiêu của giảm chiều là tìm một phép chiếu mà biến đổi dữ liệu X từ không gian chiều cao gốc thành trong không gian chiều thấp d [3; 14]. (1) với mọi và , trong đó .
  4. 310 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH KHAI THÁC HIỆU QUẢ THÔNG TIN PHẢN HỒI TỪ NGƢỜI DÙNG Hình 4. Minh họa về giảm chiều từ không gian Rd về Rk (k
  5. Cù Việt Dũng, Nguyễn Hữu Quỳnh, Trần Thị Minh Thu 311 3. Phƣơng pháp tra cứu ảnh Thuật toán Input: Tập các ảnh: DB Mô hình tiền huấn luyện: M Ảnh truy vấn khởi tạo: Q Số các ảnh đƣợc trả về tại mỗi lần lặp: N Output: Tập kết quả đƣợc tra cứu: R 1. S RIL(DB, M); 2. Sq RIL(Q, M); 3. ResultInit(Q) RetrievalInit(Sq, S, N); 4. R= 5. Repeat 5.1. Feedback ; //Phản hồi liên quan: 5.2. MLDR(Ffea, Flabel); 5.3. ← ; 5.4. ← SVMClassifer ( Ffea, Flabel); 5.5. R ← anking( , Slabel, Sweight, N); until (User dừng phản hồi); 6. Return R; Hình 6. Thuật toán tra cứu RMLIR Thuật toán RMLIR trên Hình 6 thực hiện nhƣ sau: Khởi tạo truy vấn Học biểu diễn theo RIL MLDR Tính độ đo tƣơng Sắp xếp kết Gán nhãn tự quả Tập đặc trƣng của Tập huấn luyện ảnh cơ sở dữ liệu Học đa tạp cho giảm chiều Xếp hạng các ảnh cơ sở dữ liệu theo siêu Bộ phân lớp SVM phẳng tách Hình 7. Lƣợc đồ của hệ thống tra cứu ảnh đƣợc đề xuất Mỗi một ảnh trong tập ảnh DB đƣợc học biểu diễn (Bƣớc 1) là một điểm trong không gian đặc trƣng nhiều chiều. Khi một ngƣời dùng gửi vào một ảnh truy vấn khởi tạo Q trên giao diện truy vấn bởi mẫu, thuật toán sử dụng cùng một thủ tục nhƣ đối với ảnh cơ sở dữ liệu để học biểu diễn ảnh tạo Sq (Bƣớc 2) thành một điểm trong không gian
  6. 312 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH KHAI THÁC HIỆU QUẢ THÔNG TIN PHẢN HỒI TỪ NGƢỜI DÙNG đặc trƣng đó. Truy vấn khởi tạo RetrievalInit (Sq, S, N) đƣợc thực hiện (Bƣớc 3), ở đây số S là tập biểu diễn đã đƣợc học bởi tập ảnh cơ sở dữ liệu và N là số các ảnh đƣợc tra cứu trong tập S của mỗi lần lặp. Kết quả thực hiện truy vấn khởi tạo Resultinit(Q) đƣợc gán cho R (Bƣớc 4). Trên tập kết quả Resultinit(Q) trả về bởi truy vấn khởi tạo, ngƣời dùng phản hồi trên một giao diện đồ họa thông qua hàm Feedback(Resultinit(Q)) để đƣợc đặc trƣng Ffea và nhãn Flabel của tập m ảnh phản hồi (Bƣớc 5.1). Sau đó, thông tin phản hồi này đƣợc học đa tạp để giảm chiều thông qua hàm MLDR(Ffea, Flabel) thu đƣợc một phép chiếu tối ƣu W (Bƣớc 5.2), chúng ta có tập giảm chiều trên tập cơ sở dữ liệu (Bƣớc 5.3). Dựa vào bộ phân lớp SVMClassifer ( Ffea, Flabel) (Bƣớc 5.4) tạo ra một bộ phân lớp, hàm Ranking( , Slabel, Sweight, N) (Bƣớc 5.5) thực hiện phân hạng các ảnh trong tập và lấy ra N ảnh ở trên đỉnh và gán cho R. Quá trình này đƣợc lặp lại cho đến khi ngƣời dùng thỏa mãn. Hình 7 chỉ ra lƣợc đồ của hệ thống tra cứu ảnh đƣợc đề xuất. Ở giai đoạn đầu, khi một ảnh truy vấn đƣợc cho bởi ngƣời dùng, các biểu diễn sẽ đƣợc học cho ta đặc trƣng mức cao. Sau đó, theo một hàm khoảng cách nào đó, các ảnh đƣợc sắp xếp theo độ đo tƣơng tự vừa tính đƣợc và trả về cho ngƣời dùng. Nếu ngƣời dùng thỏa mãn với các kết quả trả về bởi hệ thống, quá trình tra cứu kết thúc. Tuy nhiên, hầu hết các tình huống, phản hồi liên quan là cần thiết do hiệu năng tra cứu giai đoạn đầu đã đƣợc cải thiện nhƣng thƣờng vẫn chƣa đáp ứng đƣợc ngƣời dùng. Ở giai đoạn 2, ngƣời dùng gán nhãn các ảnh ở trên đỉnh nhƣ các mẫu âm hoặc các mẫu dƣơng. Hệ thống thực hiện học manifold để giảm số chiều của đặc trƣng để đƣợc tập mẫu với số chiều giảm để tránh vấn đề quá khớp. Sử dụng tập mẫu với số chiều giảm này, mô hình huấn luyện dựa trên thuật toán học máy SVM đƣợc thực hiện để đƣợc bộ phân lớp. Độ tƣơng tự của các ảnh có thể đƣợc cập nhật. Sau đó, tất cả các ảnh đƣợc sắp xếp lại dựa trên độ tƣơng tự vừa đƣợc cập nhật lại. Nếu ngƣời dùng không thỏa mãn với các kết quả, quá trình phản hồi liên quan giai đoạn 2 sẽ đƣợc lặp lại. III. ĐÁNH GIÁ THỰC NGHIỆM 1. Cơ sở dữ liệu ảnh: Hệ thống tra cứu ảnh đƣợc thực hiện với một hệ cơ sở dữ liệu ảnh Corel gồm 10800 ảnh. Một số mẫu đƣợc chỉ ra trong Hình 8. Hình 8. Các mẫu trong cơ sở dữ liệu ảnh đƣợc gán nhãn Trong tập dữ liệu Corel đƣợc sử dụng, mỗi thƣ mục gồm 100 ảnh. Tập tin cậy nền gồm 80 khái niệm khác nhau nhƣ ngựa, hoa, hoàng hôn, tàu hỏa, xe hơi, xe buýt,…. Tất cả các ảnh trong tập ảnh này có tính chất là đều chứa đối tƣợng tiền cảnh nổi bật. Đa số mỗi nhóm đều gồm 100 ảnh, có một vài nhóm có hơn 100 hình ảnh. Cỡ của các ảnh max(chiều rộng, chiều cao) = 120 và min(chiều rộng, chiều cao) = 80. 2. Tập tin cậy nền (ground truth) Tập tin cậy nền Corel đƣợc sử dụng rộng rãi trong đánh giá CBIR, do đó chúng tôi cũng sử dụng phân loại Corel làm tin cậy nền, tức là chúng tôi xem tất cả các ảnh trong cùng loại Corel là liên quan. Tập tin cậy nền này gồm 3 cột (có tiêu đề: ID ảnh truy vấn, ID ảnh và Sự liên quan) và gồm 1981320 dòng. 3. Chiến lƣợc mô phỏng phản hồi liên quan Để bắt chƣớc hành vi của con ngƣời, chúng tôi thực hiện mô phỏng phản hồi liên quan trong thử nghiệm tự động bởi máy tính. Đầu tiên, từng ảnh đƣợc đƣa vào làm truy vấn khởi tạo để tạo ra kết quả truy vấn khởi tạo, và sau đó phản hồi liên quan đƣợc thực hiện tự động bởi máy tính: Tất cả các ảnh liên quan truy vấn (tức là các ảnh có cùng khái niệm với truy vấn) đƣợc đánh dấu nhƣ các mẫu phản hồi dƣơng trong top 100 ảnh và tất cả các ảnh khác đƣợc đánh dấu nhƣ các mẫu phản hồi âm. Quy trình này gần với các tình huống trong thế giới thực bởi vì ngƣời dùng thƣờng sẽ không thích nhấp vào mẫu phản hồi tiêu cực.
  7. Cù Việt Dũng, Nguyễn Hữu Quỳnh, Trần Thị Minh Thu 313 Yêu cầu ngƣời dùng chỉ đánh dấu các mẫu phản hồi dƣơng trong 100 ảnh ở trên đỉnh là hợp lý. Do các đặc trƣng trực quan không thể mô tả tốt các nội dung ngữ nghĩa, một hệ thống thƣờng yêu cầu ngƣời dùng đánh dấu ba đến 4 screenshots các ảnh trong quá trình tra cứu hiện tại. Trong khi, với một số ứng dụng, ngƣời dùng muốn chỉ gắn nhãn một số nhỏ các mẫu phản hồi và kỳ vọng nhận đƣợc các kết quả tốt nhất. Do đó, giả sử 100 ảnh trên đỉnh đƣợc thực hiện cho thực nghiệm của chúng tôi nhƣ ở dƣới. Trong bài báo này, độ chính xác đƣợc sử dụng để đánh giá hiệu năng của thuật toán phản hồi liên quan. Độ chính xác là tỉ lệ phần trăm của các ảnh liên quan trên N ảnh đƣợc tra cứu ở trên đỉnh. Đƣờng cong chính xác là các giá trị chính xác trung bình của 10800 truy vấn. Phƣơng pháp đƣợc đề xuất của chúng tôi đƣợc so sánh với bốn phƣơng pháp khác bao gồm phƣơng pháp tra cứu truyền thống O-IR, tra cứu với đặc trƣng đƣợc học biểu diễn RIL-IR, thuật toán phản hồi liên quan dựa vào SVM trên đặc trƣng đƣợc học biểu diễn RIL-SVM. Tất cả các thuật toán phản hồi đƣợc đánh giá trên 1 lần lặp. Trong Hình 9, chúng ta thấy rằng hiệu năng của RIL-IR cao hơn O-IR, bởi vì nó có thể học biểu diễn ảnh thu đƣợc thông tin hữu ích nhất từ một mô hình đã tiền huấn luyện với tập dữ liệu rất lớn. Tuy nhiên, theo các kết quả thực nghiệm hiệu năng của RIL-IR kém hơn RIL-SVM khi có phản hồi của ngƣời dùng. RMLIR đƣa ra kết quả cao nhất do nó khai thác thêm đƣợc tính chất đa tạp của dữ liệu cho giảm chiều giải quyết vấn đề quá khớp khi phản hồi. 80 64.47 66.32 Độ chính xác 60 40 26.07 18.87 20 0 O-IR RIL-IR RIL-SVM RILMR Phƣơng pháp Hình 9. Hiệu năng của RILMR và các phƣơng pháp IV. KẾT LUẬN Chúng tôi đã đề xuất phƣơng pháp tra cứu ảnh dựa vào nội dung cho cải tiến độ chính xác tra cứu của các hệ thống tra cứu phản hồi liên quan sử dụng SVM truyền thống. Phƣơng pháp của chúng tôi giải quyết đƣợc (1) trích rút đặc trƣng mức cao thay cho cách thủ công bằng việc học biểu diễn ảnh thông qua tiền huấn luyện trên một mạng học sâu CNN (2) vấn đề quá khớp xảy ra khi số chiều quá lớn so với số mẫu bằng cách học đa tạp cho giảm chiều. Các thực nghiệm trên cơ sở dữ liệu ảnh Corel gồm 10,800 ảnh đã chỉ ra rằng phƣơng pháp đƣợc xuất cải tiến đáng kể hiệu năng của hệ thống tra cứu ảnh O-IR, RIL-IR và RIL-SVM. Cám ơn đề tài “Nghiên cứu cải tiến hiệu quả tra cứu ảnh thông qua học khoảng cách", mã số: VAST01.07/19- 20” và chƣơng trình hỗ trợ nghiên cứu viên cao cấp “Hỗ trợ hoạt động nghiên cứu khoa học cho nghiên cứu viên cao cấp năm 2019", mã số: NVCC02.03/19-19. TÀI LIỆU THAM KHẢO [1] A. Jain and A. Vailaya, “Image Retrieval Using Color and Shape,” Pattern Recognition, vol. 29, no. 8, pp. 1233- 1244, 1996. [2] Bay, H.; Tuytelaars, T.; Gool, L. Surf: Speeded Up Robust Features. In Proceedings of the 9th European Conference on Computer Vision, Graz, Austria, 7-13 May 2006; Springer: Berlin/Heidelberg, Germany, 2006; pp. 404-417. [3] C. Wang, J. Zhao, X. He, C. Chen, J. Bu, Image retrieval using nonlinear manifold embedding, Neurocomputing 72 (16-18) (2009) 3922-3929. [4] F. R. K. Chung. Spectral Graph Theory, volume 92 of Regional Conference Series in Mathematics. AMS, 1997. [5] H. Tamura, S. Mori, and T. Yamawaki, “Texture Features Corresponding to Visual Perception,” IEEE Trans. Systems, Man, and Cybernetics, vol. 8, no. 6, pp. 460-473, 1978. [6] Huu QN, Thuy QDT, Van CP, Van CN and Quoc TN, An efficient image retrieval method using adaptive weights, Appl Intell (2018) (https://doi.org/10.1007/s10489-018-1174-6). [7] Jegou, H.; Douze, M.; Schmid, C. Aggregating local descriptors into a compact image representation. In Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, CA, USA, 13-18 June 2010.
  8. 314 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH KHAI THÁC HIỆU QUẢ THÔNG TIN PHẢN HỒI TỪ NGƢỜI DÙNG [8] Leutenegger, S.; Chli, M.; Siegwart, R.Y. Brisk: Binary Robust Invariant Scalable Keypoints. In Proceedings of the 2011 International Conference on Computer Vision, Barcelona, Spain, 6-13 November 2011; pp. 2548-2555. [9] Lowe, D.G. Distinctive Image Features from Scale-Invariant Keypoints. Int. J. Comput. Vis. 2004, 60, 91-110. [10] M. Swain and D. Ballard, “Color Indexing”, Int’l J. Computer Vision, vol. 7, no. 1, pp. 11-32, 1991. [11] M. Belkin, P. Niyogi, Laplacian Eigenmaps and Spectral Techniques for Embedding and Clustering, NIPS 2001. [12] Perronnin, F.; Liu, Y.; Sánchez, J. Large-scale image retrieval with compressed fisher vectors. In Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, San Francisco, CA, USA, 13-18 June 2010. [13] S. Guattery and G. L. Miller. Graph embeddings and laplacian eigenvalues. SIAM Journal on Matrix Analysis and Applications, 21(3):703-723, 2000. [14] S. Yan, D. Xu, B. Zhang, Q. Yang, H. Zhang, S. Lin, "Graph embedding and extensions: A general framework for dimensionality reduction", IEEE Trans. Pattern Anal. Mach. Intell., vol. 29, no. 1, pp. 40-51, Jan. 2007. [15] Schmidhuber, J. Deep learning in neural networks: An overview. Neural Netw. 2015, 61, 85-11. [16] W. Niblack, R. Barber, W. Equitz, M. Flickner, E. Glasman, D. Petkovic, P. Yanker, C. Faloutsos, and G. Taubino, “The QBIC Project: Querying Images by Content Using Color, Texture, and Shape,” Proc. SPIE Storage and Retrieval for Images and Video Databases, pp. 173-181, 1993. [17] X. S. Zhou and T. S. Huang, “Relevance feedback in image retrieval: A comprehensive review,” Multimedia Systems, vol. 8, no. 6, pp. 536-544, Apr. 2003. [18] Y. Rui, T. Huang, M. Ortega, and S. Mehrotra, “Relevance feedback: a power tool in interactive content-based image retrieval”, IEEE Trans. Circuits Syst. Video Technol., vol. 8, no. 5, pp. 644-655, Sep. 1998. A IMAGES RETRIEVAL METHOD BASE REPRESENTATION AND MANIFOLD LEARNING FOR DIMENSIONALITY REDUCTION WITH INFORMATION FROM USERS Cu Viet Dung, Nguyen Huu Quynh, Ngo Quoc Tao, Tran Thi Minh Thu TÓM TẮT: In recent years, there have been many methods image retrieval that have been researched and proposed by authors. However, these methods often use hand-crafted features and feedback on a limited of sample sets but the high dimensional feature in the feature space so low accuracy. In this paper, we propose an effective image retrieval with relevance feedback method, called RMLIR, which improves the accuracy. Our method exploits representation learning by a pre-trained deep learning model with large data sets and utilizing user feedback to solve the problem high dimensional feature through manifold learning for dimensionality reduction. We also provided empirical results on a database of 10.800 images to show the accuracy of the method. Từ khóa: Content based image retrieval, pre-trained, representation learning, Convolutional Neural Network, manifold learning, dimensionality reduction.
nguon tai.lieu . vn