Xem mẫu

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00074 VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ Hoàng Minh Quang1, Nguyễn Ngọc Cương2 1 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. 2 Cục Công nghệ thông tin - Bộ Công An. TÓM TẮT: Học máy là lĩnh vực rất quan trọng trong khai phá dữ liệu, đặc biệt trong bối cảnh dữ liệu ngày càng tăng nhanh chóng và kiểu dữ liệu ngày càng đa dạng do được thu thập từ nhiều nguồn thông tin khác nhau. Phân loại hay phân lớp dữ liệu là một kỹ thuật chính yếu trong lĩnh vực học máy. Với sự tăng trưởng dữ liệu nhanh chóng và đa dạng kiểu dữ liệu, phân loại đa nhãn đang trở thành một xu thế mới do bản chất vấn đề phân loại dữ liệu thường là đa nhãn chẳng hạn như đối với âm thanh thì một bài nhạc có thể được phân vào nhiều nhãn cảm xúc đồng thời, hay một hình ảnh có thể được phân vào nhiều nhãn đồng thời như động vật, tự nhiên, hoang dã,... Tuy nhiên, phân loại đa nhãn phải có một độ tin cậy nhất định vì một bức ảnh rộng chỉ chứa vài cây cỏ cũng có thể được phân vào nhãn hoang dã. Hầu hết các công trình phân loại đa nhãn đều áp dụng trên cấu trúc dữ liệu biểu diễn dạng vecto, trong bài báo này chúng tôi đề xuất một phương pháp phân loại đa nhãn cho kiểu dữ liệu có thể biểu diễn dạng đồ thị chẳng hạn như các cấu trúc hoá học các thành phần thuốc tây bằng cách xây dựng một dàn giao khái niệm cho dữ liệu đồ thị đồng thời sử dụng luật Dempster-Shafer để tăng hiệu quả và độ chính xác phân loại đa nhãn đồ thị.. Từ khóa: Khai phá dữ liệu, đồ thị con thường xuyên, khai phá đồ thị, phân loại đồ thị, phân loại đa nhãn, phân loại đa nhãn cho đồ thị. I. GIỚI THIỆU Học máy là lĩnh vực rất quan trọng trong khai phá dữ liệu, đặc biệt là những dữ liệu rất lớn mà các thuật toán tìm kiếm chính xác không khả thi do độ phức tạp tính toán thuộc lớp NP-đầy đủ. Các dữ liệu ngày càng đa dạng về mặt cấu trúc, các phương pháp khai phá dữ liệu trên bảng gặp nhiều khó khăn như dữ liệu cấu trúc tế bào, cấu trúc mạng nơron, cấu trúc protein, v.v... Để giải quyết các vấn đề này các nhà khoa học đã áp dụng biểu diễn dữ liệu cấu trúc đồ thị, cây, dàn giao và áp dụng các phương pháp khai phá dữ liệu hiện có với các loại biểu diễn dữ liệu khác lên các biểu diễn dữ liệu đồ thị. Học máy áp dụng trên đồ thị là một hướng đi đúng đắn cho xu thế dữ liệu đa dạng và phức tạp ngày nay. Do tính chất đa dạng của dữ liệu và đa dạng các mục tiêu, các phương pháp phân lớp dữ liệu trong học máy dần chuyển từ phân loại đơn nhãn sang phân loại đa nhãn. Tuy nhiên để áp dụng phân loại đa nhãn cho đồ thị là khá khó khăn vì bản chất biểu diễn dữ liệu đồ thị khó có thể chuyển đổi về biểu diễn vectơ để áp dụng các thuật toán phân loại đa nhãn. Các công nghệ thu thập dữ liệu ngày càng được cải tiến, nhiều lĩnh vực ứng dụng phải đối mới với dữ liệu đa dạng và đa cấu trúc như cấu trúc hóa học, cấu trúc luồng chương trình, tài liệu XML, web... Khác với dữ liệu truyền thống trong không gian đặc trưng, các dữ liệu này không thể biểu diễn dưới dạng vecto mà chỉ có thể biểu diễn dưới dạng đồ thị dẫn đến một thách thức cơ bản của khai phá dữ liệu đồ thị là thiếu biểu diễn vecto [11]. Một mô hình hiệu quả cho dữ liệu đồ thị có thể trích xuất và tìm các tập đồ thị con đặc trưng để thực hiện phân tích hoặc quản lý. Những thách thức này thúc đẩy các vấn đề nghiên cứu khai phá đồ thị đặc biệt là phân loại đồ thị đã nhận được sự quan tâm đáng kể trong thập niên gần đây. Phân loại dữ liệu được nghiên cứu rộng rãi. Hầu hết các phương pháp phân loại này đều tập trung vào phân loại đơn nhãn. Tuy nhiên, nhiều lĩnh vực trong cuộc sống đòi hỏi các đối tượng phải được gán nhiều nhãn như ảnh, nhạc, gen, web. Không thể phủ nhận vai trò của phân loại đa nhãn trong việc giải quyết nhiều vấn đề quan trọng trong cuộc sống hiện đại. Phân loại đa nhãn giải quyết vấn đề gán một tập các nhãn cho mọi đối tượng trong một tập hợp dữ liệu. Tức là, mỗi đối tượng trong một tập dữ liệu có thể được gán đồng thời nhiều nhãn. Ví dụ, trong nhiều trang thương mại điện tử, có hàng tỉ đoạn quảng cáo, mỗi cái đều gắn nhiều thẻ, có sẵn cho mọi người tìm kiếm và phân tích. Có hàng tỉ thẻ như vậy trên mạng toàn cầu. Làm cách nào Google đưa ra cho ta câu trả lời thỏa mãn hầu hết các tìm kiếm. Rõ ràng là học đa nhãn là một vấn đề nghiên cứu quan trọng để tìm ra kết quả tốt nhất về năng suất và hiệu quả. Vấn đề phân loại đơn nhãn là loại trừ lẫn nhau các nhãn. Cho X là miền của các đối tượng và Y là tập các nhãn, H tập các hàm hàm phân loại cho X  Y. Mục tiêu là tìm hàm phân loại h ∊ H có khả năng tối đa h(x) = y với y ∊ Y là nhãn xác thực của x. Với phân loại đa nhãn, các lớp cơ bản là không loại trừ lẫn nhau có thể chồng đè lên nhau. Cho B là tập các vecto nhị phân có độ dài |Y|. H là tập các hàm phân loại của X  B. Mục tiêu là tìm hàm phân loại h ∊ H mà tối thiểu một khoảng cách (ví dụ Hamming) giữa h(x) và bx cho một đối tượng mới x. Trong một phương pháp xác suất, mục tiêu phân loại đối tượng x là để tìm một hoặc nhiều nhãn lớp cơ sở trong một tập nhãn C với một ngưỡng T mà P(c|x) > T, ∀ c ∊ C. Thông thường nhất, các tiếp cận hợp nhất đơn giản, như lấy số đông, lớn nhất và trung bình được sử dụng. Lý thuyết Dempster Shafer là một khung hợp nhất các hàm phân loại dựa trên luật của Dempster tăng độ chính xác trong phân lớp. Áp dụng lý thuyết Dempster Shafer [3] để phân loại đa nhãn cho đồ thị tăng độ chính xác trong phân loại và giảm độ phức tạp. Denoeux đã giới thiệu phân loại đa nhãn áp dụng lý thuyết Dempster như [4, 5, 6] đã đề xuất một phương pháp đề giảm độ phức tạp tính toán trong thao tác và kết hợp các hàm khối, khi các hàm tin cậy được xác định trên một tập con phù hợp của khung phân biệt được kết hợp với cấu trúc dàn giao. Phương pháp này áp dụng cho phân loại đa nhãn dựa trên hàm phân loại k-láng giềng gần nhất (KNN) minh chứng [5]. Theo như Denoeux [5] thì áp dụng lý thuyết Dempster Shafer cho phân loại đa nhãn sử dụng phương pháp kNN, với mỗi thành phần của tập k các
  2. 568 VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ láng giềng sẽ lấy được một hàm khối và theo luật Dempster hợp nhất k hàm khối này để được duy nhất một hàm khối cho đối tượng mới x. Tuy nhiên, ở đây chỉ áp dụng lý thuyết Dempster Shafer cho phân loại đa nhãn cho tập dữ liệu các đối tượng có một biểu diễn vecto. Dựa vào biểu diễn vecto này, chúng ta có thể tìm được tập k láng giềng gần nhất. Nhưng với dữ liệu đồ thị thì có nhiều cách để tìm được tập k láng giềng bằng các phương pháp sử dụng độ đo khác nhau như đẳng cấu đồ thị con, đồ thị con chung lớn nhất, khoảng cách Hausdorff, đỉnh của hai đồ thị gần nhau, cạnh của hai đồ thị gần nhau, các nhân đường đi ngắn nhất, khoảng cách sửa đổi đồ thị. Các phương pháp này đều đưa ra phương pháp xác định để so sánh tìm được k đồ thị láng giềng gần với đồ thị được xét. Tuy nhiên, mục tiêu của chúng ta cần tìm k đồ thị láng giềng mà có tập nhãn xấp xỉ với k tập nhãn của k đồ thị láng giềng. Như vậy, ở đây phải có một mối liên hệ giữa tập nhãn và tập đồ thị. Mối liên hệ đó chính là chìa khóa mở ra việc đi tìm tập k láng giềng. Theo đó, các phương pháp độ đo như đồ thị con chung lớn nhất của Hausdorff hay khoảng cách chỉnh sửa đồ thị, các nhân đường đi ngắn nhất không thể áp dụng được cho phân loại đa nhãn đồ thị dùng lý thuyết Dempster Shafer. Theo như [11] mối quan hệ giữa tập nhãn và tập đồ thị chính là tập các đồ thị con của đồ thị với tập các nhãn. [11] coi việc xác định các đặc trưng phù hợp cho phân loại đa nhãn là tìm ra tập các đồ thị con và coi tập đồ thị con là lựa chọn đặc trưng. [13] đã đưa ra một phương pháp xây dựng dàn giao khái niệm cho đồ thị áp dụng vào phân loại đồ thị nhưng chưa áp dụng cho phân loại đồ thị đa nhãn. Từ dàn giao khái niệm này, mà tính chất của đồ thị được thể hiện bởi các đồ thị con của nó, nghiên cứu sinh xây dựng dàn giao khái niệm áp dụng vào phân loại đa nhãn đồ thị theo lý thuyết Dempster Shafer, dàn giao khái niệm thỏa mãn mối quan hệ giữa tập nhãn và tập đồ thị làm độ đo tương tự trong quá trình tìm tập k láng giềng của một đồ thị mới để xác định tập nhãn cho đồ thị mới cần phân loại đa nhãn. Phân loại đa nhãn áp dụng cho nhiều lĩnh vực, tuy nhiên đối với dữ liệu biểu diễn dạng đồ thị thì phân loại đa nhãn gặp nhiều khó khăn do đồ thị khó có thể véctơ hóa như các dạng biểu diễn dữ liệu khác. Tùy thuộc vào từng yêu cầu của từng vấn đề cụ thể sẽ có tương ứng cách biến đổi dữ liệu đồ thị sang biểu diễn véctơ. Do vậy sẽ gặp nhiều khó khăn trong quá trình xác định độ tương tự giữa hai đồ thị. Tác giả đã nghiên cứu và xây dựng thành công dàn giao khái niệm làm cơ sở để xác định độ đo tương tự giữa hai đồ thị. Từ đó có thể áp dụng phương pháp k láng giềng gần nhất để tìm tập nhãn cho một đồ thị mới dựa trên tập nhãn của k đồ thị láng giềng có độ đo gần nhất với nó. Để xây dựng dàn giao khái niệm, tác giả sử dụng thuật toán khai phá đồ thị con thường xuyên đóng PSI-CFSM để xác định tập đồ thị con thường xuyên đóng của mỗi đồ thị gi ∊ GD. Dựa vào các đồ thị con thường xuyên đóng này làm đặc trưng cho mỗi đồ thị và xây dựng khái niệm chính thức, quan hệ cha con giữa hai khái niệm chính thức và hình thành nên dàn giao khái niệm. Trong bài báo này, chúng tôi đề xuất phương pháp phân loại đa nhãn cho đồ thị sử dụng tập đồ thị con thường xuyên đóng của mỗi đồ thị làm đặc trưng xây dựng dàn giao khái niệm cho các đồ thị trong cơ sở dữ liệu đồ thị giao tác. Từ dàn giao khái niệm này có thể tính toán khoảng cách của các đồ thị từ đó xác định được độ đo tương tự giữa các đồ thị đồng thời áp dụng kỹ thuật k láng giềng gần nhất và luật kết hợp Dempster-Shafer để thực hiện phân loại đa nhãn cho một đồ thị ứng viên. II. MỘT SỐ ĐỊNH NGHĨA [10] Một đồ thị gắn nhãn G là một bộ G = (V,E,∑ ,∑ ,l) với V là tập đỉnh, E ⊂ V × V là tập cạnh. ∑ và ∑ là nhãn của đỉnh và cạnh tương ứng. Hàm gắn nhãn l là ánh xạ V → ∑ và E → ∑ . Không mất tính tổng quát, ta giả sử có một thứ tự toàn thể ≼ trên tập nhãn ∑ và ∑ . [10] Cho một cặp đồ thị G = (V,E,∑ ,∑ ,l) và G' = (V',E',∑ ,∑ ,l'), G là đồ thị con của G' nếu và chỉ nếu: (1.) V ⊆ V' (2.) ∀ u ∈ V, (l(u) = l'(u)) (3.) E ⊆ E' (4.) ∀ (u,v) ∈ E, (l(u,v) = l'(u,v)) G' được gọi là đồ thị cha của G [10] Hai đồ thị G = (V,E,∑ ,∑ ,l) và G' = (V',E',∑ ,∑ ,l') là đẳng cấu nếu và chỉ nếu tồn tại một song ánh f:V → V' thỏa mãn: (1.) ∀ u ∈ V, (l(u) = l'(f(u))) (2.) ∀ u,v ∈ V, ((u,v) ∈ E) ↔ (f(u),f(v)) ∈ E' (3.) ∀ (u,v) ∈ E, (l(u,v) = l'(f(u),f(v)) [10] Đồ thị G là đồ thị con đẳng cấu của G', ký hiệu G ⊆ G', nếu và chỉ nếu tồn tại một đồ thị con G" của G' mà G đẳng cấu với G" [10] Cho một tập dữ liệu đồ thị GD và một ngưỡng σ (0 ≤ σ ≤ 1), độ hỗ trợ của G, ký hiệu supG được xác định như một phân số giữa G’ với các đồ thị trong GD mà G là một đồ thị con đẳng cấu của G':
  3. Hoàng Minh Quang, Nguyễn Ngọc Cương 569 | ∈ | ⊆ ′| = | | G là đồ thị thường xuyên nếu và chỉ nếu supG≥ σ. Vấn đề khai phá đồ thị con thường xuyên là cho một ngưỡng σ và một cơ sở dữ liệu đồ thị GD phải tìm tất cả các đồ thị con thường xuyên trong GD. Theo [15], nếu g là một đồ thị con của g’ , thì g’ là một đồ thị cha của g, ký hiệu g ⊆ g’ (đồ thị cha đúng nếu g ⊂ g’ ). Tập các đồ thị con thường xuyên của GD, ký hiệu là FS, chứa tất cả các đồ thị con có độ hỗ trợ không ít hơn ngưỡng độ hỗ trợ tối thiểu, σ. Tập các đồ thị con thường xuyên đóng của GD, CS, được định nghĩa là CS = {(g’ | g’ ∈ FS) ∧ (∄g ∈ FS : (g ⊂ g’) ∧ (supg = supg’ ))}. [2] Một k-đồ thị con của đồ thị g là một đồ thị con g 0 ⊆ g mà |V g 0 | = k. [10] Cho một n × n ma trận kề M của một đồ thị G với n đỉnh, định nghĩa mã của M , ký hiệu code(M), có dạng chuỗi bằng cách ghép các thành phần thấp của ma trận tam giác của M (gồm cả các thành phần trong đường chéo) theo thứ tự: m1,1m2,1m2,2 ... mn,1mn,2 ... mn,n−1mn,n mà mi,j là thành phần ở hàng thứ i và cột thứ j trong M (0 < j ≤ i ≤ n). Giả sử các hàng trong M được đánh số từ 1 tới n từ trên xuống dưới và các cột được đánh số từ 1 tới n từ trái sang phải. Trong [10], tác giả dùng thứ tự từ điển chuẩn (standard lexicographic order) theo trình tự để xác định một thứ tự toàn thể của hai mã bất kỳ p và q. Cho một đồ thị G, dạng chuẩn (canonical form) của nó là mã cực đại trong tất cả các mã có thể. Ma trận kề M xuất ra dạng chuẩn được định nghĩa là ma trận dạng chuẩn của G (G’s canonical adjacency matrix, CAM của G). Vậy code(CAM(G)) là mã của ma trận dạng chuẩn của đồ thị G. [1] Cho một quan hệ hai ngôi ≤ trên tập P, (P,≤) thỏa mãn ba điều kiện (phản xạ, phản đối xứng và bắc cầu) được gọi là một tập có thứ tự (hay tập thứ tự bộ phận hay poset). Tập tất cả các tập P(X), gồm tất cả các tập con của X, nếu bao gồm thứ tự: cho A,B ∈ P(X), xác định A ≤ B nếu và chỉ nếu A ⊆ B. [8] Cho Y ⊆ X, với (X,≤) là một poset. Một toán tử meet hay infimum (hay inf ) trên các tập con của tập X ký hiệu m = inf(Y ) nếu và chỉ nếu: (i) ∀y ∈ Y : m ≤ y, và (ii) ∀m 0 ∈ X : (∀y ∈ Y : m 0 ≤ y) ⇒ m 0 ≤ m. m cũng được gọi là lớn nhất cận dưới (glb) của tập Y . Một toán tử join hay supremum (hay sup) s = sup(Y ) nếu và chỉ nếu: (i) ∀y ∈ Y : y ≤ s, và (ii) ∀s 0 ∈ X : (∀y ∈ Y : y ≤ s 0 ) ⇒ s ≤ s 0 . s cũng được gọi là nhỏ nhất cận trên (lub) của tập Y . Ký hiệu glb của {a,b} bởi a∧b, và lub của {a,b} bởi a∨b. Lớn nhất cận dưới và nhỏ nhất cận trên không phải lúc nào cũng tồn tại với một poset. [8] Một poset (X,≤) là một dàn giao nếu và chỉ nếu ∀x,y ∈ X : x∨y và x∧y cùng tồn tại. [8] Một khoảng [x, y] trong một poset (X,≤) được xác định: {z | x ≤ z ≤ y}. Một poset là hữu hạn cục bộ nếu tất cả các khoảng là hữu hạn. [12] Một hệ thống tập hợp trên một tập S là một họ Ψ các tập con của S. Một hệ đóng ζ trên một tập S là một hệ thống tập hợp trên S thỏa mãn hai thuộc tính sau: (i) S ∈ ζ và (ii) C1, C2 ∈ ζ ⇒ C1 ∩ C2 ∈ ζ. Các tập của hệ đóng ζ được gọi là các tập đóng của ζ. [12] Một hệ đóng (ζ,⊆) là một dàn giao (ζ,⊆,∧,∨) với (i) C1 ∧ C2 = C1 ∩ C2 và C1 ∨ C2 = ∩{C ∈ ζ : C1 ∪ C2 ⊆ C}. Bất kỳ dàn giao nào cũng đẳng cấu với dàn giao của tập đóng của hệ đóng. [7] Một ngữ cảnh chính thức là một bộ ba (G,M,I), với G là một tập các đối tượng, M là một tập các thuộc tính và I là một quan hệ giữa G và M, I ⊆ G × M. Một kết nối Galois giữa G và M được xác định như sau: AI = {m ∈ M|∀g ∈ A,(g,m) ∈ I}, A ⊆ G BI = {g ∈ G|∀m ∈ B,(g,m) ∈ I}, B ⊆ M [7] Một khái niệm chính thức là một cặp (A,B), với A ⊆ G là một tập con các đối tượng, B ⊆ M là một tập con các thuộc tính, mà các đẳng thức (1) AI = B và A = BI (2), với A được gọi là phạm vi của khái niệm, và B được gọi là ý định của khái niệm. Các khái niệm của một ngữ cảnh cho trước có một thứ tự mặc định quan hệ khái niệm con - khái niệm cha được xác định bởi ((A1, B1 ) ≤ (A2, B2 )) ⇔ A1 ⊆ A2 (⇔ B2 ⊆ B1 ). Tập có thứ tự của tất cả các khái niệm chính thức của (G,M,I) được ký hiệu B(G,M,I) và được gọi là dàn giao khái niệm của (G,M,I). [9] Cho (L,≤) là một poset hữu hạn cục bộ có một phần tử ở đáy dàn giao. Bất kỳ hàm f trên (L,≤), biến đổi Mobius của f là hàm m: L → R giải pháp của phương trình: ( ) = m(y). Phương trình này luôn có một 2 nghiệm duy nhất, một biểu thức của m nhận được thông qua hàm Mobius µ: L → R bởi ( )=∑ μ(y, x)f(y) với 1 = µ được xác định theo quy nạp bởi ( , ) = − ∑ ( , ) ≤ 0 ℎ
  4. 570 5 VẤN ĐỀ Ề PHÂN LOẠII ĐA NHÃN CH HO ĐỒ THỊ [9] Đồồng biến đổi M Mobius của f, kký hiệu q, đượ ởi ( ) = ∑ ợc xác định bở m(y), x ∈ L và m có thể được khôi phục p từ q như sau: ( )= μ(y, x)q(y) [9] Choo Ω là một khhông gian hữuu hạn. Một hààm m: 2Ω → [0,1] [ được gọọi là một hàm cấp phát khốối (hay đơn giản n m(∅) = 0 và ∑ ⊆Ω ( ) = 1. Một tậập con A ⊆ N được g là mass) nếu đ gọi một phần tử tiêu đđiểm nếu m(A)) > 0. [9] Mộtt hàm tin cậy ttrên Ω là một hàm bel: 2Ω → [0,1] được sinh bởi một hhàm cấp phát khối như sau: ( )= ( ), ⊆ Ω ⊆ . Chú ý rằng r bel(∅) = 0 và bel(Ω) = 1. Hàm tin cậy c nhận m nh hư biến đổi M Mobius của bell, công thức nghịch n đảo, nhận n được bằnng cách sử dụnng các phươngg trình Mobius là: ( )= (−1)| \ | ( ) ⊆ [9] Choo một cấp phátt khối m, hàm m sự thật được xác định bởi ( )= ( )=1− ( ), ⊆ Ω | ∩ ∅ . Cho mộột cấp phát kkhối m, hàm ttính chất chu n đổi Mobiuss của bel đượợc xác định bởi ( ) = ung, đồng biến ∑ ⊆ ( ) , ⊆ Ω [9] Choo hai cấp phát khối m1, m2 , luật kết hợp Dempster D tính sự kết hợp củủa hai khối vàoo một khối: ( )=( ⊕ )( ) ( ) ( ) , ∀ ⊆ Ω, A ∅ ∩ và m(∅) = 0. Luật kết hợp Dempsster có thể đư ược tính thông m tính chất chuung, gọi q, q1, q2 là hàm g qua các hàm q2(A), ∀A ⊆ Ω tính chất chungg kết hợp m, m1, m2, trở thàành một đó là: q(A) = q1(A)q Ω. III. P PHÂN LOẠI ĐA NHÃN CHO C ĐỒ TH HỊ Để phâân loại đa nhãnn cho tập dữ lliệu đồ thị và tập nhãn gắn với mỗi đồ thhị, có thể coi tập tất cả tập nhãn là 2L với v tập nhãn L = {l1, l2, ..., lQ }, |L| = Q. Thuật toán t PSI-CFSM M [2] được sử ử dụng để tìm m tập đồ thị con thường xuyyên đóng của ccơ sở dữ liệu đồ thị GD. Thủ T tục TestIssomorphism kkiểm tra đẳng cấu đồ thị conn bằng cách sửử dụng hàm tììm kiếm nhị pphân kiểm tra một đồ thị con c g có thuộcc một tập đồ thhị con hayy không với t con ứng vi ên mức k của đồ thị Gi ∊ GD. là tập k-đồ thị Thuật toán PSI-CFSM M là thuật toáán sinh và kiểm ờng xuyên củaa đồ thị con m m tra tính thườ mức k theo địn nh nghĩa k- đồ đ thị con với là tập cáác k-đồ thị coon thường xuyên của GD, CSC 2, CS3, ..., C CSk là các tập đđồ thị con thư ường xuyên đóng đ tương ứnng mức 2, 3, ..., k của GD và , tương ứng làà tập các k-đồồ thị con thườờng xuyên, k--đồ thị con hường xuyên đóng mức k ccủa đồ thị Gi ∊ GD. th
  5. Hoàng H Minh Quuang, Nguyễn N Ngọc Cương 571 Cho mộột cơ sở dữ liệệu đồ thị GD,, để xây dựng dàn giao cho các đồ thị sử ử dụng một bảảng ngữ cảnh chính thức bằng b cách xâyy dựng tập tất cả các đồ thị con thường xuyên x đóng CS GD và coi tập S của cơ sở ddữ liệu đồ thị G p CS là tập các c thuộc tínhh còn cơ sở dữ ữ liệu đồ thị tập đối tượng. Mối quan hệệ giữa tập đối tượng và tập thuộc tính th hể hiện qua v một đồ thhị Gi ∊ GD cóó chứa một đồồ thị con thườn việc ng xuyên đóng g gj ∊ CS thì đồ thị Gi và đđồ thị con thường xuyên đóng đ gj là có mối m quan hệ vớ ới nhau. m ra tất cả các khái niệm chính thức. Từ đđó, xây dựng được một dàn Từ bảng ngữ cảnh chhính thức, tìm n giao khái niệm. n Định nghĩa. n Cho mộột dàn giao khhái niệm ICL,, độ đo tương tự giữa hai đđồ thị gi, gj ∊ GD được tính h theo khái niệm n chính thứ ức thấp nhất củủa hai đồ thị gi, gj. , ( , )= ,∀ ∈ GD ∑ ( , ) Độ đo tương t tự giữaa hai đồ thị trêên dàn giao kh hái niệm thể hiện h được chínnh xác tập nhããn của đồ thị hơn so với các c độ đo khácc giữa hai đồ thị như đồ thịị con chung lớ ớn nhất, đườnng đi ngắn nhấất, nhân của đđồ thị, sửa đổi đồ thị. Độ chính c xác các nhãn được phhân loại cho đồồ thị mới được thể hiện quaa bản chất các đồ thị con thư ường xuyên đóng hơn là các c phép biến đổi đồ thị tươơng đương như ư các phương pháp độ đo chho đồ thị khác . Thuật toán t phân loạii đồ thị đa nhhãn được xây dựng theo ph hương pháp k--láng giềng ggần nhất để xá ác định tập nhãn n ⊆ L cho c đồ thị gn ∊ GD chưa đượ ợc gán nhãn với mọi đồ thị Gi ∊ GD đã đư ược gán nhãn ⊆ L. Luật bằằng chứng k lááng giềng gần nhất [4], cho là tập k lán ng giềng gần nnhất của mẫu đối tượng mớ ới được mô tả bởi vecto đặặc trưng x theoo một độ đo ttương tự d và xi là một phần n tử của tập k láng giềng gầần nhất có tập p nhãn nằm trrong khoảng [A [ i, Bi] (posett hữu hạn cục bbộ) thì một mục m bằng chứng có thể đượcc mô tả như hààm khối sau: m( , )= m ( ∅, ∅ )=1− với l độ đo tươngg tự giữa hai đđồ thị trên dàn là n giao khái niệm.
  6. 572 5 VẤN ĐỀ Ề PHÂN LOẠII ĐA NHÃN CH HO ĐỒ THỊ g x. Cho ℽ là tập nhãn dự đđoán sẽ được gán cho x. Theo [66, 16] đề xuấtt luật để xác đđịnh tập nhãn cho đối tượng Đ quyết địnhh mỗi nhãn ∈ được gán cho x hay không, hai số lư Để ượng được tínhh là cấp độ hààm tin cậy ( , ), ℽ là tập nhãn đúng đ chứa , và cấp độ hàm m tin cậy ( ∅, ̅ ) mà không k chứa . Tập nhãn dự g ℽ được ự đoán được gán xác x định như sau: s ℽ= θ∈ | ( , ) ( ∅, ̅ ) IV. VÍ D DỤ PHÂN LO OẠI ĐA NHÃ ÃN CHO ĐỒ THỊ Cho cơ ới tập nhãn L = {l1, l2, l3, l4, l5}, ngưỡng đđộ hỗ trợ σ = 50% ơ sở dữ liệu đồồ thị GD = {g1, g2, g3, g4} vớ 5 Cơ sở dữ d liệu đồ thị GD có |GD| = 4, với ngưỡn ng độ hỗ trợ σ = 2/4= 50% %, tất cả nhữngg đồ thị con bấ ất kỳ sg có độ đ hỗ trợ supsgg >=2/4 đều làà các đồ thị coon thường xuy yên. Áp dụng thuật t toán PSII-CFSM [2] tìmm được tập tất cả các đồ th hị con thườngg xuyên đóng =⋃: → ∈ củaa GD. t gi ∈ GD vvới tập tất cả đđồ thị con thường xuyên Ngữ cảảnh chính thứcc là tập tất cả mối quan hệ giữa mọi đồ thị đóng đ CS theo thủ t tục CalcullateFCT. ( hiệu KCT theo thủ tục C Khái niiệm chính thứcc của ngữ cảnnh chính thức (ký CalculateIcebeergLattice)
  7. Hoàng H Minh Quuang, Nguyễn N Ngọc Cương 573 Từ mốii quan hệ chaa con giữa cáác khái niệm chính thức taa xây dựng m một dàn giao khái niệm theo thủ tục CalculateIcebe C ergLattice: Để xác định nhãn chho đồ thị g4 ∈ GD, dựa vào dàn giao kháii niệm CL tìm m k-láng giềngg gần nhất của g4 với k = 2 trên tập dữ liệu l đồ thị GD D là các đồ thịị g1, g2, g3 theeo đường đi ng gắn nhất từ đỉỉnh chung đếnn hai đồ thị cầ ần so sánh: d 4, g1) = 2/66 = 0.3333, d(g4, g3) = 3/6 = 0.5000, d(g4, g2) = 1/6 = 0.1667. Như vậy, xác địnhh được k-láng giềng gần d(g n với g4 với k = 2 tương ứng là g1, g2. Xác định kho nhất ơng ứng với k--láng giềng gầần nhất g1, g2 là [{l1, l2}, oảng nhãn tươ {l { 1, l2, l4}], [{l2, l4}, {l2, l4}] Tính đư ược các hàm kkhối như sau: mg1([{l1, l2}, {l1, l2, l4}]) = 0.33 mg1([∅,,L]) = 1 − 0.333 = 0.67 mg2([{l2, l4}, {l2, l4}])) = 0.17 mg2([∅,,L]) = 1 − 0.177 = 0.83 Sử dụngg luật Dempstter thu được kkết quả sau: Dựa vàào luật Dempstter, tính được: m([{l1, l2, l4}, {l1, l2, l4}]) = 0.06 m([{l2, l4}, {l2, l4}]) = 0.11 m([{l1, l2}, {l1, l2, l4}]) = 0.27 L]) = 0.56 m([∅,L Gán tậpp nhãn cho đối tượng x: bel([{l1}, L]) = 0.06 + 0.27 = 0.33 > bel([∅, ]) = 0.11, g4 có c nhãn l1 bel([{l2}, L]) = 0.33 > bel([∅, ]]) = 0, g4 có nhãn n l2 bel([{l3}, L]) = 0 < bbel([∅, ]) = 0.11 bel([{l4}, L]) = 0.06 > bel([∅, ]]) = 0, g4 có nhãn n l4 bel([{l5}, L]) = 0 < bbel([∅, ]) = 0.11 Như vậậy tập nhãn củủa đồ thị g4 đư ược xác định làà {l1, l2, l4}
  8. 574 VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ V. KẾT LUẬN Trong bài báo này, chúng tôi đã đề xuất một phương pháp hiệu quả phân loại đa nhãn trên đồ thị. Do bản chất thiếu tính vecto nên việc phân loại đa nhãn trên đồ thị gặp nhiều khó khăn. Bằng cách sử dụng khái niệm chính thức và xây dựng dàn giao khái niệm, chúng tôi đã xác định được độ đo tương tự giữa hai đồ thị, sau đó áp dụng luật Dempster-Shafer để kết hợp các hàm khối và hàm tin cậy để xác định tập hợp các nhãn cho đồ thị theo k đồ thị láng giềng gần nhất với độ đo tương tự được xác định bằng dàn giao khái niệm. Kết quả này có ý nghĩa quan trọng trong ứng dụng vào thực tiễn như phân loại các mẫu gen, cấu trúc protein, các hợp chất enzim để xác định khả năng có thể mắc tập hợp những bệnh đã được gán nhãn cho trước. VI. DANH MỤC THAM CHIẾU [1] B. A. Davey and H. A. Priestley. Introduction to lattices and order. Cambridge university press, 2002. [2] J. Demetrovics, H. Quang, N. Anh, and V. Thi. An optimization of closed frequent subgraph mining algorithm. Cybernetics and Information Technologies, 17(1):3-15, 2017. [3] A. P. Dempster. The dempster-shafer calculus for statisticians. International Journal of Approximate Reasoning, 48(2):365-377, 2008. [4] T. Denoeux. A k-nearest neighbor classification rule based on dempster-shafer theory. IEEE transactions on systems, man, and cybernetics, 25(5):804-813, 1995. [5] T. Denœux and M.-H. Masson. Evidential reasoning in large partially ordered sets. Annals of Operations Research, 195(1):135-161, 2012. [6] T. Denœux, Z. Younes, and F. Abdallah. Representing uncertainty on set-valued variables using belief functions. Artificial Intelligence, 174(7):479-499, 2010. [7] B. Ganter and R. Wille. Applied lattice theory: Formal concept analysis. In In General Lattice Theory, G. Grätzer editor, Birkhäuser. Citeseer, 1997. [8] V. K. Garg, N. Mittal, and A. Sen. Applications of lattice theory to distributed computing. ACM SIGACT Notes, 34(3):40-61, 2003. [9] M. Grabisch. Belief functions on lattices. International Journal of Intelligent Systems, 24(1):76-95, 2009. [10] J. Huan, W. Wang, and J. Prins. Efficient mining of frequent subgraphs in the presence of isomorphism. In Data Mining, 2003. ICDM 2003. Third IEEE International Conference on, pages 549-552. IEEE, 2003. [11] X. Kong and S. Y. Philip. gmlc: a multi-label feature selection framework for graph classification. Knowledge and information systems, 31(2):281-305, 2012. [12] B. Monjardet. The presence of lattice theory in discrete problems of mathematical social sciences. why. Mathematical Social Sciences, 46(2):103-144, 2003. [13] V. A. Nguyen and A. Yamamoto. Learning from graph data by putting graphs on the lattice. Expert Systems with Applications, 39(12):11172-11182, 2012. [14] G. Shafer et al. A mathematical theory of evidence, volume 1. Princeton university press Princeton, 1976. [15] X. Yan and J. Han. Closegraph: mining closed frequent graph patterns. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 286-295. ACM, 2003. [16] Z. Younes, F. Abdallah, and T. Denœux. An evidence-theoretic k-nearest neighbor rule for multi-label classification. In International Conference on Scalable Uncertainty Management, pages 297-308. Springer, 2009.
nguon tai.lieu . vn