Xem mẫu

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00062 TÌM KIẾM TƯƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHÔNG ĐỒNG NHẤT Nguyễn Văn Gia1, Đỗ Phúc2 1 Công ty CP. Thực phẩm Dinh dƣỡng NutiFood 1,2 Trƣờng ĐH Công nghệ thông tin, ĐHQG TP.HCM gianvdba@gmail.com, phucdo@uit.edu.vn TÓM TẮT: Khai phá mạng dữ liệu không đồng nhất đang là một xu thế và hướng đi mới trong lĩnh vực khoa học dữ liệu (Data Science). Đa số các công bố hiện nay còn dừng ở mức độ giải thuật mô hình, hơn là áp dụng thực tế cho việc xây dựng một hệ thống hỗ trợ các nhu cầu thiết thực hiện nay. Bài báo này trình bày cách tiếp cận xây dựng mô hình khai phá mạng dữ liệu không đồng nhất phục vụ cho công tác nghiên cứu khoa học. Cụ thể chú trọng đến việc tìm kiếm sự tương đồng giữa các thực thể trong mạng học thuật không đồng nhất, bao gồm: Hỗ trợ tìm kiếm các đối tượng như là: Tác giả, đồng tác giả, hội nghị… tính toán top-k vùng lân cận giữa các đối tượng nhằm hỗ trợ tìm kiếm và biểu diễn trực quan giúp cho người dùng có cái nhìn tổng quan hơn về sự phân bố, độ tương đồng của nhóm tác giả, nhóm hội nghị. Nguồn dữ liệu được trích từ DBLP ngày 22/05/2019 với 1,408,606 tác giả, 1,965,362 bài báo và 1,746 địa điểm hội nghị Từ khóa: Heterogeneous Information Networks, Similarity; Heterogeneous Representation Learning, Metapath2vec, Metapath2vec++, Network Embedding, word2vec, node2vec. I. GIỚI THIỆU Trong những năm qua, cùng với sự phát triển nhanh chóng của công nghệ làm cho kho dữ liệu ngày càng trở nên đồ sộ và lớn dần. Chính điều đó đã đặt ra một thử thách rất lớn trong vấn đề khái thác và biểu diễn trực quan. Xã hội và mạng dữ liệu cùng chứa lƣợng thông tin phong phú và phức tạp, có thể hiểu rằng mạng dữ liệu là một ánh xạ của xã hội trong đó có các loại tƣơng tác của con ngƣời. Những tiến bộ gần đây trong xử lý ngôn ngữ tự nhiên (NLP) [1] có thể đƣợc áp dụng một cách tự nhiên nhƣ word2vec [3, 4]. Một số bài báo nghiên cứu gần đây đã đề xuất sử dụng các frameworks học biểu diễn mạng dựa trên word2vec, chẳng hạn nhƣ DeepWalk [5], LINE [10] và node2vec [13]. Thay vì thiết kế tính năng mạng thủ công, các phƣơng pháp học biểu diễn này cho phép phát hiện tự động các tính năng hữu ích và có ý nghĩa (tiềm ẩn) từ “mạng thô”. Tuy nhiên, công việc này đã tập trung vào việc học biểu diễn cho các mạng đồng nhất - biểu diễn cho một số ít loại nodes và mối quan hệ giữa chúng. Đa số các mạng xã hội và thông tin là không đồng nhất trong tự nhiên, liên quan đến sự đa dạng của các loại nodes và mối quan hệ giữa chúng [6]. Các mạng không đồng nhất này có những khó khăn đặc biệt mà không thể xử lý bằng các mô hình học biểu diễn đƣợc thiết kế đặc biệt cho mạng đồng nhất. Cụ thể nhƣ một mạng học thuật không đồng nhất: Làm cách nào để chúng ta giữ nguyên bối cảnh giữa nhiều loại nodes, ví dụ: tác giả, bài báo, địa điểm,...? Liệu chúng ta có thể bƣớc đi ngẫu nhiên (random walks) bằng cách sử dụng DeepWalk và node2vec cho mạng của nhiều loại nodes? Liệu chúng ta có thể áp dụng trực tiếp các kiến trúc nhúng theo hƣớng mạng đồng nhất (ví dụ, skip-gram) cho các mạng không đồng nhất? Để giải quyết những thách thức này, phƣơng pháp nhúng (embeddings) ngầm mạng không đồng nhất có thể áp dụng cho các tác vụ khai thác mạng, chẳng hạn nhƣ phân loại node [2], phân cụm [8, 9] và tìm kiếm tƣơng đồng [7, 11]. Ngƣợc lại với các phƣơng pháp dựa trên meta-path thông thƣờng [6], lợi thế của việc học biểu diễn không gian ngầm là khai thác đƣợc sự tƣơng đồng giữa các nodes mà không cần kết nối meta-path. Ví dụ, nếu các tác giả chƣa bao giờ xuất bản bài báo nào trong cùng một địa điểm - hãy tƣởng tƣợng một ngƣời xuất bản tất cả 50 bài báo tại vKDD và ngƣời kia có 50 bài báo đƣợc xuất bản tại ICML. Nhƣ vậy điểm tƣơng đồng Path- Sim của họ dựa trên “ A-P-C-P-A ” sẽ là số không - điều này sẽ đƣợc khắc phục bằng cách học biểu diễn mạng (network representation learning). Nội dung bài báo này đƣợc tổ chức nhƣ sau: Phần 2 bài toán, phần 3 trình bày phƣơng pháp xây dựng mô hình tìm kiếm tƣơng đồng trên mạng dữ liệu không đồng nhất (HINs), phần 4 trình bày kết quả thực nghiệm, phần 5 kết luận và hƣớng phát triển, phần 6 là lời cảm ơn, phần cuối cùng là tài liệu tham khảo. II. BÀI TOÁN Xét trong mạng học thuật không đồng nhất, làm thế nào chúng ta có thể khai thác chính xác “những chủ đề nghiên cứu nào tƣơng đồng và mới nhất hiện nay?”,“nhóm tác giả nào có những công trình nghiên cứu liên quan với nhau?”, “hƣớng nghiên cứu nào hiện nay có sự tƣơng đồng với mình?”, “Nhóm hội nghị nào có sự tƣơng đồng với nhau?" hay “Tài liệu tham khảo nào có giá trị nhất, phù hợp nhất với hƣớng nghiên cứu của mình hiện tại?”… Câu hỏi đặt ra là “Làm thế nào để xây dựng một hệ thống tìm kiếm hiệu quả trên mạng dữ liệu không đồng nhất?” - Để trả lời đƣợc câu hỏi trên chúng ta cần xây dựng mô hình tìm kiếm có khả năng giải quyết bài toán sau: Bài toán: Làm thế nào để dự đoán chính xác và hiệu quả về vùng lân cận giữa các nodes không đồng nhất?
  2. 488 TÌM KIẾM TƢƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHÔNG ĐỒNG NHẤT Bài toán đƣợc phát biểu nhƣ sau: Xét trên tập các đối tƣợng (objects) ta có khoảng cách giữa các đối tƣợng là với . Mục tiêu của bài toán là tìm top-k các đối tƣợng lân cận (nearest neighbor) bằng cách sắp xếp khoảng cách của các đối tƣợng từ . Ví dụ: danh sách top-k các đối tƣợng lân cận của o1, với k = 3 ta có danh sách khoảng cách đƣợc sắp xếp nhƣ sau: list = [ ] với . Xét trên mạng dữ liệu không đồng nhất (HINs) G = (V, E, T) và một meta-path → , mục tiêu của bài toán là tìm ra đƣợc vùng lân cận của node với . Để thực hiện đƣợc mục tiêu trên, chúng tôi sử dụng khoảng cách Euclidean để đo khoảng cách giữa 2 vector, ta có vector và với là số chiều của vector. Khoảng cách Euclidean đƣợc tính theo công thức sau: ( ) √∑ (1) Hình 1. Mô tả lý do sử dụng độ đo khoảng cách Euclidean: trƣờng hợp (B), 2 vector cùng phƣơng ( ⃗⃗⃗⃗ ⃗⃗⃗⃗ ) , cosine( = 1 nhƣng khoảng cách Euclidean là khá lớn III. PHƢƠNG PHÁP Phƣơng pháp khai phá dữ liệu trên mạng dữ liệu không đồng nhất dựa mô hình metapath2vec và metapath2vec ++ [12] để tính toán vùng lân cận giữa các nodes không đồng nhất. A. Meta-path trong mạng không đồng nhất Lƣợc đồ liên kết (Network Schema - NS): Một lƣợc đồ kết nối của một mạng dữ liệu (INs) là tập hợp mẫu của các loại đỉnh và cung liên kết. Meta-path: Đƣợc định nghĩa là một loại lƣợc đồ liên kết (NS) đặc biệt của đồ thị G - với hình thức tổng quát nhƣ sau: NSG = (A,R), với tập (P) là tập các meta-paths của đồ thị G - một meta-path có dạng nhƣ sau: → . Thông thƣờng ta có thể biểu diễn tập meta-paths của một HINs dƣới dạng trong trƣờng hợp không có bất cứ quan hệ nào khác loại. Ví dụ: ta có meta-path → → → → và [tác giả, bài báo, hội nghị, bài báo, tác giả] đều đƣợc xem là một dạng của meta-path. B. Phương pháp nhúng mạng không đồng nhất vào không gian vector (Heterogeneous Network Embedding) Metapath2vec duy trì cấu trúc mạng không đồng nhất, sử dụng skip-gram và bƣớc đi ngẫu nhiên (Random Walks) dựa trên meta-path trong các mạng không đồng nhất gọi là Meta-Path-Based Random Walks để biến node thành vector. Skip-gram không đồng nhất: Phƣơng pháp metapath2vec kích hoạt skip-gram để học biểu diễn node cho mạng không đồng nhất G = (V,E,T) với |TV| > 1 bằng cách tối đa hóa xác suất có bối cảnh không đồng nhất Nt (v), t TV cho một node v: ∑ ∑ ∑ (2) Trong đó: Nt(v) biểu thị vùng lân cận của node v với các loại nodes tth và p (ct | v; θ) đƣợc định nghĩa là hàm softmax [12], ∑ (3)
  3. Nguyễn Văn Gia, Đỗ Phúc 489 Với là hàng thứ vth của X, biểu diễn vector nhúng cho node v. Meta-Path-Based Random Walks: Là phƣơng pháp tạo ra các đƣờng dẫn phản ánh mối tƣơng quan về ngữ nghĩa và cấu trúc giữa các loại nodes khác nhau, tạo điều kiện chuyển đổi các cấu trúc mạng không đồng nhất thành vector. Giả sử ta có mạng không đồng nhất G = (V, E, T) và một lƣợc đồ meta-path → , xác suất dịch chuyển tại bƣớc i đƣợc xác định nhƣ biểu thức sau: ( ) ( | ) ( ) (4) { ( ) Trong đó và biểu thị loại của vùng lân cận node . C. Phương pháp Metapath2vec++ của tác giả Yuxiao Dong Phƣơng pháp lấy mẫu âm không đồng nhất để tính toán vùng lân cận giữa các nodes. Đây là một phƣơng pháp mở rộng từ metapath2vec. trong đó hàm softmax đƣợc chuẩn hóa theo bối cảnh từng loại node ct. Đặc biệt, đƣợc điều chỉnh theo kiểu node cụ thể t, nghĩa là: (5) ∑ Trong đó: Vt là tập hợp node loại t trong mạng. Metapath2vec ++ chỉ định một bộ phân bố đa cực cho mỗi loại vùng lân cận trong lớp đầu ra của mô hình Skip- gram. kích thƣớc của các phân bố đa cực đầu ra bằng số lƣợng node trong mạng. Thuật toán metapath2vec++ của tác giả Yuxiao Dong Đầu vào (input): Mạng không đồng nhất G = (V, E,T), Lƣợc đồ Meta-path , số lần đi bộ (walks) trên mỗi node w, Chiều dài , kích thƣớc nhúng d, kích thƣớc vùng lân cận k. Đầu ra (output): Các nhúng Node ngầm (latent node embeddings) X R|V|×d. Khởi tạo X. for i = 1  w : for : MP = MetaPathBasedRandomWalk ; X = SkipGramKhongDongNhat(X,k,MP); return X; MetaPathBasedRandomWalk : MP[1] = ; for i = 1  l -1 Vẽ u theo biểu thức (4); MP[i + 1] = u; return MP; SkipGramKhongDongNhat(X,k,MP): for i = 1  l : v = MP[i]; for j = max(0, i-k) min(i+k,l) & j ≠ i ct = MP [j]; Xnew = X old - (biểu thức 6); Độ dốc của thuật toán trên đƣợc dẫn xuất nhƣ sau: ( ( [ ])) (6) ∑ ( ( [ ])) Trong đó: [ ] là hàm cho biết có phải là node bối cảnh vùng lân cận hay không khi m = 0, . Mô hình metapath2vec++ đƣợc tác giả tối ƣu hóa bằng thuật toán giảm độ dốc ngẫu nhiên.
  4. 490 TÌM KIẾM TƢƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHÔNG ĐỒNG NHẤT D. Tìm top k thực thể gần nhau thông qua cách tính khoảng cách Euclidean để tìm tác giả, hội nghị tương đồng Chúng tôi tiến hành bổ sung thêm chức năng tìm kiếm top k các thực thể gần nhau thông qua cách tính khoảng cách Euclidean giữa 2 vector đƣợc trình bày bằng ngôn ngữ python nhƣ sau: E. Biểu diễn trực quan bằng thư viện D3.js để dễ dàng nhìn thấy độ tương đồng giữa các tác giả, hội nghị Chúng tôi tiếp tục bổ sung thêm chức năng biểu diễn trực quan top-k các thực thể gần nhau bằng ngôn ngữ lập trình python và thƣ viện D3.js nhƣ sau: 1. Lƣu kết quả vào file csv 2. Biểu diễn trực quan với thƣ viện D3.js IV. THỰC NGHIỆM A. Môi trường thực nghiệm Thiết bị phần cứng (hardware) sử CPU: Intel(R) Core(TM) i7-7500U CPU @ 2.70 GHz 2.90 GHz dụng: Bộ nhớ: 16 Gb RAM. Hệ điều hành: Windows 10 Pro 64-bit (10.0.17763 N/A Build 17763). Hệ quản trị CSDL đồ thị sử dụng: Neo4j 3.2.6 Community Edition, nền tảng Windows 64-bit Bộ dữ liệu thực nghiệm: DBLP ngày 22/05/2019. Ngôn ngữ lập trình sử dụng: Python, Java, Javascripts, Cypher (Neo4J) B. Kết quả thực nghiệm Trong bài báo này, chúng tôi thực nghiệm dựa trên phƣơng pháp metapath2vec và metapath2vec++ của tác giả Yuxiao Dong [12] với các meta-path “APVPA” biểu thị ngữ nghĩa không đồng nhất của các tác giả xuất bản các bài báo tại cùng một địa điểm để thực hiện các bƣớc đi ngẫu nhiên. Nguồn dữ liệu đƣợc chúng tôi rút trích từ DBLP ngày 22/05/2019 bao gồm 1,408,606 tác giả, 1,965,362 bài báo và 1,746 địa điểm hội nghị. Tham số đầu vào nhƣ sau: (1) Số bƣớc đi trên mỗi node w: 1000; (4) Chiều dài l: 100; (2) Kích thƣớc d: 128; (5) Kích thƣớc vùng lân cận k: 7; (3) Kích thƣớc mẫu âm: 5.
  5. Nguyễn Văn Gia, Đỗ Phúc 491 Sau khi tiến hành thực nghiệm chúng tôi thấy rằng, bằng cách mô hình hóa vùng lân cận metapath2vec kết hợp với kỹ thuật lấy mẫu âm không đồng nhất, metapath2vec++ có thể đạt đƣợc kết quả tốt nhất trong top-5 kết quả tƣơng đồng cho hai câu truy vấn [Bảng 1]. Điều đáng chú ý là metapath2vec++ có khả năng tự động tổ chức 2 loại nodes (Tác giả, Hội nghị) và ngầm học các mối quan hệ nội bộ giữa chúng [hình 2] và [hình 3]. Ví dụ nhƣ dữ liệu training là các cặp dạng meta-path nhƣ XiangLi → PVLDB, YongLiu → Complexity…, metapath2vec++ có thể nhóm từng căp tác giả → hội nghị rất chặc chẽ (chẳng hạn nhƣ TaoWang → The Journal of Supercomputing [bảng 1]). Điều này không thể phát hiện đƣợc từ mô hình nhúng mạng thông thƣờng Bảng 1. Top-5 kết quả tìm kiếm tƣơng đồng trên bộ dữ liệu DBLP # Metapath2vec Metapath2vec++ Query PVLDB XiangLi PVLDB XiangLi 1 VLDB J BinLiu The Journal of Supercomputing TaoWang 2 IEEE Data Eng. Bull HaoWang IEEE Trans. Contr. Sys. Techn. LoetLeydesdorff 3 SIGMOD Record WeiLiu Computer Physics Communications ThomasS.Huang 4 IEEE Trans. Knowl. Data Eng YuWang Microelectronics Journal Han-ChiehChao IEEE Trans. Intelligent Transportation 5 ACM Trans. Database Syst JianChen Ekram Hossain Systems Hình 2. Các vector đại diện cho tác giả, hội nghị Hình 3. Các vector đại diện cho tác giả, hội nghị đƣợc nhúng bởi metapath2vec đƣợc nhúng bởi metapath2vec++ Hình 4. Top 10 tác giả tƣơng đồng với “aXiangLi”, bằng Hình 5. Top 10 tác giả tƣơng đồng với “aXiangLi” ” , phƣơng pháp Metapath2vec bằng phƣơng pháp Metapath2vec++ Chúng tôi tiếp tục thử nghiệm tìm Top-10 các thực thể gần nhau bằng cách tính khoảng cách Euclidean và nhận thấy 1 điều khá thú vị rằng, metapath2vec++ có khả năng tối đa hóa vùng lân cận tốt hơn rất nhiều so với metapath2vec. Trong khi top-10 các tác giả gần nhau đƣợc xử lý bởi metapath2vec++ có khoảng cách Euclidean chỉ từ 0.03574 → 0.038779 [hình 5] thì với phƣơng pháp metapath2vec [hình 4] khoảng cách Euclidean khá lớn từ 0.848738 → 0.938837. Và điều này cũng đƣợc thề hiện tƣơng tự với các vector đại diện cho hội nghị nhƣ [hình 6] và [hình 7].
  6. 492 TÌM KIẾM TƢƠNG ĐỒNG TRÊN MẠNG DỮ LIỆU KHÔNG ĐỒNG NHẤT Hình 6. Top 10 hội nghị tƣơng đồng với “vPVLDB” bằng Hình 7. Top 10 hội nghị tƣơng đồng với “vPVLDB” bằng phƣơng pháp Metapath2vec phƣơng pháp Metapath2vec++ Biểu diễn trực quan kết quả top 10 tác giả và hội nghị tƣơng đồng giúp ngƣời dùng dễ dàng nhận biết hơn. Hình 8. Biểu diễn trực quan top 10 tác giả tƣơng đồng Hình 9. Biểu diễn trực quan top 10 hội nghị với “aXiangLi” tƣơng đồng với “vPVLDB” Ngoài ra chúng tôi cũng tiến hành thực nghiệm so sánh tốc độ xử lý (microsecond) giữa phƣơng pháp query dữ liệu truyền thống trên cơ sở dữ liệu đồ thị Neo4j so với phƣơng pháp tính khoảng cách Euclidean dựa trên kết quả của metapath2vec++ [bảng 2]. Kết quả cho thấy, phƣơng pháp này thật sự hữu ích với tốc độ trung bình vƣợt trội hơi rất nhiều so với phƣơng pháp query truyền thống, đây cũng là một yếu tố làm tăng thêm giá trị và tính thuyết phục cho việc áp dụng phƣơng pháp metapath2vec++ để xây dựng công cụ tìm kiếm tƣơng đồng trên mạng dữ liệu không đồng nhất. Bảng 2. So sánh tốc độ thực thi giữa phƣơng pháp truyền thống với metapath2vec++ Thời gian thực thi Phƣơng pháp Top-k trung bình (Microsecond) Truy vấn meta-path 500 216,091 A-P-V-P-A trên 1000 279,866 CSDL đồ thị Neo4j 2000 801,787 metapath2vec++ Tất cả 392,919 Hình 10. Minh họa sự biến thiên TB tổng cho tất cả các lần chạy thực nghiệm tại [Bảng 2] V. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Bài báo trình bày cách tiếp cận xây dựng mô hình tìm kiếm tƣơng đồng trên mạng dữ liệu không đồng nhất dựa trên metapath2vec, metapath2vec++ [12] và độ đo khoảng cách Euclidean. Đây là một giải pháp hiệu quả và dễ dàng tìm đƣợc các thực thể hay các nodes gần nhau. Tuy nhiên kết quả của bài báo này chỉ mới áp dụng cho 2 loại thực thể chính đó là tác giả và hội nghị, trong tƣơng lai chúng tôi sẽ cố gắng phát triển thêm nhiều loại thực thể khác nhƣ tìm kiếm bài báo tƣơng đồng phục vụ cho
  7. Nguyễn Văn Gia, Đỗ Phúc 493 các công tác nghiên cứu hay có thể áp dụng để giải quyết các bài toán liên quan đến mạng xã hội phục vụ cho kinh doanh,.... VI. LỜI CẢM ƠN Xin chân thành cảm ơn anh Phạm Thế Anh Phú đã hỗ trợ chúng tôi trong quá trình thực hiện bài báo này. TÀI LIỆU THAM KHẢO [1] Yoshua Bengio, Aaron Courville, and Pierre Vincent. 2013. Representation learning: A review and new perspectives. IEEE TPAMI 35, 8 (2013), 1798-1828. [2] Ming Ji, Jiawei Han, and Marina Danilevsky. 2011. Ranking-based classification of heterogeneous information networks. In KDD ’11. ACM, 1298-1306. [3] Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Efficient Estimation of Word Representations in Vector Space. CoRR abs/1301.3781 (2013. [4] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. 2013. Distributed representations of words and phrases and their compositionality. In NIPS ’13. 3111-3119. [5] Bryan Perozzi, Rami Al-Rfou, and Steven Skiena. 2014. DeepWalk: Online Learning of Social Representations. In KDD ’14. ACM, 701-710. [6] Yizhou Sun and Jiawei Han. 2012. Mining Heterogeneous Information Networks: Principles and Methodologies. Morgan & Claypool Publishers. [7] Yizhou Sun, Jiawei Han, Xifeng Yan, Philip S. Yu, and Tianyi Wu. 2011. Pathsim: Meta path-based top-k similarity search in heterogeneous information networks. In VLDB ’11. 992-1003. [8] Yizhou Sun, Brandon Norick, Jiawei Han, Xifeng Yan, Philip S. Yu, and Xiao Yu. 2012. Integrating Meta-path Selection with User-guided Object Clustering in Heterogeneous Information Networks. In KDD ’12. ACM, 1348- 1356. [9] Yizhou Sun, Yintao Yu, and Jiawei Han. 2009. Ranking-based Clustering of Heterogeneous Information Networks with Star Network Schema. In KDD ’09. ACM, 797-806. [10] Jian Tang, Meng Qy, Mingzhe Wang, Ming Zhang, Jun Yan, and Qiaozhu Mei. 2015. LINE: Large-scale Information Network Embedding.. In WWW ’15. ACM. [11] Jing Zhang, Jie Tang, Cong Ma, Hanghang Tong, Yu Jing, and Juanzi Li. 2015. Panther: Fast top-k similarity search on large networks. In KDD ’15. ACM, 1445-1454. [12] YuxiaoDong, AnanthramSwami, Nitesh V.Chawla. metapath2vec: ScalableRepresentationLearningfor HeterogeneousNetworks. KDD’17, August 13-17, 2017, Halifax, NS, Canada. [13] Aditya Grover and Jure Leskovec. 2016. Node2Vec: Scalable Feature Learning. [14] https://dblp.uni-trier.de/xml/ accessed on 22/05/2019. SIMILARITY SEARCH IN HETEROGENEOUS INFORMATION NETWORKS Nguyen Van Gia, Do Phuc ABTRACT: Mining Heterogeneous Information Networks is a new trend and direction in the field of data science. Most of the current publications also stop at the level of model algorithms rather than building a system to support today's essential demands. This paper presents an approach to build a heterogeneous information network mining model for scientific researchs. Specifically focus on finding similarities between entities in the heterogeneous academic network, including: Supporting finding objects in the information network such as: Author, co-author, conference ... calculating top-k neighborhoods between objects to support visual search and representation helps users have a better overview of the distribution, the similarity of the author group, the conference group. Data source is extracted from DBLP on May 22, 2019 with 1,408,606 authors, 1,965,362 articles and 1,746 conference locations. Keywords: Heterogeneous Information Networks, Similarity; Heterogeneous Representation Learning, Metapath2vec, Metapath2vec++, Network Embedding, word2vec, node2vec.
nguon tai.lieu . vn