Xem mẫu

  1. +ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ (&,7
  2. Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Phân Loại Câu Trả Lời Giả Mạo Trên Các Trang Web Hỏi Đáp Cộng Đồng Dựa Vào Quan Hệ Người Dùng Nông Thị Hoa, Quách Xuân Trưởng, Nguyễn Thùy Linh, Vũ Thị Thúy Thảo, Nguyễn Xuân Hưng Trường Đại học Công nghệ thông tin & Truyền thông, Đại học Thái Nguyên Email: nongthihoa@gmail.com, qxtruong@ictu.edu.vn, gianglinhtn@gmail.com,vttthao@ictu.edu.vn, nxhung@ictu.edu.vn Abstract – Việc xuất hiện các câu trả lời giả mạo (câu trả lời có giúp được gì cho người hỏi. Nếu người hỏi bị lừa bởi các câu chứa thông tin quảng cáo) trên các trang web hỏi đáp cộng đồng trả lời giả mạo thì người hỏi sẽ không tin tưởng và ko ghé sẽ làm giảm sự tin tưởng của người dùng đối với các tri thức của thăm trang web nữa. Vì vậy, một nhiệm vụ cơ bản là phân trang. Vì vậy, nhu cầu loại bỏ các câu trả lời giả mạo này là hết loại để lọc ra những câu trả lời giả mạo. sức cần thiết. Hiện nay, các tiếp cận thường tập trung vào phân Trong bài báo này, chúng tôi trình bày cách phân loại các loại dựa trên đặc điểm văn bản và ngữ cảnh. Dựa vào hoạt động của các trang web hỏi đáp, các người dùng tốt thường thích hoặc câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng bầu chọn các câu trả lời xác thực. Ngược lại, người dùng chuyên thông qua mối quan hệ người dùng. Dựa vào đặc điểm: các đăng quảng cáo thường thích hoặc bầu chọn các câu trả lời có người dùng tốt thường thích hoặc bầu chọn các câu trả lời xác chứa quảng cáo. Vì vậy, việc dùng mối quan hệ này để phân loại thực còn người dùng chuyên đăng quảng cáo thường thích các câu trả lời sẽ tăng thêm khả năng tìm được các câu trả lời giả hoặc bầu chọn các câu trả lời có chứa quảng cáo. Việc phân mạo. Trong bài báo này, chúng tôi trình bày cách phân loại các loại các câu trả lời được thực hiện qua hai bước: (i) Phân loại câu trả lời giả mạo trên các trang web hỏi đáp cộng đồng thông dựa trên các thuộc tính về văn bản thu được tập các câu trả lời qua mối quan hệ người dùng. Các thử nghiệm được làm với hai giả mạo và tập các câu trả lời xác thực; (ii) Phân loại dựa trên bộ dữ liệu được thu thập từ trang Yahoo hỏi đáp và Facebook. quan hệ người dùng đối với các câu được xếp loại là xác thực Kết quả cho thấy việc sử dụng quan hệ người dùng cho phép phân loại tốt hơn các phương pháp phân loại dựa vào văn bản. ở bước trước. Bài báo được tổ chức thành các phần sau: trong phần II, Keywords – Câu trả lời giả mạo, quan hệ người dùng, phân chúng tôi tổng kết các nghiên cứu liên quan. Phần III trình bày loại câu trả lời, trang web hỏi đáp cộng đồng, phân loại . các đặc điểm của câu trả lời. Tiếp theo, quan hệ người trong phân loại câu trả lời được mô tả chi tiết trong phần IV. Phần V I. GIỚI THIỆU thể hiện các kết quả thực nghiệm. Cuối cùng, kết luận được đưa ra trong Phần VI. Hiện nay, các trang web hỏi-đáp cộng đồng, chẳng hạn như Yahoo! Hỏi & Đáp và WikiAnswers, đã trở thành một II. CÁC NGHIÊN CỨU LIÊN QUAN trong những phương pháp thu thập thông tin quan trọng nhất. Trong vài năm qua, tìm câu trả lời trên các trang web Ngoài các công cụ tìm kiếm web có mục đích chung, các trang đã trở thành một nhiệm vụ phổ biến để khai thác kiến thức từ web hỏi-đáp cộng đồng đã trở lên phổ biến, có hiệu quả và trở các trang web hỏi đáp cộng đồng. Các nghiên cứu gồm lấy các thành phương tiện tìm kiếm thông tin trên web. Hiện nay có cặp câu hỏi - câu trả lời đã tích lũy để tìm câu trả lời liên quan hàng trăm triệu câu trả lời và hàng triệu câu hỏi tích lũy trên cho một câu hỏi mới, tổng hợp các câu trả lời để cung cấp một các trang web hỏi-đáp cộng đồng. Các nguồn tài nguyên của kết quả chính xác [1][2][3][4][5][6]. Tuy nhiên, việc phát hiện câu hỏi và câu trả lời trước đây được chứng minh là một cơ sở các câu trả lời giả mạo chưa được quan tâm thực sự. Nếu thu tri thức có giá trị. Từ các trang web hỏi-đáp cộng đồng, người thập một tập hợp câu hỏi – câu trả lời có nhiều câu trả lời giả dùng có thể trực tiếp nhận được các câu trả lời để đáp ứng một mạo thì kiến thức thu được sẽ vô nghĩa. Do đó, bước đầu tiên số nhu cầu thông tin cụ thể. Do đó, trong những năm gần đây, là dự đoán để lọc ra những câu trả lời giả mạo. Một số nghiên khai thác kiến thức trong các trang web hỏi-đáp cộng đồng đã cứu khác tập trung vào dự đoán chất lượng câu trả lời [7] [8] trở thành một chủ đề phổ biến trong lĩnh vực trí tuệ nhân tạo [9][10]. Tuy nhiên, một số câu trả lời có thể là giả mạo. Các trang Tuy nhiên, có sự khác biệt đáng kể giữa dự đoán chất web hỏi-đáp cộng đồng có hàng triệu người dùng mỗi ngày. lượng câu trả lời và dự đoán câu trả lời giả mạo. Dự đoán chất Do các câu trả lời có thể chỉ dẫn hành vi của người dùng nên lượng câu trả lời sẽ đo chất lượng tổng thể của câu trả lời, một số người dùng độc hại đã cố ý cung cấp câu trả lời giả thông qua tính chính xác, tính dễ đọc và đầy đủ của các câu trả mạo để quảng cáo sản phẩm hoặc dịch vụ. lời. Trong khi dự đoán câu trả lời giả mạo dự đoán mục đích Câu trả lời giả mạo gây ra nhiều vấn đề đặc biệt là gây của các câu trả lời có chứa quảng cáo hay không. Một số hiểu lầm cho người dùng và làm người dùng đưa ra quyết định nghiên cứu [7][10][11] xem việc chọn “câu trả lời tốt nhất” sai. Về phía cộng đồng hỏi-đáp, các câu trả lời giả mạo sẽ làm như câu trả lời chất lượng cao mà được chọn bởi người hỏi tổn hại sức mạnh của các trang web hỏi-đáp cộng đồng. Một trong các trang web hỏi đáp cộng đồng. Tuy nhiên, câu trả lời trang web hỏi-đáp cộng đồng mà không có kiểm soát các câu giả mạo có thể được lựa chọn là câu trả lời chất lượng cao bởi trả lời giả mạo thì chỉ có lợi nhưng kẻ gửi thư rác mà không ISBN: 978-604-67-0635-9 288 
  3. Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ (&,7
  4. Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) các người dùng độc hại, hoặc vì người dùng hiểu lầm. Trong Theo quan sát, các câu trả lời giả mạo thường dài hơn các khi đó, một số câu trả lời từ những người không phải người câu trả lời xác thực bởi vì câu trả lời giả mạo được chuẩn bị bản xứ có thể có lỗi ngôn ngữ mà làm cho câu trả lời có chất tốt để quảng cáo các mục tiêu. Vì vậy, số từ và số câu trong lượng thấp nhưng vẫn là câu trả lời xác thực. các câu trả lời được xét như một thuộc tính. Một số nghiên cứu cũng dùng đồ thị người dùng để nghiên B. Các thuộc tính theo ngữ cảnh cứu các mối quan hệ người dùng [12][13]. Các nghiên cứu chủ yếu xây dựng các đồ thị người dùng với mối quan hệ người Bên cạnh các thuộc tính theo văn bản, có thể xem xét đến hỏi-người trả lời để ước tính số điểm chuyên môn với quan các thuộc tính khác từ ngữ cảnh của câu trả lời. điểm người trả lời có hiểu biết hơn người hỏi. Tuy nhiên, bài 1) Sự liên quan giữa câu hỏi và câu trả lời toán này không quan tâm người dùng nào có kiến thức hơn, Đặc điểm chính của câu trả lời trong trang web hỏi-đáp mà cho biết cả hai người dùng là hai kẻ gửi thư rác hoặc hai cộng đồng là câu trả lời được cung cấp để trả lời câu hỏi tương người dùng xác thực. Vì vậy, mối quan hệ giữa các người ứng. Vì vậy, câu hỏi tương ứng được dùng như một thuộc tính dùng mới được đưa vào để nâng cao chất lượng phân loại câu ngữ cảnh bằng cách đo sự liên quan giữa các câu trả lời và câu trả lời giả mạo. Lý do là người gửi thư rác đưa ra câu trả giả hỏi. Ba mô hình phổ biến được dùng để xác định sự liên quan mạo và thăng cấp các câu trả giả mạo còn người dùng xác thực giữa câu hỏi và câu trả lời: thường gửi các câu trả lời xác thực và giáng cấp các câu trả lời Mô hình không gian vector giả mạo. Quan hệ giữa người dùng được xây dựng dựa trên Mỗi câu trả lời hoặc câu hỏi được xem như là một vector đánh giá câu trả lời của người dùng khác là “hữu ích” hoặc lựa từ. Cho một câu hỏi q và câu trả lời a, mô hình vector sử dụng chọn là “câu trả lời tốt nhất”. bộ đếm từ có trọng số và sự tương tự cosine của các vector từ như là một hàm liên quan [15]. III. CÁC ĐẶC TRƯNG CỦA CÂU TRẢ LỜI Tuy nhiên, mô hình vector chỉ xem xét sự đối chiếu từ Đầu tiên, xem việc dự đoán câu trả lời giả mạo là một vấn chính xác trong khi các câu hỏi và câu trả lời thường là ngắn đề phân loại nhị phân. Hai loại thuộc tính của câu trả lời được hơn so với tài liệu. Ví dụ, Hà nội và thủ đô của Việt Nam là dùng trong phân loại gồm các thuộc tính theo văn bản và các cùng một thành phố. Nhưng mô hình vector sẽ cho thấy chúng thuộc tính theo ngữ cảnh. phải khác nhau. Mô hình dịch A. Các thuộc tính theo văn bản Một mô hình dịch là một mô hình toán học mà việc dịch Đầu tiên, dự đoán câu trả lời giả mạo bằng cách phân tích ngôn ngữ được mô hình hóa dựa trên các thống kê dữ liệu. nội dung câu trả lời. Một số thuộc tính theo văn bản được lấy Khả năng dịch một câu nguồn (câu trả lời) sang câu mục tiêu ra từ nội dung câu trả lời. (câu hỏi) thu được bằng cách gióng các từ để cực đại tích xác 1) Unigrams và Bigrams suất các từ. Với mô hình dịch, có thể tính điểm dịch cho câu Loại phổ biến nhất của thuộc tính để phân loại văn bản là hỏi và câu trả lời mới. túi từ (bag of words). Sử dụng các phương pháp lựa chọn Mô hình chủ đề thuộc tính để chọn 200 từ đơn và từ ghép như thuộc tính về từ. Để giảm lỗi đối chiếu từ trong mô hình vector, dùng mô Danh sách các từ này có liên quan đến mục đích quảng cáo hình chủ đề để mở rộng việc đối chiếu ngữ nghĩa của chủ đề. gồm: chuyên nghiệp, dịch vụ, khuyên dùng, địa chỉ, số điện Mô hình chủ đề xem xét một tập hợp các tài liệu với các chủ thoại, email, điều trị, giới thiệu, hoàn hảo, tốt nhất, tel, mobile, đề [17]. Về bản chất, mô hình ánh xạ thông tin từ số chiều của address, phone, liên hệ, dt, điện thoại. từ sang số chiều chủ đề ngữ nghĩa. 2) Các thuộc tính URL 2) Các thuộc tính về hồ sơ của người dùng Một số người dùng độc hại có thể quảng bá sản phẩm bằng Từ số liệu thống kê hoạt động của người dùng, các thuộc cách liên kết với một URL. Do đó, URL là thể hiện tốt cho câu tính về hồ sơ cá nhân được xây dựng bao gồm mức độ sử dụng trả lời giả mạo. Tuy nhiên, một số URL có thể cung cấp các tài các trang web hỏi-đáp cộng đồng, số lượng câu hỏi, số lượng liệu tham khảo cho câu trả lời xác thực. Ví dụ, nếu hỏi thời tiết câu trả lời, và tỷ lệ câu trả lời tốt nhất. ở vùng núi, một người nào đó chỉ có thể gửi liên kết đến 3) Điểm thẩm quyền của người dùng “http://www.weather.com/". Vì vậy, bên cạnh sự tồn tại của Các chuyên gia tìm kiếm nhiệm vụ thực hiện chấm điểm URL, cần sử dụng thêm thuộc tính URL sau đây: thẩm quyền cho mỗi người dùng [5][12][13]. Điểm này biểu - Chiều dài của các URL: các URL dài có nhiều khả năng thị số điểm chuyên môn của người dùng. Để tính điểm thẩm là rác. quyền, đầu tiên cần xây dựng một đồ thị có hướng thể hiện sự - Điểm xếp hạng trang: sử dụng số điểm xếp hạng trang tương tác của người dùng trong cộng đồng. Mỗi nút của đồ thị của mỗi URL như điểm phổ biến [14]. Trang có độ phổ biểu diễn cho một người dùng. Một cạnh giữa hai người dùng biến ít là trang có trong câu trả lời giả mạo. chỉ hình thành khi người dùng này trả lời câu hỏi của người 3) Số điện thoại và email dùng kia. Trọng lượng của một cạnh cho biết số tương tác. Câu trả lời giả mạo thường có nhiều thông tin liên lạc như 4) Các thuộc tính tự động số điện thoại, địa chỉ và email. Câu trả lời xác thực ít tham Loại thứ ba của thuộc tính liên quan đến tác giả được sử khảo đến số điện thoại hoặc địa chỉ email hơn. Số lần xuất dụng để phát hiện xem tác giả có là một robot được lập trình hiện của email và số điện thoại được coi như một thuộc tính. để gửi câu trả lời tự động. Theo quan sát, sự phân phối thời 4) Chiều dài gian gửi bài trả lời rất khác nhau giữa người dùng và robot. 289 
  5. Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ (&,7
  6. Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Robot có thể gửi câu trả lời liên tục nên khoảng thời gian giữa “không hữu ích”, và người dùng u6 bỏ phiếu câu trả lời thứ hai hai câu trả lời là nhỏ hơn người dùng thực bởi vì con người là “hữu ích”. Cuối cùng, người hỏi u1 đã chọn câu trả lời đầu cần thời gian để suy nghĩ và xử lý giữa hai bài viết. tiên là “câu trả lời tốt nhất”. Do người dùng u4 và u5 cùng đưa 5) Đánh giá từ người dùng khác ra đánh giá “không hữu ích” đối với câu trả lời đầu tiên nên Trên các trang web hỏi-đáp cộng đồng, người dùng có thể hai người dùng này có quan hệ với nhau. bày tỏ ý kiến hoặc đánh giá các câu trả lời. Ví dụ, người hỏi có Về phía đánh giá “hữu ích” thực sự, giả sử tác giả của câu thể chọn câu trả lời tốt nhất. Ngoài ra, người dùng có thể dán trả lời cho đánh giá “hữu ích” đối với câu trả lời của mình. nhãn cho mỗi câu trả lời là “hữu ích” hoặc “không hữu ích”. Sau đó, nếu người dùng u6 đưa ra đánh giá “hữu ích” với câu Đánh giá của người dùng khác được tính theo tỷ lệ giữa số trả lời thứ hai của người dùng u3 thì người dùng u6 có quan hệ phiếu bầu “hữu ích” trên số tổng số phiếu bầu. với người dùng u3. 6) Sao chép các câu trả lời Tiếp tục xác định quan hệ người dùng với lựa chọn “câu Người dùng xấu có thể gửi các tài liệu quảng bá sản phẩm trả lời tốt nhất”. Nếu người hỏi đã chọn “câu trả lời tốt nhất” được viết trước cho nhiều câu trả lời, hoặc chỉ thay đổi tên sản trong tất cả các câu trả lời thì người hỏi có quan hệ với tác giả phẩm. Xét sự tương đồng giữa các câu trả lời cho thấy nếu hai của “câu trả lời tốt nhất”. Theo ví dụ, người dùng u1 có quan câu trả lời là giống nhau nhưng câu hỏi là khác nhau thì các hệ với người dùng u2. câu trả lời đó là giả mạo Trong các trang web hỏi đáp cộng đồng, kẻ gửi thư rác chủ yếu quảng cáo các sản phẩm mục tiêu bằng cách đưa ra các IV. DỰ ĐOÁN CÂU TRẢ LỜI GIẢ MẠO DỰA VÀO câu trả lời giả mạo. Kẻ gửi thư rác có thể làm cho câu trả lời MỐI QUAN HỆ NGƯỜI DÙNG giả mạo trông có vẻ thật, bằng cách bầu chọn cho chúng là câu trả lời chất lượng cao, hoặc lựa chọn chúng như là “câu trả lời Bên cạnh các thuộc tính theo văn bản và các thuộc tính tốt nhất". Tuy nhiên, người dùng xác thực thường có đánh giá theo ngữ cảnh, mối quan hệ của người dùng cũng được dùng riêng cho các câu trả lời xác thực và các câu trả lời giả mạo. để dự đoán câu trả lời giả mạo. Giả sử, người dùng tương tự Vì vậy, việc đánh giá đối với các câu trả lời phản ánh mối có xu hướng thực hiện hành vi tương tự (cùng gửi câu trả lời quan hệ người dùng. Tuy nhiên, vẫn có các quan hệ nhiễu khi giả mạo hoặc cùng đăng câu trả lời xác thực). Đầu tiên, cần người dùng xác thực bị lừa và chọn câu trả lời giả mạo là “câu xác định mối quan hệ của người dùng thông qua phiếu bầu của trả lời tốt nhất". các người dùng về câu trả lời. Sau đó, dùng mối quan hệ người dùng để dự đoán câu trả lời giả mạo. B. Kết hợp mối quan hệ người dùng và các thuộc tính về văn bản để phân loại các câu trả lời giả mạo. A. Xác định mối quan hệ người dùng Ý tưởng dùng quan hệ người dùng để phân loại câu trả lời Cho một câu hỏi Q1, sẽ có một số câu trả lời cho Q1 từ giả mạo đã được trình bày chi tiết trong [18]. Trong nghiên những người dùng khác nhau. Hai người dùng U1 và U2 có cứu này, đồ thị quan hệ người dùng được xây dựng với trọng mối quan hệ nếu ở một trong các trường hợp sau: số cạnh thể hiện mức quan hệ giữa hai người dùng và dùng (i) Người dùng U1 trả lời một câu hỏi Q1. Người dùng U2 hàm mục tiêu để cực tiểu sự khác biệt khi xác thực câu trả lời bình chọn câu trả lời của người dùng U1 là “hữu ích” hoặc của các người dùng có quan hệ. Do đó, kết quả phân loại sẽ có “không hữu ích”; độ chính xác cao nhưng đòi hỏi tính toán phức tạp hơn. (ii) Người dùng U2 trả lời một câu hỏi Q1. Người dùng U1 Chúng đề xuất thủ tục phân loại đơn giản hơn dựa trên ý bình chọn câu trả lời của người dùng U2 là “hữu ích” hoặc tưởng của nghiên cứu trên. Do việc xây dựng quan hệ người “không hữu ích”; và dùng đơn giản hơn nên độ chính xác của kết quả phân loại sẽ (iii) Cả người dùng U1 và người dùng U2 cùng bình chọn giảm so với phương pháp nêu trên. một câu trả lời A1 của một người dùng khác là “câu trả lời tốt 1) Thủ tục phân loại câu trả lời nhất”. Trong thủ tục này, người dùng có quan hệ với người dùng độc hại cũng xem như người dùng độc hại. Việc phân loại câu trả lời giả mạo được thực hiện qua các bước sau: Bước 1: Phân loại các câu hỏi dựa trên các thuộc tính về văn bản để lọc ra các câu trả lời giả mạo. Với mỗi câu trả lời giả mạo thu được, lấy tác giả của câu trả lời đưa vào danh sách các người dùng độc hại. Bước 2: Với các câu trả lời còn lại, làm hai bước sau: Bước 2.1: Tìm ra các người dùng có quan hệ với người dùng độc hại trong danh sách thu được ở Bước 1 theo cách xác định trong phần 4 mục A nếu số lần có cùng quan Hình 1: Ví dụ về quan hệ người dùng điểm vượt qua ngưỡng q với q nguyên dương. Điều này để tránh khi người dùng xác thực bị lừa bởi người dùng độc Ví dụ: người hỏi, u1, hỏi một câu. Sau đó, người dùng u2 hại do chưa xem xét kỹ thông tin câu trả lời đã bình chọn. và u3 trả lời cho câu hỏi này. Sau khi câu trả lời được cung Bước 2.2: Phân loại câu trả lời là giả mạo nếu người trả cấp, người dùng u4 và u5 bầu chọn câu trả lời đầu tiên là lời là người dùng độc hại. Các câu trả còn lại là câu trả lời xác thực. 290 
  7. Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ (&,7
  8. Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) 2) Ưu điểm và nhược điểm x Câu trả lời chứa các từ liên quan đến quảng cáo gồm Thủ tục đề xuất có tốc độ xử lý nhanh do các phương thức chuyên nghiệp, dịch vụ, khuyên dùng, địa chỉ, số điện phát hiện câu trả lời giả mạo từ các thuộc tính về văn bản là thoại, email, điều trị, giới thiệu, hoàn hảo, tốt nhất, khá đơn giản. Hơn nữa, việc xác định mối quan hệ người dùng tel, mobile, address, phone, liên hệ, dt, điện thoại. cũng dễ thực hiện chỉ bởi các phép so sánh. x Với địa chỉ URL, chỉ xét phần địa chỉ đầu tiên gắn Do thủ tục đạt được tốc độ xử lý nhanh nên chất lượng với tên miền. Các địa chỉ chia thành 3 nhóm: bắt đầu phân loại sẽ bị giảm vì một số câu trả lời giả mạo vẫn được coi bằng www thì độ dài lớn hơn 10 ký tự, bắt đầu bằng là các câu trả lời thật do chưa xét hết các thuộc tính liên quan http:// thì độ dài lớn hơn 17 ký tự, bắt đầu bằng đến ngữ cảnh và mối quan hệ giữa người dùng chỉ ở mức đơn https:// thì độ dài lớn hơn 18 ký tự. giản. Nếu mối quan hệ người dùng được xây dựng tốt hơn Kết quả thực nghiệm được trình bày trong Bảng 2. Số liệu gồm các thông tin về trọng số của các mối quan hệ thì giải trong Bảng 2 cho thấy thủ tục đề xuất cải thiện đáng kể khả quyết tốt hơn các mối quan hệ còn nhập nhằng. Ví dụ một năng phát hiện các câu trả giả mạo so với kết quả phân loại người dùng có nhiều quan hệ với nhiều người dùng xác thực theo các thuộc tính văn bản. hơn quan hệ với người dùng độc hại thì được coi là người dùng xác thực. Với thủ tục trên, khi số lần người dùng xác Bảng 2: Tỷ lệ % phân loại đúng với tập dữ liệu từ Yahoo thực đồng ý với ý kiến của người dùng độc hại vượt qua một Giả mạo Xác thực Tổng thể ngưỡng nhất định thì vẫn bị coi là người dùng độc hại. Số mẫu 88 744 832 V. KẾT QUẢ THỰC NGHIỆM Độ dài 6.82 91.67 49.25 Trong bài báo này, các thực nghiệm được làm trên hai tập Danh sách từ 29.55 97.18 63.37 dữ liệu được thu thập trừ trang Yahoo hỏi-đáp Việt Nam và nhóm IELTS SHARE của Facebook. Với mỗi câu trả lời, Địa chỉ URL 29.55 98.25 63.90 chúng tôi tiến hành gán nhãn là giả mạo hay xác thực dựa vào Tổng hợp 57.95 100.00 78.98 nội dung câu hỏi và nội dung câu trả lời. Quan hệ người dùng 85.23 100.00 92.62 Với mỗi tập dữ liệu, thực hiện phân loại theo 5 cách sau: độ dài câu trả lời, danh sách các từ thường dùng trong quảng cáo, địa chỉ URL, tổng hợp cả ba thuộc tính văn bản và thủ tục B. Thực nghiệm với tập dữ liệu từ Facebook đề xuất. Để đánh giá hiệu quả phân loại, tỷ lệ phần trăm phân Tập dữ liệu gồm 250 mẫu được thu thập từ nhóm IELTS loại đúng được dùng cho các câu trả lời giả mạo, các câu trả SHARE của Facebook – Nơi hỏi đáp về các tài liệu học tiếng lời xác thực, và trên toàn tập dữ liệu. anh trình độ IELTS. Trong đó, có 31 mẫu là câu trả lời giả mạo A. Thực nghiệm với tập dữ liệu từ Yahoo hỏi-đáp và 219 mẫu là câu trả lời xác thực. Bảng 3 thể hiện một số quan hệ người dùng thu được từ tập số liệu. Tập dữ liệu gồm 832 mẫu được thu thập từ nhiều chủ đề khác nhau trên trang Yahoo hỏi-đáp Việt Nam. Trong đó, có Bảng 3: Các quan hệ người dùng trong tập dữ liệu từ Facebook 88 mẫu là câu trả lời giả mạo và 744 mẫu là câu trả lời xác thực. Bảng 1 thể hiện quan hệ người dùng thu được từ tập số Người trả lời Người thích câu trả lời liệu. Thanh Hồ, Phương Mai, Dung Trinh,Yoo Đỗ Trọng Su, Linh Chan, Len Pham, Nguyễn Đức Bảng 1: Các quan hệ người dùng trong tập dữ liệu từ Yahoo Thiêm Nghĩa, Hằng Nga, Nguyễn Thảo, Dương Người trả lời Người thích/chọn là câu trả lời hay nhất Trịnh SGC ShopOnline4Sure, Vip Ooz Hồ Trọng Đại Tuyết Anh, Linh Sogogi, Phương Thảoo Viet Bup Be Mat troi Xanh, KYNGVI Lực Nam, Trung Phuong Anh Bùi, Link Chee Twig, Trần Thanh Phương, Trần Thảo Ngọc, Tuyết Hehe Suri, Iu, Na Ngo Bla Anh, Trâm Nguyễn, Nguyễn chung doan, phuc, nguyen Thảo,Phương Thảoo, Nguy Hiểm ngocn nam viet, thi, hung, uyên Phạm Ngọc Diệp, Chi Phan, Phan Thị Thoa Mỹ Vy, Hien Nguyễn Ngọc Ngọc Phú, Hạ Nhật, Thân Hương, Mun Hưng Lê đức huệ, Xuan Thien, Trung Mun, AnhThu Tran,Kỵ Sỹ Văn Trần, Mai Smart Dev Thành Mobile Anh BaeKarry Mun Mun, Ha Cuong, Dương Trịnh, Các tham số chọn cho các thuộc tính về văn bản dùng Hoàng Phúc Phạm Ngọc Diệp, Thân Hương trong thực nghiệm gồm: x Số từ trong câu trả lời quá 80 từ 291 
  9. Hội+ӝL7KҧR4XӕF*LDYӅĈLӋQ7ӱ7UX\ӅQ7K{QJYj&{QJ1JKӋ7K{QJ7LQ (&,7
  10. Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Kết quả thực nghiệm trong Bảng 4. cũng cho thấy thủ tục 1, COLING ’08, pages 497– 504, Stroudsburg, PA, USA. Association for Computational Linguistics cải tiến tăng mạnh khả năng phát hiện các câu trả giả mạo so [4] Young-In Song, Chin-Yew Lin, Yunbo Cao, and HaeChang Rim (2008), với kết quả phân loại theo các thuộc tính văn bản “Question utility: a novel static ranking of question search”. Proceedings of the 23rd national conference on Artificial intelligence - Volume 2, Bảng 4: Tỷ lệ % phân loại đúng với tập dữ liệu từ Facebook AAAI’08, pages 1231–1236. AAAI Press. [5] X. Si, Z. Gyongyi, and E. Y. Chang (2010), “Scalable mining of topic- Giả mạo Xác thực Tổng thể dependent user reputation for improving user generated content search Số mẫu 31 219 250 quality”, In Google Technical Report. [6] A. Figueroa and J. Atkinson (2011), “Maximum entropy context models Độ dài 19.35 99.54 59.45 for ranking biographical answers to open-domain definition questions”, Danh sách từ 6.45 99.54 53.00 Twenty-Fifth AAAI Conference on Artificial Intelligence [7] Y.I. Song, J. Liu, T. Sakai, X.J. Wang, G. Feng, Y. Cao, H. Suzuki, and Địa chỉ URL 48.39 98.17 73.28 C.Y. Lin (2010), “Microsoft research asia with redmond at the ntcir-8 community QA pilot task”, Proceedings of NTCIR. Tổng hợp 74.19 100.00 87.10 [8] F. Maxwell Harper, Daphne Raban, Sheizaf Rafaeli, and Joseph A. Quan hệ người dùng 90.32 100.00 95.16 Konstan (2008), “Predictors of answer quality in online q&a sites”, Proceedings of the twenty-sixth annual SIGCHI conference on Human factors in computing systems, CHI ’08, pages 865– 874, New York, NY, USA. ACM. VI. KẾT LUẬN [9] Chirag Shah and Jefferey Pomerantz (2010), “Evaluating and predicting Trong bài báo này, một thủ tục dự đoán các câu trả lời giả answer quality in community QA”, Proceedings of the 33rd international mạo trong các trang web hỏi đáp cộng đồng đưoạc đưa ra. Với ACM SIGIR conference on Research and development in information retrieval, SIGIR ’10, pages 411–418, New York, NY, USA. ACM. hai tập dữ liệu đánh nhãn bằng tay, đầu tiên thực hiện dự đoán [10] Daisuke Ishikawa, Tetsuya Sakai, and Noriko Kando (2010), “Overview các câu trả lời giả mạo dựa vào các thuộc tính về văn bản và of the NTCIR-8 Community QA”, Pilot Task (Part I): The Test thành lập danh sách các người dùng độc hại dựa trên các đánh Collection and the Task, pages 421–432. Number Part I giá của người dùng đối với các câu trả lời. Tiếp theo, xác định [11] Jiang Bian, Yandong Liu, Ding Zhou, Eugene Agichtein, and Hongyuan các người dùng có với các người dùng độc hại trong danh Zha (2009), “Learning to recognize reliable users and content in social sách. Cuối cùng, áp dụng quan hệ người dùng để phân loại các media with coupled mutual reinforcement”, Proceedings of the 18th international conference on World wide web, WWW ’09, pages 51–60, câu trả lời. Các thực nghiệm trên hai tập dữ liệu lấy từ Yahoo NY, USA. ACM và Facebook cho thấy việc sử dụng quan hệ người dùng cải [12] P. Jurczyk and E. Agichtein (2007), “Discovering authorities in question thiện đáng kể độ chính xác trong việc dự đoán câu trả lời giả answer communities by using link analysis”, Proceedings of the mạo. sixteenth ACM CIKM conference, pages 919–922. ACM. Độ chính xác của dự đoán câu trả lời giả mạo còn có thể [13] Jing Liu, Young-In Song, and Chin-Yew Lin (2011), “Competition- cải thiện khi kết hợp thêm nhiều thuộc tính trong khi phân based user expertise score estimation”, Proceedings of the 34th international ACM SIGIR conference on Research and development in loại. Hơn nữa, việc dự đoán các chủ đề của hàng loạt câu hỏi Information Retrieval, pages 425–434, ACM. giả mạo và phát hiện nhóm người dùng độc hại cũng là các [14] Lawrence Page, Sergey Brin, Rajeev Motwani, and Terry Winograd. nhiệm vụ quan trọng trong tương lai. (1999), “The pagerank citation ranking: Bringing order to the web”, Technical Report 1999-66, Stanford InfoLab, SIDL-WP-1999-0120. [15] Gerard Salton and Michael J. McGill (1986), “Introduction to Modern TÀI LIỆU THAM KHẢO Information Retrieval”, McGraw-Hill, Inc., New York, NY, USA. [1] Jiwoon Jeon, W. Bruce Croft, and Joon Ho Lee (2005), “Finding similar [16] Franz Josef Och and Hermann Ney (2003), “A systematic comparison questions in large question and answer archives” in Proceedings of the of various statistical alignment models”, Comput. Linguist., 29:19–51, 14th ACM CIKM conference, 05, pages 84–90, NY, USA. ACM March. [2] Lada A. Adamic, Jun Zhang, Eytan Bakshy, and Mark S. Ackerman [17] David M. Blei, Andrew Y. Ng, and Michael I. Jordan (2003), “Latent (2008), “Knowledge sharing and yahoo answers: everyone knows dirichlet allocation”, J. Mach. Learn. Res., 3:993–1022, March. something”, Proceedings of the 17th international conference on World [18] Fangtao Li, Yang Gao, Shuchang Zhou, Xiance Si, and Decheng Dai Wide Web, WWW ’08, pages 665–674, New York, NY, USA. ACM. (2013), “Deceptive Answer Prediction with User Preference Graph”, [3] Yuanjie Liu, Shasha Li, Yunbo Cao, Chin-Yew Lin, Dingyi Han, and Proceedings of the 51st Annual Meeting of the Association for Yong Yu (2008), “Understanding and summarizing answers in Computational Linguistics, pages 1723–1732, ACL. community-based question answering services”, Proceedings of the 22nd International Conference on Computational Linguistics - Volume 292 
nguon tai.lieu . vn