Xem mẫu
- TRAO ĐỔI THÔNG TIN KHOA HỌC
Xây dựng ứng dụng phát hiện đạo văn
TRONG NGHIÊN CỨU KHOA HỌC
Đinh Thái Sơn, Nguyễn Thị Hảo
Bộ môn CNPM, Khoa Kỹ thuật–Công nghệ, Trường Đại học Hùng Vương
TÓM TẮT
N gày nay, có rất nhiều tài liệu văn bản có thể truy xuất được dễ dàng dưới dạng tài
liệu kỹ thuật số và vì vậy người ta có thể truy cập và sao chép dễ dàng. Vấn đề đạo
văn nói chung và sao chép luận văn, đồ án nói riêng có thể nói là những mặt tiêu cực
phổ biến hiện nay cần được phát hiện và ngăn chặn.
Trong bài báo này, chúng tôi trình bày một phương pháp phát hiện ra tập tiềm năng
có sử dụng thuật toán tách giá trị đơn (SVD [7]) theo mô hình lập trình song song. Các
cài đặt và thử nghiệm của chúng tôi cho thấy có thể áp dụng phương pháp để phát
hiện ra các tập tiềm năng bị sao chép và sắp xếp (ranking) chúng, từ đó có thể hạn chế
số lượng tập tin cần phân tích, so sánh để phát hiện ra các đoạn bị sao chép.
Từ khóa: Đạo văn, hội thảo khám phá đạo văn, tác quyền và lạm dụng phần mềm xã hội,
tính toán song song, …
1. Đặt vấn đề Ngày nay, đã có nhiều phần mềm hỗ trợ
1.1. Vấn nạn đạo văn cho việc phát hiện đạo văn. Đa phần là các
Vấn đề (hay vấn nạn) sao chép tài liệu phần mềm thực hiện kiểm tra sao chép một
(đạo văn) ngày nay đang là một vấn đề tài liệu từ “kho tài liệu” trên internet, tức
nghiêm trọng trong môi trường giáo dục. là kiểm tra với tài liệu nguồn từ internet.
Với sự phát triển mạnh mẽ của công nghệ Các phần mềm này có ưu điểm là kiểm
thông tin và các kỹ thuật lưu trữ của các tra với một nguồn hết sức phong phú. Tuy
công cụ tìm kiếm như Google, Bing,… thì vậy, ở nước ta không có nhiều phần mềm
việc sao chép sẽ được thực hiện một cách dễ được biết rõ hỗ trợ kiểm tra trên một cơ
dàng hơn. Sự sao chép ngày càng phổ biến sở dữ liệu đóng của một tổ chức, ví dụ thư
ở mọi cấp độ: từ đồ án, tiểu luận, luận văn viện của một trường hay kho luận văn của
tốt nghiệp đại học cho đến luận văn tiến một trường.
sĩ. Nhiều sao chép khác như giáo trình, bài 1.2. Các hình thức đạo văn
giảng cũng còn khá phổ biến. Có rất nhiều Meuschke và Gipp (Meuschke and Gipp,
bài viết trên các báo có uy tín công khai tình 2013) [3] phân loại các hình thức đạo văn
trạng sao chép bừa bãi luận văn. học như sau:
Tạp chí Khoa học & Công nghệ số 3 (8) – 2017 87
- TRAO ĐỔI THÔNG TIN KHOA HỌC
• Đạo văn hoàn toàn: được mô tả như Workshop) gọi tắt là PAN Workshop (http://
là một loại sao chép gần như không pan.webis.de) đều tổ chức cuộc tranh tài
thay đổi so với tài liệu nguồn. Nó bao quốc tế về phát hiện sao chép văn bản
gồm các hình thức “sao chép và dán” (International Competition on Plagiarism
(Maurer, Kappe et al., 2006); “trộn và Detection). Cuộc thi thu hút nhiều nhà
dán” (Weber-Wulff, 2010). “Sao chép và nghiên cứu từ nhiều lĩnh vực liên quan đến
dán” là hình thức sao phép hoàn toàn phát hiện sao chép văn bản tự động. Để đánh
nội dung mà không có một sự thay đổi giá được các giải pháp dự thi, PAN phát triển
nào. “Trộn và dán” là hình thức sao một lớp thư viện (framework) đánh giá bao
chép có một vài thay đổi rất nhỏ so với gồm một cơ sở dữ liệu mẫu rất lớn gồm Dq,
tài liệu nguồn. D và S trong đó Dq là tập hợp các tài liệu nghi
• Giả tạo đạo văn: được mô tả như là ngờ có đạo văn, D là tập hợp các tài liệu gốc
một loại diễn giải, ngụy trang kỹ thuật, và S là tập hợp các ghi chú về từng trường
hay dịch từ ngôn ngữ này sang ngôn hợp sao chép giữa Dq và D. Ngoài ra, lớp thư
ngữ khác. viện này cũng đề ra các độ đo hiệu suất phát
• Đạo văn cấu trúc và ý tưởng: đề cập đến hiện (detection performance measure) để có
hình thức sử dụng cấu trúc của người thể so sánh độ chính xác của các giải thuật
khác, khái niệm rộng hơn mà không phát hiện đạo văn.
đưa ra trích dẫn nguồn phù hợp. Một cách tổng quát, một hệ thống phát
• Tự đạo văn: đề cập đến một loại tái sử hiện sao chép thông thường sẽ được cài đặt
dụng câu hay đoạn văn của riêng mình trên ba bước xử lý cơ bản:
mà không ghi nguồn phù hợp. ■■ Thứ nhất, từ một tài liệu kiểm tra d và
Theo những quan sát của chúng tôi, đạo kho dữ liệu các tài liệu nguồn D, hệ thống
văn theo dạng “sao chép và dán” xảy ra khá sẽ tìm ra một tập tài liệu tiềm năng Dd ⊂ D
phổ biến. Đây là loại đạo văn xảy ra trong được xác định sao cho Dd là nhỏ nhất có thể
cả hai chương trình đại học và sau đại học. nhưng chứa nhiều nhất các tài liệu nguồn
Nghiêm trọng hơn, có một số trường hợp chính xác mà d sao chép.
trong đó sinh viên sao chép một số chương, ■■ Thứ hai, mỗi tài liệu tiềm năng được so
hay thậm chí toàn bộ nội dung luận văn của sánh với d, trích xuất tất cả các đoạn văn bản
người khác. Các loại khác của đạo văn hiếm có mức độ tương tự cao.
khi được phát hiện và ghi nhận. Điều đó ■■ Thứ ba, các cặp đoạn văn bản đã phát
không có nghĩa là không xảy ra tại Việt Nam. hiện được lọc lại dựa trên các quy tắc nào
đó và có thể được biểu diễn trực quan cho
2. Phương pháp nghiên cứu người dùng. Ví dụ cho bước xử lý này gồm
2.1. Phát hiện sao chép theo giải pháp có loại bỏ các phát hiện quá ngắn, chồng
PAN chéo hoặc gộp các phát hiện liền kề thành
Từ năm 2009 đến nay, hàng năm hội thảo một phát hiện duy nhất,...
khám phá đạo văn, tác quyền và lạm dụng Qua việc tìm hiểu các giải pháp được đề
phần mềm xã hội (Uncovering Plagiarism, xuất tại hội thảo PAN, chúng tôi thấy rằng
Authorship and Social Software Misuse giải pháp được đề xuất tại PAN năm 2010
88 Tạp chí Khoa học & Công nghệ số 3 (8) – 2017
- TRAO ĐỔI THÔNG TIN KHOA HỌC
[2] có thể làm mô hình tham khảo cơ sở cho phát hiện chồng chéo nhau sau đó biểu diễn
nghiên cứu. Các bước chính của giải pháp: cho người dùng.
■■ Tiền xử lý văn bản: 2.2. Mô hình phát hiện sao chép tích
• Các tập tin văn bản được tách từ đơn, hợp giải thuật tách giá trị đơn
loại bỏ những từ quá phổ biến, chung 2.2.1.Mô hình đề xuất
chung (stopword). Mặc dù giải pháp [3] của PAN Workshop
• Các tài liệu nguồn được phân tích và được đánh giá cao nhưng vẫn còn tồn tại
lưu trữ dưới dạng chỉ mục đảo ngược. một số vấn đề cần được giải quyết. Theo giải
Cách khá phổ biến trong hội thảo PAN pháp của PAN đã được trình bày ở phần
là tách thành cụm 4-gram và lập chỉ trên, nhược điểm của giải pháp này xảy ra
mục trên các 4-gram. tại giai đoạn tìm ra tập tài liệu tiềm năng.
■■ Tìm kiếm các tài liệu nguồn tiềm năng: Thứ nhất con số 20 4-gram chung do [3]
• Vì số lượng tập tài liệu nguồn thường đề xuất hay tổng quát hơn là n 4-gram chung
là rất lớn nên trước hết phải có một đó chỉ là dựa vào kinh nghiệm, có thể không
giải thuật nào đó “lọc” để giới hạn việc có hiệu quả trên nhiều trường hợp, nhất là
so sánh phát hiện sao chép chỉ trên trong các thư viện đóng với chủ đề gần nhau,
một tập nhỏ các tài liệu tiềm năng. chăng hạn như kho luận văn ngành công
Cách thức lọc trong các giải pháp đưa nghệ thông tin.
ra trong PAN là “có ít nhất 20 4-gram Sau khi tìm ra tập tài liệu có số n 4-gram
chung”. Các tập tin trong tài liệu chung. Nếu tập này lớn thì làm sao để ưu
nguồn có từ 20 4-gram chung với tài tiên xét các tập tiềm năng nhất? Không có
liệu kiểm tra được coi là “tiềm năng” cơ sở để sắp xếp (ranking) giảm dần theo số
và được giữ lại để thực hiện việc phân 4-gram chung và ấn định một số lượng giới
tích so sánh kỹ hơn. hạn tập tiềm năng. Ví dụ sắp xếp giảm dần
• Số lượng tài liệu nguồn tiềm năng theo con số 4-gram chung rồi lấy 100 tài liệu
cho mỗi tài liệu kiểm tra có thể giới đầu tiên làm tập tiềm năng. Chứng tỏ không
hạn (ví dụ 100 tài liệu chẳng hạn) phải cứ nhiều 4-gram chung hơn thì có khả
bằng cách sắp xếp giảm dần theo số năng bị sao chép cao hơn.
lượng từ 4-gram chung và chọn từ Xuất phát từ những cơ sở trên, trong bài
cao xuống thấp. Con số 20 4-gram báo này chúng tôi đề ra giải pháp mới cải
chung là một con số mang tính tiến cho giai đoạn tìm tập tài liệu tiềm năng
thực nghiệm. này. Đề xuất sử dụng việc phân tích Singular
■■ So sánh chi tiết các cặp tài liệu: Đối với Value Decomposition (SVD) [7] kết hợp với
mỗi tài liệu kiểm tra, sau khi tìm được một không gian vector để áp dụng cho giai đoạn
tập tài liệu nguồn tiềm năng, tiến hành so tìm tập tài liệu tiềm năng.
sánh chi tiết giữa các cặp tài liệu để xác định Bước đầu là sử dụng mô hình không
các đoạn văn bản giống nhau. gian vector: mỗi tài liệu trong tập tài liệu
■■ Tinh lọc kết quả: Các đoạn văn bản hợp nguồn sẽ được mô hình hóa thành một
lệ được xem như các đoạn văn bản sao chép. vector đặc trưng. Và mỗi tài liệu kiểm tra
Bước cuối cùng bao gồm việc loại bỏ các sau khi qua bước tiền xử lý tách từ, loại
Tạp chí Khoa học & Công nghệ số 3 (8) – 2017 89
- TRAO ĐỔI THÔNG TIN KHOA HỌC
bỏ các stop-word, lập thành ma trận từ– 2.2.2. Mô hình không gian vector (Vector
tài liệu. Ma trận này có số chiều khá lớn, Space Model)
do đó sẽ áp dụng giải thuật SVD để làm Mô hình không gian vector được đề xuất
giảm số chiều, loại bỏ những giá trị nhiễu, năm 1975 bởi Salton và cộng sự. Mô hình
giữ lại những giá trị đặc trưng nhất và làm không gian vector sẽ làm nhiệm vụ đưa tất
tăng hiệu quả. cả các văn bản trong tập văn bản được mô tả
Tiếp theo, các tài liệu sẽ được đo độ tương bởi một tập các từ khoá hay còn gọi là các từ
đồng theo độ đo cosin và đó là cơ sở để trích chỉ mục (index terms) sau khi đã loại bỏ các
lọc ra tập tài liệu tiềm năng. Nói cách khác từ ít có ý nghĩa (stop-word).
các tài liệu trong thư viện sẽ được tính 1 độ Mỗi văn bản d được biểu diễn bằng một
tương đồng (độ đo cosin) với tài liệu kiểm vector một chiều của các từ chỉ mục d = (t1,
tra và dựa theo độ tương đồng đó sẽ sắp xếp t2,…, tn) với ti là từ chỉ mục thứ i (1 ≤ i ≤ n)
(ranking) cũng như ấn định ngưỡng xem xét trong văn bản d. Tương tự tài liệu truy vấn
theo độ tương đồng chứ không theo số lượng cũng được biểu diễn bằng một vector q =
tập tin. Điều này sẽ tự nhiên hơn, nếu tập tin (q1, q2,…,qn). Lúc đó độ đo tương tự của văn
kiểm tra bị sao chép từ nhiều tập thì sẽ có bản d và tài liệu truy vấn q chính là độ đo
nhiều tập tiềm năng, nếu không bị sao chép cosin của chúng.
gì cả thì số lượng tập tiềm năng nhỏ hoặc có
thể là 0.
Các bước tiếp theo để phân tích các tài
liệu tiềm năng và phát hiện sao chép vẫn như
giải pháp của PAN ở trên.
Vấn đề phát sinh là việc tính toán SVD
có thể mất thời gian do ma trận từ–tài liệu
cho 4-gram là rất lớn. Để khắc phục điểm
này, chúng tôi đề xuất sử dụng việc phân
tích SVD trên nền tính toán song song. Do Hình 1. Góc giữa vector truy vấn và vector văn bản
vậy, đề xuất cũng sẽ bao gồm xây dựng giải
pháp song song, mỗi máy (hay cụm máy) 2.2.3. Giải thuật tách giá trị đơn
sẽ đảm nhận một công việc riêng biệt, tăng (Singular Value Decomposition – SVD)
hiệu suất tối đa xử lý. Giải thuật SVD được Golub và Kahan giới
Do đó trong bài báo này chúng tôi đề xuất thiệu năm 1965 [7], đó là một công cụ phân
việc dựa trên mô hình tổng thể của PAN để rã ma trận hiệu quả được sử dụng để giảm
xây dựng ứng dụng và đề xuất dùng SVD hạng (hay số chiều) của ma trận. Kỹ thuật
trên nền tính toán song song phân tán, một này được áp dụng vào nhiều bài toán xử lý
mặt tận dụng các ưu điểm của PAN đưa ra văn bản khác nhau như tóm tắt văn bản,
mặt khác sẽ cải tiến mô hình nhằm cải thiện phát hiện sao chép, lập chỉ mục và truy vấn.
hiệu năng xử lý của hệ thống, hỗ trợ cho việc SVD cho phép phân tích một ma trận phức
dò tìm phát hiện sao chép được thực hiện tạp thành ba ma trận thành phần. Mục đích
một cách nhanh nhất. nhằm đưa việc giải quyết bài toán liên quan
90 Tạp chí Khoa học & Công nghệ số 3 (8) – 2017
- TRAO ĐỔI THÔNG TIN KHOA HỌC
đến ma trận lớn, phức tạp về những bài toán Giảm lược số chiều, lựa chọn k là tới hạn.
nhỏ hơn. Đúng như ý tưởng, chúng ta muốn một giá
A= USVT trị k đủ lớn để phù hợp mọi đặc tính cấu trúc
thực của dữ liệu, đủ nhỏ để lọc ra các chi tiết
Trong đó: không phù hợp hay không quan trọng.
• U là ma trận trực giao cấp m × r (m số Việc tính toán phân rã ma trận với SVD
từ chỉ mục)—các vector dòng của U là đòi hỏi thời gian tính toán cao, vì vậy để rút
các vector từ chỉ mục. ngắn thời gian tính toán có thể dùng giải
• S là ma trận đường chéo cấp r × r có pháp tính toán song song. Trong cài đặt cụ
các giá trị suy biến (singular value) σ1 thể, có thể dùng một khung phát triển tính
≥σ2 ≥…≥σr với r= rank(A) toán song song như JPPF.
• V là ma trận trực giao cấp r × n (n số
văn bản trong tập văn bản)—các vector 3. Kết quả nghiên cứu
cột của V là các vector văn bản. Để kiểm tra hệ thống ở yếu tố độ chính
• Hạng của ma trận A là các số dương xác, chúng tôi tạo ra một số tài liệu cần kiểm
trên đường chéo của ma trận S. Giả sử tra từ 145 tài liệu nguồn (dữ liệu lấy từ khóa
hạng của ma trận A là r hay rank(A) luận tốt nghiệp của sinh viên Đại học Hùng
r
= r thì số Frobenius của A là A = ∑ σ F
i =1
i Vương). Bảng 1 trình bày cách tạo ra các
Ta có thể sử dụng SVD để xấp xỉ ma trận tài liệu cần kiểm tra và số lượng tài liệu cần
A với n giá trị đơn: A ≈ Ak = U k S kVkT kiểm tra. Các kết quả thử nghiệm trên tập dữ
Ma trận xấp xỉ Ak = U k SkVkT có hạng là liệu được thể hiện trong bảng 2. Chúng tôi
k với k
- TRAO ĐỔI THÔNG TIN KHOA HỌC
Hình 2. Các máy chủ ứng dụng
xử lý yêu cầu kiểm tra đạo văn
So sánh và đánh giá giữa phương pháp nhận được. Mô hình mới có độ chính xác
mới và phương pháp PAN xấp xỉ gần bằng với mô hình gốc của PAN,
Kết quả thực nghiệm trên tập dữ liệu được tuy nhiên, đã đề xuất được cách xác định
thể hiện trong Bảng 3. tập tài liệu tiềm năng bị sao chép và sắp xếp
(ranking) chúng, từ đó có thể hạn chế số
Bảng 3. Kết quả đo chỉ số đánh giá phương lượng tập tin cần phân tích, so sánh để phát
pháp mới
hiện ra các đoạn bị sao chép.
STT Tập dữ liệu Precision Recall
1 Chép và dán (Test 1) 90.8% 90.9%
2 Sao chép với sửa đổi ít 88.1% 86.5% 4. Kết luận
(Test 2) Trong bài báo này, chúng tôi trình bày
3 Sao chép với sửa đổi 90.4% 84.1%
nhiều (Test 3) phương pháp tiếp cận riêng (sử dụng giải
Tổng 89.9% 86.9% thuật SVD) dựa vào phương pháp của Golub
và Kahan giới thiệu năm 1965 [7] và JPPF
So sánh giữa phương pháp mới và phương để phát triển một hệ thống phát hiện đạo
pháp của PAN: văn. Với việc cài đặt thành công giải thuật
tách giá trị đơn trên mô hình tính toán song
Bảng 4. So sánh chỉ số đánh giá của hai mô hình
song, mô hình mới có thể tận dụng được
STT Mô hình giải thuật Precision Recall
1 PAN 91% 89% sức mạnh của tính toán song song vào việc
2 Cải tiến với SVD 90% 87% tách giá trị đơn cho một ma trận lớn và kích
thước của ma trận có thể được mở rộng khi
Đánh giá: Kết quả của mô hình mới khi gia tăng các node trong mô hình, đồng thời
sử dụng giải thuật tách giá trị đơn và độ đo rút ngắn thời gian thực hiện giải thuật tách
cosin vào bài toán tuy có kết quả không bằng giá trị đơn so với cách cài đặt truyền thống
so với mô hình giải pháp PAN nhưng vẫn là cài đặt trên một máy tính duy nhất. Qua
xấp xỉ với giải pháp PAN, do đó có thể chấp thực nghiệm, việc áp dụng giải thuật tách
92 Tạp chí Khoa học & Công nghệ số 3 (8) – 2017
- TRAO ĐỔI THÔNG TIN KHOA HỌC
giá trị đơn (SVD) vào hệ thống phát hiện sao [3] Meuschke, N. and B. Gipp, “State of the Art
chép đã cho phép xác định độ tương đồng in Detecting Academic Plagiarism”, Int’l
của hai văn bản, từ đó làm cơ sở cho việc Journal for Education Integrity, 9(1): p. 50-
sắp xếp và lựa chọn số tập tiềm năng theo độ 71, 2013.
tương đồng. Trong tương lai, chúng tôi tiếp [4] Park, C., “In Other (People’s) Words:
tục nghiên cứu tích hợp phương pháp ngữ Plagiarism by university students—literature
nghĩa tiềm ẩn vào việc lọc các tài liệu tiềm and lessons”. Assessment & Evaluation in
năng để có thể cải tiến hơn nữa hiệu năng Higher Education, 28(5): p. 471-488, 2003.
của hệ thống. Ngoài ra, sử dụng Google để [5] Weber-Wulff. D, “Test cases for plagia-
tìm kiếm tài liệu tiềm năng cũng được xác rism detection software”. In Proceedings
định như là một hướng phát triển của đề tài. of the 4th International Plagiarism Confer-
ence, 2010.
Tài liệu tham khảo [6] M. Potthast, A. Barrón-Cedeño, A. Eiselt,
[1] Ercegovac, Z. and J.V. Richardson, “Academic B. Stein, and P. Rosso, “Overview of the 2nd
Dishonesty, Plagiarism Included, in the International Competition on Plagiarism
Digital Age: A Literature Review”. College & Detection”. In Notebook Papers of CLEF 10
Research Libraries, 65(4): p. 301-318, 2004. Labs and Workshops. ISBN 978-88-904810-
[2] Kasprzak, J. and M. Brandejs, “Improving the 0-0, 2010.
reliability of the plagiarism detection system”, [7] E. Garcia, “SVD and LSI tutorial”, MIIslita.
Lab Report for PAN at CLEF, p.359-366, 2010. com, 2006.
SUMMARY
Build the application for plagiarism detection in science research
Dinh Thai Son, Nguyen Thi Hao
Department of Software Engineering – Faculty of Engineering and Technology
N owadays, most of documents are produced in digital format, which helps us to
be able to easily access and copy. Therefore, document copy detection is a very
important tool for protecting the author’s copyright. It helps verify and detect copy-
right violation. Singular Value Decomposition is a technique applied in latent sematic
analysis to reduce the dimension thank to the rank cut. Although there are a plenty
of researches approve the effectiveness of SVD, it requests more processing time and
internal memory if matrix computed is extremely large. In this paper, we describe
SVD based on parallel programming, built to solve big data problems on distributes
systems to apply plagiarism detection. By this approach, the reduction of dimension
is resolved due to the rank cut and matrix approximation after applying SVD, the pro-
cessing time is reduced because of the parallel computing of a computer cluster.
Keywords: Plagiarism, PAN Workshop, parallel programming,…
Tạp chí Khoa học & Công nghệ số 3 (8) – 2017 93
nguon tai.lieu . vn