Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 PHÁT HIỆN CÁC ĐIỂM BẤT THƯỜNG DỰA TRÊN PHÂN CỤM K-MEANS Đinh Phú Hùng Trường Đại học Thủy lợi, email: hungdp@tlu.edu.vn 1. GIỚI THIỆU CHUNG Bước 2: Tính khoảng cách Euclid giữa các điểm dữ liệu đến K tâm. Điểm bất thường trong dữ liệu là các điểm Bước 3: Nhóm các đối tượng vào nhóm mà có giá trị khác đáng kể so với các điểm còn gần nhất dựa vào khoảng cách tính ở bước 2. lại. Việc phát hiện các điểm bất thường này Bước 4: Xác định lại tâm mới cho các đóng vai trò quan trọng trong rất nhiều lĩnh nhóm. vực. Ví dụ, trong lĩnh vực ngân hàng, phát hiện Bước 5: Thực hiện lại bước 2 cho đến các giao dịch bất thường, trong lĩnh vực giáo khi không có sự thay đổi nhóm nào của các dục, phát hiện các điểm thi gian lận… đối tượng. Có rất nhiều các phương pháp tiếp cận để giải quyết vấn đề này. Ví dụ như các phương 3. GIẢI THUẬT XÁC ĐỊNH ĐIỂM BẤT pháp dựa trên mật độ (DBSCAN, LOF,…) THƯỜNG DỰA TRÊN PHÂN CỤM [1], các phương pháp dựa trên khoảng cách (K-NN, K-Means,…) [1], các phương pháp Đầu vào: Tập dữ liệu D, số cụm K. dựa trên mô hình tham số (GMM, One Class Đầu ra: Tập các điểm bất thường (n điểm SVM,…) [1]. Ngoài ra, cũng có một số hoặc m% cho trước). phương pháp khác như kiểm định thống kê Bước 1: Áp dụng giải thuật K-means để (Z-score) [1]. phân dữ liệu D đã cho vào K cụm tương ứng. Bài báo này sẽ áp dụng phương pháp phân Bước 2: Tính khoảng cách Euclid từ tất cả cụm K-means và khoảng cách Euclid để phát các điểm dữ liệu trong mỗi cụm đến tâm của hiện những điểm thi bất thường trong kì thi mỗi cụm tương ứng. Sau đó sắp xếp các PTTH 2018 tại Hà Giang. Thực nghiệm cho khoảng cách đó theo thứ tự giảm dần. thấy phương pháp này có thể hỗ trợ khoanh Bước 3: Chọn ra n (hoặc m %) các điểm vùng ra các điểm thi bất thường với một tỉ lệ dữ liệu có khoảng cách lớn nhất làm những chọn trước. điểm tình nghi. 2. KIẾN THỨC NỀN TẢNG 4. KẾT QUẢ THỰC NGHIỆM 2.1. Giải thuật phân cụm K-Means Dữ liệu thực nghiệm là điểm thi PTTH Giải thuật này được đề xuất bởi năm 2018 tại Hà Giang1. Tuy nhiên, chỉ sử MacQueen[2], là một trong những phương dụng điểm thi của 4 môn bao gồm: Toán, Lý, pháp phân cụm cơ bản. Giải thuật này được Hóa và Sinh. Việc lựa chọn 4 môn thi trên là mô tả như sau: do các môn này đều thuộc ngành khoa học tự Đầu vào: nhiên, và quan trọng hơn những môn này - Tập các điểm dữ liệu, Số cụm K thuộc tổ hợp xét tuyển Đại học (Toán-Lý- Đầu ra: Hóa, hoặc Toán-Hóa-Sinh). Tập dữ liệu D - Các điểm được phân về các cụm gồm có: 630 thi sinh thi đủ cả 4 môn trên. Sở Bước 1: Khởi tạo ngẫu nhiên K tâm cho K cụm. 1 https://github.com/maiing/DataTalk-Materials/tree/master/diem_thi_THPT_2018 133
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 dĩ chọn điểm thi tại Hà Giang làm thực Từ Bảng 1, ta có nhận xét sau về các cụm: nghiệm là vì việc thống kê điểm thi cho thấy Cụm thứ nhất: Các điểm Toán, Lý, và sự bất thường (số lượng điểm thi từ 8 đến 10 Hóa rất cao, trong khi điểm Sinh rất thấp. tăng đột biến) theo Hình 1 (bao gồm: 1 biểu Những thí sinh thuộc cụm này có thể thi khối đồ Histogram, 1 đồ thị mật độ theo điểm thi A (Toán, Lý, Hóa) và môn Sinh có thể chỉ là thực tế (đường màu xanh), và 1 biểu đồ phân môn xét tốt nghiệp nên việc thí sinh có thể phối chuẩn (đường màu đen). không đầu tư học môn này dẫn đến điểm thi thấp. Sự lệch đáng kể về điểm này không gây ra nhiều sự đáng ngờ nên cụm này có thể xét nếu cần. Cụm thứ hai: Tất cả điểm các môn đều dưới trung bình, cụm này đại điện cho các thí sinh học lực trung bình yếu, nên có thể không đáng nghi ngờ. Vì vậy, có thể bỏ qua khi xét. Cụm thứ ba: Có điểm Toán và Lý rất cao, nhưng điểm Hóa và Sinh rất thấp, cụm này Hình 1. Đồ thị thống kê điểm của 4 môn có vẻ đáng ngờ nhất vì các thi sinh thi khối A Sử dụng ngôn ngữ Python và một số thư (Toán, Lý, Hóa) thường có điểm thi 3 môn viện cần thiết cho phần thực nghiệm như : này không thể chênh lệch quá nhiều như vậy. numpy, pandas, scipy, sklearn. Phần biểu đồ Cụm này cần thiết phải xét đến. sử dụng các thư viện: matplotlib.pyplot và Cụm thứ tư: Các điểm quay quanh mức seaborn. trung bình, cụm này đại diện cho các thí sinh Áp dụng phương pháp phân cụm K-means có học lực trung bình khá nên cũng không cho tập dữ liệu D với số cụm K = 5 được lựa đáng ngờ. Vì vậy, có thể bỏ qua khi xét. chọn theo phương pháp Elbow như Hình 2. Cụm thứ năm: Có điểm thi các môn rất thấp, cụm này đại diện cho các thí sinh thuộc loại yếu kém, nên có thể không đáng nghi ngờ. Vì vậy, có thể bỏ qua khi xét. Để chọn ra các thí sinh có điểm nghi ngờ, thực hiện tính khoảng cách Euclid từ các điểm trong một cụm tới tâm mỗi cụm. Phần thực nghiệm sẽ tiến hành trong 2 trường hợp: Trường hợp 1: Xét điểm bất thường trên tất cả các cụm. Lựa chọn ra 5% các điểm có Hình 2. Đồ thị thăm dò số cụm k khoảng cách lớn nhất (khoảng 32 điểm) cho Sau khi dữ liệu được phân vào 5 cụm. tất cả các cụm. Thực hiện việc tính giá trị trung bình điểm các môn học của 5 cụm ta có kết quả sau: Bảng 1. Trung bình điểm thi mỗi cụm Cluster Math Physics Chemistry Biology 0 8.78235 9.02205 9.06617 3.00735 1 4.83743 3.89285 4.13054 4.51231 2 8.84 9.03 3.00 2.68 3 6.52715 5.92715 5.95364 4.97351 4 2.97419 2.62096 2.70737 3.44354 Hình 3. Các điểm bất thường (Toán - Lý) 134
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2019. ISBN: 978-604-82-2981-8 Hình 4. Các điểm bất thường (Toán - Hóa) Hình 8. Các điểm bất thường (Toán - Hóa) Hình 9. Các điểm bất thường (Toán - Sinh) Hình 5. Các điểm bất thường (Toán - Sinh) Hình 10. Các điểm bất thường (Hóa - Sinh) Các điểm bất thường được khoanh tròn trong các Hình 7 (Toán-Lý), Hình 8 (Toán-Hóa), Hình 6. Các điểm bất thường (Hóa - Sinh) Hình 9 (Toán-Sinh), Hình 10 (Hóa-Sinh). Như vậy, với phương pháp phân cụm Các điểm bất thường được khoanh tròn K-mean và khoảng cách Euclid có thể hỗ trợ trong các đồ thị Hình 3 (Toán-Lý), Hình 4 chúng ta trong việc chọn ra n điểm tình nghi (Toán-Hóa), Hình 5 (Toán-Sinh), Hình 6 (với số lượng điểm n chúng ta chọn trước). (Hóa-Sinh) Cần nhấn mạnh rằng phương pháp này chỉ Trường hợp 2: Chỉ xét riêng cụm thứ nhất giúp chúng ta khoanh vùng các đối tượng thí và cụm thứ ba dựa vào nhận xét về các cụm sinh có điểm tình nghi mà không thể khẳng theo Bảng 1 ở trên. Lấy ra khoảng 24 điểm ở định chắc chắn rằng tất cả trong số họ gian các cụm thứ nhất và thứ ba mà có khoảng lận, việc chấm bài thi cụ thể của các thí sinh cách tới tâm cụm là lớn nhất. khoanh vùng đó mới khẳng định chắn họ có gian lận hay không. 5. TÀI LIỆU THAM KHẢO [1] Charu C Aggarwal, 2017, “Outlier analysis”, Springer, Second Edition. [2] J. B. MacQueen, 1967, “Some Methods for classification and Analysis of Multivariate Observations, Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability”, Berkeley, University of Hình 7. Các điểm bất thường (Toán - Lý) California Press. 135
nguon tai.lieu . vn