Xem mẫu

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 DỰ ĐOÁN KẾT QUẢ THI HẾT MÔN CỦA HỌC SINH SỬ DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU Vũ Thị Hạnh Trường Đại học Thuỷ lợi, email: hanhvt@tlu.edu.vn 1. GIỚI THIỆU CHUNG định bộ dữ liệu đầu vào tối ưu từ bộ dữ liệu thô. Bộ dữ liệu kết quả học tập được tuyển Nguồn dữ liệu thu được hiện nay là khổng chọn từ hai trường trung học cơ sở ở Bồ lồ và chứa đựng một kho tàng tri thức cần được khám phá. Lưu ý đến sự gia tăng về Đào Nha trong một năm học. Tổng số 32 tính khả dụng của dữ liệu học tập được gán thuộc tính được thu thập trên mỗi học sinh nhãn, khai thác dữ liệu được giám sát đã đạt bao gồm điểm thành phần, các thông tin được những giá trị nhất định trong việc hiểu nhân khẩu học, xã hội, các thông tin liên rõ và tối ưu hoá quá trình học tập và môi quan đến trường học (như sex, famsize, trường học tập mà nó đang diễn ra (Huang và traveltime, studytime, failures, activities, các cộng sự, 2021). internet, freetime, health,...). Mỗi bộ thông Dự đoán kết quả thi hết môn học được coi tin được dán nhãn thành hai lớp là “qua là quan trọng vì lợi ích của việc xác định môn” hoặc “trượt môn”. Kiểu dữ liệu của được khả năng cá nhân hoặc nhóm học sinh các thuộc tính là kiểu số, kiểu nhị phân và có nguy cơ cao không đạt kỳ thi cuối kỳ giúp kiểu định tính. Những thuộc tính có kiểu sinh viên có thể nhận thức và điều chỉnh hành định tính sẽ được ánh xạ sang các giá trị số, vi, thói quen, kế hoạch của bản thân để ngăn những thuộc tính có giá trị nhị phân được việc dự đoán đó xảy ra (Nikola và các cộng ánh xạ sang 0 và 1. Những thuộc tính kiểu sự, 2020). Đồng thời, nó cũng có thể cung số giá trị không thay đổi. Việc chuẩn hoá cấp các thông tin liên quan cho các nhà giáo giá trị cho bộ dữ liệu giúp cải thiện tốc độ dục để có thể lên kế hoạch can thiệp để hỗ trợ trong giai đoạn học tập. cá nhân hoặc một nhóm học sinh kịp thời, Bộ dữ liệu kết quả học tập của học sinh hoặc xác định các khoá học và chương trình được tách ra thành hai phần: 70% dữ liệu giảng dạy cần cải tiến, đặc biệt trong bối được sử dụng như một tập huấn luyện, 30% cảnh học online đang kéo dài như hiện nay. dữ liệu được sử dụng như tập kiểm thử. Tập Bài viết này sử dụng một số kỹ thuật khai huấn luyện được sử dụng để điều chỉnh hoặc phá dữ liệu để dự đoán kết quả kỳ thi của học huấn luyện một mô hình dự đoán, phân loại sinh vào hai lớp là “qua môn” hay “trượt các giá trị đã biết trong tập huấn luyện. Tập môn”, từ đó xem xét mối quan hệ giữa một kiểm thử được sử dụng để kiểm tra mô hình số yếu tố đầu vào chính ảnh hưởng đến thành được đào tạo. tích học tập của học sinh. Câu hỏi nghiên cứu 2.2. Phương pháp nghiên cứu đặt ra là: Những nhân tố nào tác động mạnh đến thành tích học tập của học sinh? Bài viết này sử dụng ba kỹ thuật của khai phá dữ liệu là Decision Tree (DT), Support 2. PHƯƠNG PHÁP NGHIÊN CỨU Vector Machine (SVM) và K-Nearest 2.1. Tiền xử lý dữ liệu Neighbours (KNN) để dự đoán kết quả thi Trước khi lựa chọn phương pháp tiếp cận hết môn của học sinh vào hai lớp dự đoán là dự đoán kết quả kỳ thi, trước tiên là phải xác qua môn hay trượt môn (P,F). 95
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 2.3. Decision Tree kỳ thi cuối kỳ. Đồng thời, các thuộc tính liên Cây quyết định là một cách tiếp cận mô quan đến gia đình như nghề nghiệp của mẹ, hình sử dụng biểu đồ cây hoặc mô hình về mối quan hệ trong gia đình cũng đóng một các quyết định có thể xảy ra và các hệ quả vai trò quan trọng trọng đến kết quả học tập tương ứng của chúng như kết quả của các sự của học sinh. Một số thuộc tính như giới tính, kiện ngẫu nhiên. Nó là một cấu trúc luồng địa chỉ, quy mô gia đình và một số thuộc tính trong đó mỗi nút bên trong đại diện cho một khác dường như ít hoặc không ảnh hưởng đến phép thử trên thuộc tính, mỗi nhánh đại diện thành tích của học sinh. Bảng 1 dưới đây liệt cho kết quả thử nghiệm và mỗi lá đại diện kê một số thuộc tính đóng vai trò quan trọng cho một nhãn lớp. Quyết định được đưa ra ảnh hưởng đến kết quả cuối kỳ của học sinh. sau khi đếm tất cả các thuộc tính. Cây đồ thị Bảng 1. Các thuộc tính có ảnh hưởng cao được trực quan hoá dưới dạng biểu đồ cây đến kết quả học tập của học sinh giúp người dùng có thể dễ dàng liên kết các giả thuyết được đặt ra. Phạm vi giá trị TT Thuộc tính thuộc tính 2.4. Support Vector Machine (SVM) 1 Điểm số đợt 1 (G1) [0 -20] Mô hình SVM biểu diễn các vectơ đặc trưng dưới dạng các điểm trong không gian đa 2 Điểm số đợt 2 (G2) [0 -20] chiều, được ánh xạ sao cho các vectơ thuộc 3 Thời gian học hàng (1) < 2h, (2) 2-5h, các loại khác nhau được phân chia bởi một tuần (Studytime) (3) 5-10h, (4) >10h siêu phẳng. SVM có thể phân loại phi tuyến 4 Số lần trượt môn [1-3] hoặc (4) > =4 tính một cách hiệu quả bằng cách sử dụng các trước đây phương pháp hạt nhân (kernal method), ánh xạ ngầm các vectơ đặc trưng đầu vào vào một (Failures) một không gian chiều cao hơn nơi mà chúng 5 Tình trạng sức khoẻ Rất xấu (1), xấu (2), trở nên có thể phân tách được. (Health) bình thường (3), tốt 2.5. K-Nearest Neighbours (KNN) (4), rất tốt (5) KNN, thuật toán k-láng giềng gần nhất là 6 Số buổi nghỉ học [0-93] một thuật toán học máy đơn giản, có giám (Abscences) sát. KNN hoạt động bằng cách tìm khoảng 7 Thời gian di chuyển [1-4] tương ứng cách giữa dữ liệu mới chưa được gán nhãn đến trường (1h) với tất cả các dữ liệu đã được dán nhãn. Nhãn (Traveltime) của một dữ liệu mới hay dự đoán kết quả kỳ thi của một học sinh được suy ra trực tiếp từ 8 Nghề nghiệp của mẹ Giáo viên (1), công K điểm dữ liệu gần nhất trong tập dữ liệu (Mjob) việc liên quan đến y huấn luyện. Nhãn của một dữ liệu mới cần dự tế (2), hành chính đoán sẽ được quyết định bằng số lượng phiếu (3), nội trợ (4), khác bầu lớn hơn giữa các điểm gần nhất. (5) 9 Mối quan hệ trọng Rất xấu (1), xấu (2), 3. KẾT QUẢ NGHIÊN CỨU gia đình (Famrel) bình thường (3), tốt Bài báo này sử dụng thư viện scikit- (4), rất tốt (5) learning và matplotlib của Python để thực 10 Ra ngoài với bạn bè [1-5] tương ứng từ nghiệm ba kỹ thuật khai phá được sử dụng (Goout) thấp - cao trong bài. Kết quả phân tích trọng số của các thuộc tính thu được từ cây quyết định cho 11 Thời gian rảnh sau Rất ít (1), ít (2), bình thấy rằng điểm số đợt 1, đợt 2 và số lần trượt giờ học (Freetime) thường (3), nhiều môn trước đây có tác động đáng kể đến điểm (4), rất nhiều (5) 96
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0 Decision Tree, Support Vector Machine và đối cao, cao nhất là 92.82% với kỹ thuật cây K-Nearest Neighbors đã được đánh giá và so quyết định. sánh trong bối cảnh của bài toán dự đoán kết Bên cạnh đó, nghiên cứu cũng tìm ra được quả thi cuối kỳ của học sinh. Để đảm bảo tính các nhân tố như điểm thi thành phần của môn ổn định của các thước đo đánh giá và định học (G1, G2), thời gian học hàng tuần, số lần lượng, các kết quả về độ chính xác sau khi áp trượt môn, số buổi nghỉ học, nghề nghiệp của dụng ba kỹ thuật DT, SVM, KNN trong dự cha mẹ và mối quan hệ trong gia đình đóng đoán kết quả thi hết môn được thống kê trong một vai trò quan trọng tới kết quả thi cuối kỳ Bảng 2 là kết quả trung bình từ 10 thử của học sinh. nghiệm độc lập được thực hiện cho mỗi kỹ Từ dự đoán kết quả thi hết môn của học thuật được phân tích. sinh và mối tương quan giữa các thuộc tính đầu vào đến kết quả thi, học sinh có thể căn Bảng 2. So sánh độ chính xác của 3 kỹ thuật cứ vào dự đoán kết quả thi cuối kỳ để có thể DT, SVM và KNN trong dự đoán kết quả kỳ thi cuối cùng tự điều chỉnh bản thân như tăng thời gian học hàng tuần, giảm số buổi nghỉ học để có thể Support ngăn việc rớt môn xảy ra. Đồng thời, nhà Thuật Decision K-Nearest Vector trường có thể dựa trên dự đoán kết quả thi toán Tree Neighbors Machine cuối kỳ của cả nhân hay nhóm sinh viên để Average có thể đưa ra hỗ trợ bổ sung kiến thức kịp 0.8971 0.8416 0.8413 Accuracy thời, hoặc có thể điều chỉnh nội dung học cho Standard phù hợp với từng bối cảnh khác nhau. 0.0717 0.0464 0.0475 Deviation 5. TÀI LIỆU THAM KHẢO Accuracy 92.82 % 88.72% 87.18% [1] Huang, Chenxi, et al. (2021) "A feature Score weighted support vector machine and Trong đó: Average Accuracy là độ chính artificial neural network algorithm for xác trung bình, Standard Deviation là độ lệch academic course performance prediction." chuẩn, Accuracy Score là điểm số phân loại Neural Computing and Applications: 1-13. chính xác. [2] Tomasevic, Nikola, Nikola Gvozdenovic, Kết quả thu được cho bài toán dự đoán kết and Sanja Vranes (2020). "An overview and comparison of supervised data mining quả thi cuối kỳ của học sinh sử dụng một số techniques for student exam performance kỹ thuật khai phá dữ liệu được thống kê trên prediction." Computers & education Bảng 2. Dựa trên các kết quả này, có thể 143: 103676. nhận thấy rằng cả DT, SVM và KNN đều đưa ra dự đoán đúng với độ chính xác cao. Trong đó, cây quyết định cho thấy kết quả tốt nhất, SVM và KNN cho kết quả tương đương nhau và độ chính xác thấp hơn so với DT. 4. KẾT LUẬN Bài viết đã dự đoán được kết quả thi hết môn của học sinh dựa trên ba kỹ thuật Decision Tree, Support Vector Machine và K-Nearest Neighbours. Kết quả dự đoán áp dụng ba kỹ thuật khai phá dữ liệu trên đã cho ra kết quả dự đoán với độ chính xác tương 97
nguon tai.lieu . vn