Xem mẫu
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
DỰ ĐOÁN KẾT QUẢ THI HẾT MÔN CỦA HỌC SINH
SỬ DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
Vũ Thị Hạnh
Trường Đại học Thuỷ lợi, email: hanhvt@tlu.edu.vn
1. GIỚI THIỆU CHUNG định bộ dữ liệu đầu vào tối ưu từ bộ dữ liệu
thô. Bộ dữ liệu kết quả học tập được tuyển
Nguồn dữ liệu thu được hiện nay là khổng
chọn từ hai trường trung học cơ sở ở Bồ
lồ và chứa đựng một kho tàng tri thức cần
được khám phá. Lưu ý đến sự gia tăng về Đào Nha trong một năm học. Tổng số 32
tính khả dụng của dữ liệu học tập được gán thuộc tính được thu thập trên mỗi học sinh
nhãn, khai thác dữ liệu được giám sát đã đạt bao gồm điểm thành phần, các thông tin
được những giá trị nhất định trong việc hiểu nhân khẩu học, xã hội, các thông tin liên
rõ và tối ưu hoá quá trình học tập và môi quan đến trường học (như sex, famsize,
trường học tập mà nó đang diễn ra (Huang và traveltime, studytime, failures, activities,
các cộng sự, 2021). internet, freetime, health,...). Mỗi bộ thông
Dự đoán kết quả thi hết môn học được coi tin được dán nhãn thành hai lớp là “qua
là quan trọng vì lợi ích của việc xác định môn” hoặc “trượt môn”. Kiểu dữ liệu của
được khả năng cá nhân hoặc nhóm học sinh các thuộc tính là kiểu số, kiểu nhị phân và
có nguy cơ cao không đạt kỳ thi cuối kỳ giúp kiểu định tính. Những thuộc tính có kiểu
sinh viên có thể nhận thức và điều chỉnh hành định tính sẽ được ánh xạ sang các giá trị số,
vi, thói quen, kế hoạch của bản thân để ngăn những thuộc tính có giá trị nhị phân được
việc dự đoán đó xảy ra (Nikola và các cộng ánh xạ sang 0 và 1. Những thuộc tính kiểu
sự, 2020). Đồng thời, nó cũng có thể cung số giá trị không thay đổi. Việc chuẩn hoá
cấp các thông tin liên quan cho các nhà giáo giá trị cho bộ dữ liệu giúp cải thiện tốc độ
dục để có thể lên kế hoạch can thiệp để hỗ trợ trong giai đoạn học tập.
cá nhân hoặc một nhóm học sinh kịp thời, Bộ dữ liệu kết quả học tập của học sinh
hoặc xác định các khoá học và chương trình được tách ra thành hai phần: 70% dữ liệu
giảng dạy cần cải tiến, đặc biệt trong bối được sử dụng như một tập huấn luyện, 30%
cảnh học online đang kéo dài như hiện nay. dữ liệu được sử dụng như tập kiểm thử. Tập
Bài viết này sử dụng một số kỹ thuật khai huấn luyện được sử dụng để điều chỉnh hoặc
phá dữ liệu để dự đoán kết quả kỳ thi của học huấn luyện một mô hình dự đoán, phân loại
sinh vào hai lớp là “qua môn” hay “trượt các giá trị đã biết trong tập huấn luyện. Tập
môn”, từ đó xem xét mối quan hệ giữa một kiểm thử được sử dụng để kiểm tra mô hình
số yếu tố đầu vào chính ảnh hưởng đến thành được đào tạo.
tích học tập của học sinh. Câu hỏi nghiên cứu
2.2. Phương pháp nghiên cứu
đặt ra là: Những nhân tố nào tác động mạnh
đến thành tích học tập của học sinh? Bài viết này sử dụng ba kỹ thuật của khai
phá dữ liệu là Decision Tree (DT), Support
2. PHƯƠNG PHÁP NGHIÊN CỨU Vector Machine (SVM) và K-Nearest
2.1. Tiền xử lý dữ liệu Neighbours (KNN) để dự đoán kết quả thi
Trước khi lựa chọn phương pháp tiếp cận hết môn của học sinh vào hai lớp dự đoán là
dự đoán kết quả kỳ thi, trước tiên là phải xác qua môn hay trượt môn (P,F).
95
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
2.3. Decision Tree kỳ thi cuối kỳ. Đồng thời, các thuộc tính liên
Cây quyết định là một cách tiếp cận mô quan đến gia đình như nghề nghiệp của mẹ,
hình sử dụng biểu đồ cây hoặc mô hình về mối quan hệ trong gia đình cũng đóng một
các quyết định có thể xảy ra và các hệ quả vai trò quan trọng trọng đến kết quả học tập
tương ứng của chúng như kết quả của các sự của học sinh. Một số thuộc tính như giới tính,
kiện ngẫu nhiên. Nó là một cấu trúc luồng địa chỉ, quy mô gia đình và một số thuộc tính
trong đó mỗi nút bên trong đại diện cho một khác dường như ít hoặc không ảnh hưởng đến
phép thử trên thuộc tính, mỗi nhánh đại diện thành tích của học sinh. Bảng 1 dưới đây liệt
cho kết quả thử nghiệm và mỗi lá đại diện kê một số thuộc tính đóng vai trò quan trọng
cho một nhãn lớp. Quyết định được đưa ra ảnh hưởng đến kết quả cuối kỳ của học sinh.
sau khi đếm tất cả các thuộc tính. Cây đồ thị Bảng 1. Các thuộc tính có ảnh hưởng cao
được trực quan hoá dưới dạng biểu đồ cây đến kết quả học tập của học sinh
giúp người dùng có thể dễ dàng liên kết các
giả thuyết được đặt ra. Phạm vi giá trị
TT Thuộc tính
thuộc tính
2.4. Support Vector Machine (SVM)
1 Điểm số đợt 1 (G1) [0 -20]
Mô hình SVM biểu diễn các vectơ đặc
trưng dưới dạng các điểm trong không gian đa 2 Điểm số đợt 2 (G2) [0 -20]
chiều, được ánh xạ sao cho các vectơ thuộc 3 Thời gian học hàng (1) < 2h, (2) 2-5h,
các loại khác nhau được phân chia bởi một tuần (Studytime) (3) 5-10h, (4) >10h
siêu phẳng. SVM có thể phân loại phi tuyến
4 Số lần trượt môn [1-3] hoặc (4) > =4
tính một cách hiệu quả bằng cách sử dụng các
trước đây
phương pháp hạt nhân (kernal method), ánh
xạ ngầm các vectơ đặc trưng đầu vào vào một (Failures)
một không gian chiều cao hơn nơi mà chúng 5 Tình trạng sức khoẻ Rất xấu (1), xấu (2),
trở nên có thể phân tách được. (Health) bình thường (3), tốt
2.5. K-Nearest Neighbours (KNN) (4), rất tốt (5)
KNN, thuật toán k-láng giềng gần nhất là 6 Số buổi nghỉ học [0-93]
một thuật toán học máy đơn giản, có giám (Abscences)
sát. KNN hoạt động bằng cách tìm khoảng 7 Thời gian di chuyển [1-4] tương ứng
cách giữa dữ liệu mới chưa được gán nhãn đến trường (1h)
với tất cả các dữ liệu đã được dán nhãn. Nhãn (Traveltime)
của một dữ liệu mới hay dự đoán kết quả kỳ
thi của một học sinh được suy ra trực tiếp từ 8 Nghề nghiệp của mẹ Giáo viên (1), công
K điểm dữ liệu gần nhất trong tập dữ liệu (Mjob) việc liên quan đến y
huấn luyện. Nhãn của một dữ liệu mới cần dự tế (2), hành chính
đoán sẽ được quyết định bằng số lượng phiếu (3), nội trợ (4), khác
bầu lớn hơn giữa các điểm gần nhất. (5)
9 Mối quan hệ trọng Rất xấu (1), xấu (2),
3. KẾT QUẢ NGHIÊN CỨU gia đình (Famrel) bình thường (3), tốt
Bài báo này sử dụng thư viện scikit- (4), rất tốt (5)
learning và matplotlib của Python để thực 10 Ra ngoài với bạn bè [1-5] tương ứng từ
nghiệm ba kỹ thuật khai phá được sử dụng (Goout) thấp - cao
trong bài. Kết quả phân tích trọng số của các
thuộc tính thu được từ cây quyết định cho 11 Thời gian rảnh sau Rất ít (1), ít (2), bình
thấy rằng điểm số đợt 1, đợt 2 và số lần trượt giờ học (Freetime) thường (3), nhiều
môn trước đây có tác động đáng kể đến điểm (4), rất nhiều (5)
96
- Tuyển tập Hội nghị Khoa học thường niên năm 2021. ISBN: 978-604-82-5957-0
Decision Tree, Support Vector Machine và đối cao, cao nhất là 92.82% với kỹ thuật cây
K-Nearest Neighbors đã được đánh giá và so quyết định.
sánh trong bối cảnh của bài toán dự đoán kết Bên cạnh đó, nghiên cứu cũng tìm ra được
quả thi cuối kỳ của học sinh. Để đảm bảo tính các nhân tố như điểm thi thành phần của môn
ổn định của các thước đo đánh giá và định học (G1, G2), thời gian học hàng tuần, số lần
lượng, các kết quả về độ chính xác sau khi áp trượt môn, số buổi nghỉ học, nghề nghiệp của
dụng ba kỹ thuật DT, SVM, KNN trong dự cha mẹ và mối quan hệ trong gia đình đóng
đoán kết quả thi hết môn được thống kê trong một vai trò quan trọng tới kết quả thi cuối kỳ
Bảng 2 là kết quả trung bình từ 10 thử của học sinh.
nghiệm độc lập được thực hiện cho mỗi kỹ Từ dự đoán kết quả thi hết môn của học
thuật được phân tích. sinh và mối tương quan giữa các thuộc tính
đầu vào đến kết quả thi, học sinh có thể căn
Bảng 2. So sánh độ chính xác của 3 kỹ thuật
cứ vào dự đoán kết quả thi cuối kỳ để có thể
DT, SVM và KNN trong dự đoán
kết quả kỳ thi cuối cùng
tự điều chỉnh bản thân như tăng thời gian học
hàng tuần, giảm số buổi nghỉ học để có thể
Support ngăn việc rớt môn xảy ra. Đồng thời, nhà
Thuật Decision K-Nearest
Vector trường có thể dựa trên dự đoán kết quả thi
toán Tree Neighbors
Machine cuối kỳ của cả nhân hay nhóm sinh viên để
Average có thể đưa ra hỗ trợ bổ sung kiến thức kịp
0.8971 0.8416 0.8413
Accuracy thời, hoặc có thể điều chỉnh nội dung học cho
Standard phù hợp với từng bối cảnh khác nhau.
0.0717 0.0464 0.0475
Deviation
5. TÀI LIỆU THAM KHẢO
Accuracy
92.82 % 88.72% 87.18% [1] Huang, Chenxi, et al. (2021) "A feature
Score
weighted support vector machine and
Trong đó: Average Accuracy là độ chính artificial neural network algorithm for
xác trung bình, Standard Deviation là độ lệch academic course performance prediction."
chuẩn, Accuracy Score là điểm số phân loại Neural Computing and Applications: 1-13.
chính xác. [2] Tomasevic, Nikola, Nikola Gvozdenovic,
Kết quả thu được cho bài toán dự đoán kết and Sanja Vranes (2020). "An overview and
comparison of supervised data mining
quả thi cuối kỳ của học sinh sử dụng một số
techniques for student exam performance
kỹ thuật khai phá dữ liệu được thống kê trên
prediction." Computers & education
Bảng 2. Dựa trên các kết quả này, có thể 143: 103676.
nhận thấy rằng cả DT, SVM và KNN đều
đưa ra dự đoán đúng với độ chính xác cao.
Trong đó, cây quyết định cho thấy kết quả tốt
nhất, SVM và KNN cho kết quả tương đương
nhau và độ chính xác thấp hơn so với DT.
4. KẾT LUẬN
Bài viết đã dự đoán được kết quả thi hết
môn của học sinh dựa trên ba kỹ thuật
Decision Tree, Support Vector Machine và
K-Nearest Neighbours. Kết quả dự đoán áp
dụng ba kỹ thuật khai phá dữ liệu trên đã cho
ra kết quả dự đoán với độ chính xác tương
97
nguon tai.lieu . vn