- Trang Chủ
- Toán học
- Đánh giá chất lượng đề thi trắc nghiệm khách quan thông qua việc ứng dụng mô hình Rasch và phần mềm ConQuest
Xem mẫu
- TRƯỜNG ĐẠI HỌC SÀI GÒN SAIGON UNIVERSITY
TẠP CHÍ KHOA HỌC SCIENTIFIC JOURNAL
ĐẠI HỌC SÀI GÒN OF SAIGON UNIVERSITY
Số 75 (03/2021) No. 75 (03/2021)
Email: tcdhsg@sgu.edu.vn ; Website: http://sj.sgu.edu.vn/
ĐÁNH GIÁ CHẤT LƯỢNG ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN
THÔNG QUA VIỆC ỨNG DỤNG MÔ HÌNH RASCH
VÀ PHẦN MỀM CONQUEST
Evaluating the quality of multiple-choice tests through applying Rasch model
and ConQuest software
ThS. Nguyễn Văn Cảnh(1), ThS. Nguyễn Quốc Tuấn(2)
(1),(2) Trường Đại học Đồng Tháp
TÓM TẮT
Nghiên cứu này trình bày cách đánh giá một đề thi trắc nghiệm khách quan dựa vào mô hình Rasch thông
qua việc sử dụng phần mềm ConQuest. Kết quả phân tích trong bài viết đã chỉ ra một số vấn đề liên quan
đến chất lượng của một đề thi trắc nghiệm khách quan. Cụ thể như: (1) về độ khó, trong đề thi có một câu
hỏi rất dễ, thấp hơn năng lực của toàn bộ thí sinh cần phải được loại bỏ, đồng thời thiếu những câu hỏi có
khả năng đo lường năng lực của những thí sinh có năng lực cao; (2) về độ phân biệt, trong đề thi có ba
câu hỏi có độ phân biệt kém, không có ý nghĩa trong việc đo lường năng lực của thí sinh; (3) về chất
lượng các phương án nhiễu, trong đề thi có năm câu hỏi có phương án nhiễu kém chất lượng cần phải
được điều chỉnh hoặc thay thế. Bằng phương pháp này, giảng viên biên soạn đề thi sẽ phát hiện được
những câu hỏi có chất lượng tốt và đưa vào ngân hàng câu hỏi thi, đồng thời những câu hỏi kém chất
lượng sẽ được điều chỉnh hoặc bị loại bỏ ra khỏi đề thi.
Từ khóa: ConQuest, đề thi, mô hình Rasch
ABTRACTS
This study evaluates the quality of multiple-choice test, based on using the Rasch model and ConQuest
software. The analysis results in the article have pointed out some issues related to the quality of a test.
Specifically, (1) regarding difficulty, there is a very easy question in the test, which is lower than capacity
of candidates that need to be removed and the test also lacks of difficult questions to measure the
competency of highly capable candidates; (2) regarding discrimination, there are three questions with low
discrimination, which are not significant in measuring the competency of candidates; (3) regarding quality
of distracting options, there are five questions with low quality distracting options that need to be adjusted
or replaced. By this method, exam preparation teachers will discover good questions to put into the exam
questions bank, and low quality questions will be adjusted or removed from the test.
Keywords: ConQuest, test, Rasch model
1. Mở đầu qua việc Bộ Giáo dục và Đào tạo đã sử dụng
Trong những năm gần đây, trắc nghiệm hình thức đánh giá này với hầu hết các môn
khách quan đang dần trở thành một trong thi trong kỳ thi trung học phổ thông quốc
những hình thức kiểm tra đánh giá phổ biến gia. Bên cạnh đó, các trường đại học cũng
trong giáo dục Việt Nam. Điều này được thể đang sử dụng trắc nghiệm khách quan để
Email: nvcanh@dthu.edu.vn
52
- NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN
đánh giá kết quả học tập của sinh viên, đặc câu hỏi trắc nghiệm khách quan.
biệt là các học phần đại cương có nhiều sinh 2. Nội dung nghiên cứu
viên đăng ký tham gia học tập. Mặc dù vẫn 2.1. Giới thiệu về mô hình Rasch
có những hạn chế nhất định, hình thức này Khoa học đo lường và đánh giá trong
vẫn có nhiều ưu điểm trong đo lường, đánh giáo dục phát triển tương đối hoàn chỉnh từ
giá kết quả học tập. Một trong những ưu thập niên 1970 với sự ra đời và hoàn thiện
điểm nổi bật của hình thức đánh giá này là của lý thuyết khảo thí cổ điển (Classical
đảm bảo tính khách quan và tiện lợi trong Test Theory – CTT). Việc áp dụng CTT để
quá trình chấm bài thi. Tuy nhiên để đảm đo lường và đánh giá đề thi trắc nghiệm
bảo đề thi chính xác và có khả năng đo khách quan rất dễ thực hiện vì nó hầu như
lường được đúng năng lực của thí sinh, cần không đòi hỏi bất kì giả thiết nào khi chạy
thiết phải có công cụ đánh giá chất lượng đề mô hình, nhưng phương pháp này tồn tại
thi, làm cơ sở để điều chỉnh và cải tiến chất một số hạn chế [7]. Hạn chế cơ bản nhất của
lượng. lý thuyết này là không tách biệt được các
Ở Việt Nam, thời gian gần đây đã có đặc trưng của thí sinh với các đặc trưng của
một số nghiên cứu về việc đánh giá đề thi đề trắc nghiệm, đặc trưng này chỉ có thể
trắc nghiệm khách quan với sự hỗ trợ của được giải thích trong mối quan hệ với đặc
các phần mềm tính toán, tiêu biểu phải kể trưng kia và ngược lại. Cụ thể, các đặc trưng
đến nghiên cứu của các tác giả như Nguyễn của đề trắc nghiệm như độ khó, độ phân biệt
Thị Hồng Minh và Nguyễn Đức Thiện của câu hỏi, độ tin cậy và độ giá trị của đề
(2006) với việc sử dụng phương pháp trắc nghiệm được xác định dựa vào một
PROX [1], Nguyễn Bảo Hoàng Thanh nhóm thí sinh làm bài. Vì vậy, các đặc trưng
(2008) với việc sử dụng phần mềm Quest này của đề trắc nghiệm sẽ thay đổi khi được
[2], Đoàn Hồng Chương và cộng sự (2016) đo lường trên một nhóm thí sinh khác. Bên
với việc sử dụng gói “ltm” của phần mềm R cạnh đó, năng lực của thí sinh cũng sẽ thay
[3], Bùi Ngọc Quang (2017) với việc sử đổi khi đề trắc nghiệm thay đổi, chẳng hạn
dụng mô hình Rasch và phần mềm Quest như khi thực hiện trên một đề trắc nghiệm
[4], Lê Anh Vũ và cộng sự (2017) với việc dễ thì thí sinh sẽ được đánh giá là có năng
sử dụng phương pháp lấy mẫu GIBBS [5], lực cao, và ngược lại thí sinh được đánh giá
Bùi Anh Kiệt và Bùi Nguyên Phương là có năng lực thấp khi thực hiện trên một
(2018) với việc sử dụng phần mềm IATA đề trắc nghiệm khó. Do đó, rất khó so sánh
[6]. Trong nghiên cứu này, chúng tôi trình năng lực của thí sinh khi họ phải thực hiện
bày cách đánh giá một đề thi trắc nghiệm trên những đề trắc nghiệm khác nhau cũng
khách dựa vào mô hình Rasch thông qua như rất khó so sánh độ khó của các câu hỏi
việc ứng dụng phần mềm ConQuest. Bên trong đề thi khi chúng được trả lời bởi các
cạnh việc hỗ trợ tính toán các tham số của nhóm thí sinh khác nhau [8]. Trên cơ sở đó,
câu hỏi như độ khó và độ phân biệt, phần lý thuyết ứng đáp câu hỏi (Item Response
mềm ConQuest còn hỗ trợ phân tích chất Theory – IRT) được ra đời nhằm khắc phục
lượng của các phương án nhiễu của câu hỏi những điểm hạn chế của CTT.
thông qua hệ số tương quan, phép kiểm định Lý thuyết ứng đáp của hỏi được xây
t và hình ảnh biểu diễn xác suất trả lời cho dựng dựa trên hai giả thiết: (1) sự ứng đáp
từng phương án theo năng lực của thí sinh. của một thí sinh đối với một câu hỏi có thể
Đây là ưu điểm của phần mềm này so với được tiên đoán bằng năng lực tiềm ẩn của
các phần mềm khác có chức năng phân tích thí sinh; (2) quan hệ giữa sự ứng đáp câu hỏi
53
- SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021)
của thí sinh và năng lực tiềm ẩn làm cơ sở của người kia; tương tự như vậy, nếu một câu
cho sự đáp ứng đó có thể mô tả bằng một hỏi khó hơn câu hỏi khác thì xác suất để một
hàm đặc trưng câu hỏi đồng biến [8]. Theo người bất kì trả lời đúng câu hỏi đó phải nhỏ
đó, Rasch cho rằng việc phân tích trong đo hơn xác suất để người đó trả lời đúng câu hỏi
lường và đánh giá đề thi trắc nghiệm khách kia” [10].
quan chỉ có ý nghĩa khi dựa vào từng cá Trên cơ sở đó, Rasch đã xây dựng một
nhân thí sinh, trong đó, các thuộc tính của mô hình toán học cho sự ứng đáp câu hỏi
thí sinh và của các câu hỏi được tách riêng. của mỗi thí sinh. Công thức của mô hình có
Quan điểm này của Rasch đã đánh dấu sự dạng như sau:
chuyển tiếp từ mô hình CTT sang mô hình b
ei j
IRT, đây là mô hình mô tả xác suất trả lời P( X ij 1/ i , b j ) b (1)
1 e i j
đúng các câu hỏi trong đề thi trắc nghiệm
Trong đó, θi là năng lực của thí sinh thứ
khách quan đối với sự ứng đáp của thí sinh
i, bj là độ khó của câu hỏi thứ j, và Xij là trả
đối với các câu hỏi đó [9]. Dựa trên quan
điểm đó, Rasch đã giới thiệu mô hình gọi là lời của thí sinh thứ i đối với câu hỏi thứ j.
mô hình Rasch, mô hình này dựa trên giả Nếu thí sinh trả lời đúng câu hỏi thìXij =1 và
thuyết cơ bản như sau: ngược lại thí sinh trả lời sai câu hỏi thì
“Nếu một người có năng lực cao hơn Xij =0. Đồ thị của hàm số trong công thức
người khác thì xác suất trả lời đúng một câu trên theo biến θi được gọi là đường cong đặc
hỏi bất kì phải lớn hơn xác suất tương ứng trưng của câu hỏi và có dạng như Hình 1.
Hình 1. Đường cong đặc trưng của câu hỏi trong mô hình Rasch
Đường cong đặc trưng của câu hỏi có gọi là ngưỡng của câu hỏi. Như vậy, độ khó
độ dốc hướng lên biểu thị cho xác suất trả của mỗi câu hỏi chính là ngưỡng mà với
lời đúng câu hỏi của thí sinh tỉ lệ thuận với năng lực đó, khả năng trả lời đúng câu hỏi
năng lực của thí sinh đó. Xác suất này sẽ tiến của thí sinh là 50%. Điểm nổi bật của mô
dần về 1 khi năng lực của thí sinh tiến đến hình Rasch là nó mô tả được mối liên hệ
dương vô cùng. Trong mô hình Rasch, nếu giữa năng lực của mỗi thí sinh đối với các
năng lực θi của thí sinh bằng với độ khó câu tham số đặc trưng của các câu hỏi thông qua
hỏi bj thì khả năng trả lời đúng câu hỏi của sự ứng đáp của mỗi thí sinh khi trả lời các
thí sinh đó là 50%. Mức năng lực này được câu hỏi trong đề thi [11].
54
- NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN
2.2. Giới thiệu về dữ liệu phân tích file sơ đồ phân bố năng lực của thí sinh với
Bài viết này dựa trên kết quả phân tích độ khó của câu hỏi, giá trị phù hợp của
dữ liệu thi trắc nghiệm khách quan môn MNSQ có định dạng *.shw; file thống kê
Tiếng Anh 1 trong kỳ thi kết thúc học phần năng lực của thí sinh có định dạng *.mle.
học kỳ 1, năm học 2018 - 2019 tại Trường 2.3.1. Sự phù hợp của câu hỏi với mô
Đại học Đồng Tháp. Đề thi gồm 50 câu hỏi hình Rasch
trắc nghiệm khách quan, mỗi câu hỏi đều có Mức độ phù hợp của các câu hỏi trong đề
04 phương án trả lời trong đó có 01 phương thi với mô hình Rasch được xác định dựa vào
án đúng và 03 phương án nhiễu. Số lượng giá trị bình phương trung bình MNSQ (Mean
thí sinh tham gia trả lời các câu hỏi trong đề Square). Câu hỏi được coi là phù hợp với mô
thi là 874 người. hình nếu giá trị MNSQ của câu hỏi nằm trong
2.3. Đánh giá chất lượng đề thi trắc khoảng tin cậy CI (Confidence Interval)
nghiệm khách quan dựa vào mô hình tương ứng. Những câu hỏi có giá trị MNSQ
Rasch và phần mềm ConQuest trong cả 2 cột UNWEIGHTED FIT và
Phần mềm ConQuest được viết bởi Hội WEIGHTED FIT đều nằm ngoài các khoảng
đồng nghiên cứu giáo dục Úc dùng để ứng CI tương ứng chứng tỏ có điều bất thường xảy
dụng lý thuyết ứng đáp câu hỏi IRT vào đối với câu hỏi đó, cần phải được xem xét lại.
phân tích dữ liệu đề thi và đánh giá năng lực Những bất thường xảy ra đối với câu hỏi có
của thí sinh [12]. Để sử dụng phần mềm khả năng là đáp án bị sai, hay nội dung câu
ConQuest cần có hai file dữ liệu đầu vào hỏi được thể hiện không rõ ràng gây ra sự
gồm file cấu hình có định dạng *.cqc và file hiểu nhầm cho thí sinh. Kết quả thống kê cho
chứa kết quả trả lời của các thi sinh có định thấy trong đề thi này có 13 câu hỏi có giá trị
dạng *.dat. Kết quả phân tích được xuất ra MNSQ trong cả 2 cột UNWEIGHTED FIT
từ phần mềm ConQuest sẽ phụ thuộc vào và WEIGHTED FIT đều không nằm trong
file cấu hình nhưng cơ bản sẽ gồm các file khoảng tin cậy CI tưng ứng. Những câu hỏi
sau: file đánh giá từng câu hỏi có dạng *.itn; này thể hiện qua Bảng 1.
Bảng 1. Thống kê giá trị MNSQ của một số câu hỏi xảy ra bất thường
55
- SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021)
Trong đề thi có 13 câu hỏi có khả năng của các câu hỏi trong đề thi theo thang đo
xảy ra bất thường do các giá trị MNSQ của logarit được ước lượng bằng phần mềm
hai cột UNWEIGHTED FIT và WEIGHTED ConQuest và được thể hiện tại cột ESTIMATE
FIT đều nằm ngoài các khoảng CI tương trong cùng bảng ước lượng giá trị MNSQ
ứng và được thể hiện trong Hình 2. Đó là câu hỏi (Hình 2). Theo Baker (2001), độ khó
các câu hỏi như: câu 13, 14, 20, 27, 31, 33, của câu hỏi được chia thành 05 mức như
36, 39, 41, 45, 46, 47 và câu 49. Đây những sau: mức rất dễ nếu giá trị độ khó bé hơn -
câu hỏi này cần được xem xét lại về nội 2,0; mức dễ nếu giá trị độ khó từ -2,0 đến
dung cũng như các phương án trả lời. Còn dưới -0,5; mức trung bình nếu giá trị độ khó
lại 37 câu hỏi trong đề thi phù hợp với mô từ -0,5 đến dưới 0,5; mức khó nếu giá trị độ
hình Rasch. khó từ 0,5 đến dưới 2,0 và mức rất khó nếu
2.3.2. Độ khó của câu hỏi độ khó của câu hỏi đạt từ 2,0 trở lên [11].
Độ khó của câu hỏi đặc trưng cho khả Theo cách phân loại trên, kết quả thống kê
năng trả lời đúng câu hỏi của thí sinh. Câu bằng phần mềm ConQuest cho thấy độ khó
hỏi có độ khó càng cao thì xác suất trả lời của câu hỏi được phân bố theo các mức độ
đúng câu hỏi của thí sinh càng thấp. Độ khó như sau:
Bảng 2. Thống kê độ khó của các câu hỏi trong đề thi
Giá trị độ khó Mức độ Số lượng câu hỏi Tỷ lệ %
Dưới -2.0 Rất dễ 0 0.0
Từ -2.0 đến dưới -0.5 Dễ 16 32.0
Từ -0.5 đến dưới 0.5 Trung bình 20 40.0
Từ 0.5 đến dưới 2.0 Khó 13 26.0
Từ 2.0 trở lên Rất khó 1 2.0
Tổng cộng 50 100.0
Kết quả thống kê trong Bảng 2 cho thấy của đề thi đối với những thí sinh dự thi. Một
phần lớn câu hỏi trong đề thi có độ khó tập đề thi có chất lượng tốt khi những câu hỏi
trung vào 3 mức độ: mức dễ (16 câu, tỷ lệ trong đề thi có độ khó tương ứng với năng
32%), mức trung bình (20 câu, tỷ lệ 40%) và lực của thí sinh, kể cả những thí sinh có năng
mức khó (13 câu, 26%). Đề thi không có câu lực thấp và những thí sinh có năng lực cao.
hỏi ở mức rất dễ và chỉ có duy nhất 1 câu Những câu hỏi có độ khó vượt quá khả năng
hỏi ở mức rất khó. hoặc quá thấp so với năng lực của thí sinh
2.3.3. Phân bố độ khó của câu hỏi và cần phải được điều chỉnh hoặc loại bỏ.
năng lực của thí sinh Kết quả phân bố độ khó của câu hỏi
Việc phân bố độ khó của câu hỏi và năng trong đề thi này so với năng lực của thí sinh
lực của thí sinh sẽ cho thấy mức độ phù hợp dự thi được thể hiện qua Hình 2.
56
- NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN
Hình 2. Biểu đồ phân bố độ khó của câu hỏi và năng lực của thí sinh
Kết quả tính toán bằng phần mềm bình của các câu hỏi bằng 0,00 và độ lệch
ConQuest đã cho thấy năng lực của thí sinh chuẩn 0,908. Như vậy, đây là một đề thi khá
dự thi theo thang đo logarit đạt giá trị từ - dễ vì có độ khó trung bình (bằng 0,00) thấp
1,575 đến 3,352, năng lực trung bình của thí hơn so với năng lực trung bình của thí sinh
sinh là 0,809 và độ lệch chuẩn là 1,036. Bên (bằng 0,809).
cạnh đó, độ khó của các câu hỏi trong đề thi Ngoài ra, kết quả thống kê trong Hình 2
có giá trị từ -1,682 đến 2,279, độ khó trung còn cho thấy câu hỏi khó nhất trong đề thi là
57
- SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021)
câu 22 với độ khó bằng 2,279 và dễ nhất là có thể trả lời đúng câu hỏi như nhau. Hay
câu 21 với độ khó bằng -1,682. Mặc dù câu nói cách khác, những câu hỏi có độ phân
22 là câu hỏi khó nhất trong đề thi nhưng độ biệt lớn thì có ý nghĩa tốt hơn trong việc
khó của câu hỏi này vẫn còn thấp hơn năng phân loại thí sinh. Ebel (1965) cho rằng các
lực của một số thí sinh. Điều này cho thấy, câu hỏi trong bài thi nên có độ phân biệt đạt
đề thi vẫn còn thiếu những câu hỏi khó để từ 0,3 trở lên [13]. Bên cạnh đó, đối với các
có thể đánh giá được những thí sinh có năng phương án nhiễu, thí sinh có năng lực cao
lực cao. Bên cạnh đó, câu 21 trong đề thi có phải có tỷ lệ chọn thấp hơn đối với những
độ khó thấp hơn năng lực của tất cả thí sinh thí sinh có năng lực thấp. Điều này được xác
dự thi. Vì vậy, câu hỏi này cần được loại bỏ định thông qua giá trị hệ số tương quan Pt
ra khỏi đề thi. Bis và giá trị p của phép kiểm định t trong
2.3.4. Đánh giá chất lượng của từng kết quả thống kê bằng phần mềm ConQuest.
câu hỏi trong đề thi Cụ thể, giá trị Pt Bis > 0 cho biết số lượng
Bên cạnh độ khó của câu hỏi, chất thí sinh có năng lực cao lựa chọn nhiều hơn
lượng của đề thi còn được thể hiện thông số lượng thí sinh có năng lực thấp và người
qua độ phân biệt và chất lượng các phương lại, giá trị p < 0,05 cho biết sự chênh lệch
án nhiễu trong từng câu hỏi. Trong đó, độ giữa số lượng thí sinh lựa chọn các phương
phân biệt của câu hỏi thể hiện khả năng phân án là có ý nghĩa thống kê với độ tin cậy 95%.
loại những thí sinh có năng lực cao và những Như vậy, những phương án nhiễu được gọi
thí sinh có năng lực thấp trong việc trả lời là có chất lượng khi hệ số tương quan Pt Bis
câu hỏi. Một câu hỏi có độ phân biệt tốt khi < 0 và giá trị p < 0,05.
trả lời câu hỏi đó, những thí sinh có năng lực Kết quả tính toán bằng phần mềm
cao có tỷ lệ trả lời đúng cao hơn những thí ConQuest cho thấy một số câu hỏi trong đề
sinh có năng lực thấp. Ngược lại, những câu thi này có các phương án nhiễu có chất lượng
hỏi có độ phân biệt kém sẽ dẫn đến các thí tốt. Một trong số đó là câu hỏi 1 với các số
sinh có năng lực cao và năng lực thấp đều liệu thống kê được thể hiện qua Bảng 3.
Bảng 3. Thông tin phân tích câu hỏi 1
Item 1
Cases for this item: 873 Discrimination: 0,34
Item Threshold(s): -0,70 Weighted MNSQ: 1,02
Item Delta(s): -0,70
Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1
A 0,00 45 5,15 -0,13 -3,99 (0,000) 0,24 0,76
B 0,00 76 8,71 -0,23 -7,09 (0,000) 0,08 0,77
C 0,00 69 7,90 -0,17 -5,19 (0,000) 0,21 0,63
D 1,00 683 78,24 0,34 10,84 (0,000) 0,99 1,03
58
- NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN
Kết quả thống kê cho thấy phương án đều có giá trị Pt Bis < 0 và phép kiểm định
đúng của câu hỏi này là phương án D (giá t đều có giá trị p = 0,000 < 0,05. Điều này
trị Score =1) thu hút được 683 thí sinh trả cho thấy các phương án nhiễu của câu hỏi
lời. Độ khó của câu hỏi theo thang đo logarit đều có ý nghĩa phân biệt những thí sinh có
(Item Threshold) là -0,70 (mức dễ), độ phân năng lực cao và những thí sinh có năng lực
biệt của câu hỏi (Discrimination) là 0,34 lớn thấp. Sự phân biệt này được thể hiện rõ hơn
hơn 0.3. Các phương án nhiễu là A, B, C lần qua hình biểu diễn đường xác suất trả lời các
lượt thu hút được 45, 67, 69 thí sinh trả lời phương án của câu hỏi trong Hình 3.
Hình 2. Đường cong đặc trưng của Câu hỏi 1
Đường biểu diễn xác suất trả lời các chất lượng tốt.
phương án nhiễu A, B, C cho thấy khi Bên cạnh những câu hỏi có phương án
năng lực của thí sinh càng cao thì xác suất nhiễu có chất lượng tốt, kết quả thống kê
trả lời đối với các phương này càng thấp cho thấy trong đề thi này có những câu hỏi
và tiến dần về 0 khi năng lực của thí sinh có phương án nhiễu kém chất lượng. Một
ở mức rất cao. Điều này cho thấy đây là trong số đó là câu hỏi 14 với các số liệu
một câu hỏi có các phương án nhiễu có thống kê thể hiện qua Bảng 4.
Bảng 4. Thông tin phân tích câu hỏi 14
Item 14
Cases for this item: 871 Discrimination: 0,48
Item Threshold(s): 0,27 Weighted MNSQ: 0,94
Item Delta(s): 0,26
Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1
A 1,00 531 60,96 0,48 16,32 (0,000) 1,20 1,01
B 0,00 75 8,61 -0,06 -1,86 (0,063) 0,57 0,83
C 0,00 185 21,24 -0,42 13,61 (0,000) 0,02 0,67
D 0,00 80 9,18 -0,16 -4,88 (0,000) 0,29 0,68
59
- SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021)
Phương án đúng của câu hỏi này là và phép kiểm định t có giá trị p = 0,063 >
phương án A (giá trị Score =1) thu hút được 0,05. Điều này cho thấy phương án B là
531 thí sinh trả lời. Độ khó của câu hỏi theo phương án nhiễu kém chất lượng vì không
thang đo logarit (Item Threshold) là 0,27 có ý nghĩa phân biệt giữa những thí sinh có
(mức trung bình), độ phân biệt của câu hỏi năng lực cao và những thí sinh năng lực
(Discrimination) là 0,48 lớn hơn 0,3. Các thấp. Sự phân biệt kém của phương án
phương án nhiễu là B, C, D lần lượt thu hút nhiễu này được thể hiện rõ hơn qua hình
được 75, 185, 80 thí sinh trả lời. Trong đó, biểu diễn đường đặc trưng của câu hỏi
phương án B có giá trị Pt Bis = -0,06 < 0 trong Hình 4
.
Hình 3. Đường cong đặc trưng của Câu hỏi 14
Đường biểu diễn xác suất trả lời các những thí sinh có năng lực thấp hơn. Đây là
phương án trong câu hỏi cho thấy rất rõ sự một điều chưa hợp lý đối với một phương án
phân biệt của hai phương án nhiễu C và D nhiễu trong một câu hỏi của đề thi. Do đó, đây
giữa những thí sinh có năng lực cao và những là một phương án nhiễu kém chất lượng.
thí sinh có năng lực thấp. Cụ thể, khi thí sinh Ngoài ra, kết quả thống kê bằng phần
có năng lực càng cao thì xác suất lựa chọn hai mềm ConQuest còn cho thấy trong đề thi
phương án trên càng thấp. Đây là điều hợp lý này có một số câu hỏi có độ phân biệt thấp,
đối với phương án nhiễu. Tuy nhiên phương không có ý nghĩa trong việc phân biệt năng
án B chưa thể hiện rõ sự phân biệt này. Một lực của thí sinh dự thi. Một trong số đó là
số thí sinh có năng lực cao hơn nhưng xác câu hỏi 39 với các số liệu thống kê được thể
suất lựa chọn phương án này vẫn còn cao hơn hiện qua Bảng 5.
60
- NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN
Bảng 5. Thông tin đánh giá câu hỏi 39
Item 39
Cases for this item: 874 Discrimination: 0,19
Item Threshold(s): -0,05 Weighted MNSQ: 1,18
Item Delta(s): -0,05
Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1
A 1,00 586 67,05 0.19 5,75 (0,000) 0,95 1,06
B 0,00 56 6,41 -0.18 -5,35 (0,000) 0,16 0,88
C 0,00 191 21,85 -0.04 -1,08 (0,282) 0,70 0,90
D 0,00 41 4,69 -0.15 -4,39 (0,000) 0,15 0,81
Đây là câu hỏi có độ phân biệt kém có ý nghĩa phân biệt giữa những thí sinh có
(Discrimination = 0,19 < 0,30). Ngoài ra phép năng lực cao và những thí sinh có năng lực
kiểm định t có giá trị p = 0,282 > 0,05 đối với thấp. Đường biểu diễn cho thấy sự phân biệt
phương án C cho thấy phương án này không kém của câu hỏi này được thể hiện qua Hình 5.
Hình 4. Đường cong đặc trưng của Câu hỏi 39
Đường biểu diễn xác xuất trả lời các phân biệt giữa những thí sinh có năng lực
phương của câu hỏi cho thấy rất rõ phương cao và những thí sinh có năng lực thấp. Đây
án nhiễu C của câu hỏi này không có ý nghĩa là một câu hỏi kém chất lượng cần phải
61
- SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021)
được loại bỏ ra khỏi đề thi. 20 với giá trị độ phân biệt bằng 0,29 và câu
Bằng phương pháp đánh giá tương tự, 31 với giá trị độ phân biệt bằng 0,26.
chúng tôi phát hiện trong đề thi này còn có Ngoài ra, trong đề thi này có thêm một
thêm hai câu hỏi có độ phân biệt kém cần số câu hỏi có phương án nhiễu kém chất
phải được loại bỏ ra khỏi đề thi, đó là: câu lượng và được thể hiện qua Bảng 6.
Bảng 6. Thống kê các câu hỏi có phương án nhiễu kém chất lượng
Phương án
Câu hỏi Tham số Đáp án
A B C D
Số lượt chọn 500 198 65 109
Pt Bis 0,29 -0,29 -0,11 0,01
20 A
t 9,08 -8,79 -3,16 0,19
p - value 0,000 0,000 0,002 0,848
Số lượt chọn 191 194 121 368
Pt Bis -0,09 0,32 -0,05 -0,16
22 B
t -2,53 10,1 -1,54 -4,92
p - value 0,011 0,000 0,124 0,000
Số lượt chọn 15 143 197 516
Pt Bis -0,16 -0,36 -0,06 0,36
26 D
t -4,9 11,32 -1,66 11,43
p - value 0,000 0,000 0,098 0,000
Số lượt chọn 28 107 523 213
Pt Bis -0,15 -0,23 0,26 -0,05
31 C
t -4,38 -7,07 7,82 -1,59
p - value 0,000 0,000 0,000 0,113
Kết quả thống kê trong Bảng 6 cho và câu 39. Như vậy, các câu hỏi còn lại được
thấy, các phương án nhiễu kém chất lượng phát hiện có dấu hiệu bất thường có thể do
trong các câu hỏi trên là phương án D đối cách diễn đạt nội dung câu hỏi mang đến sự
với câu hỏi 20 và câu hỏi 31; phương án C hiểu làm cho thí sinh.
đối với câu hỏi 22 và câu hỏi 39. Như vậy, 3. Kết luận
trong số những câu hỏi có bất thường được Kết quả phân tích, đánh giá chất lượng
phát hiện dựa vào giá trị phù hợp MNSQ đề thi trắc nghiệm khách quan thông qua
trong Hình 2, bốn câu hỏi có phương án việc ứng dụng mô hình Rasch và phần mềm
nhiễu kém chất lượng là các câu 14, 20, 31 ConQuest đã chỉ ra trong đề thi có một số
62
- NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN
câu hỏi có dấu hiệu bất thường do các giá trị có năng lực cao. Bên cạnh đó, những câu hỏi
phù hợp MNSQ không nằm trong các có chất lượng các phương án nhiễu kém chất
khoảng tin cậy tương ứng. Ngoài ra, kết quả lượng đã được phát hiện, giúp người biên
phân tích này đã giúp loại bỏ được câu hỏi soạn đề thi kịp thời điều chỉnh cải tiến để
có độ khó rất thấp không tương ứng với nâng cao chất lượng câu hỏi cũng như nâng
năng lực của thí sinh, đồng thời phát hiện đề cao chất lượng đề thi góp phần đánh giá
thi vẫn còn thiếu những câu hỏi có độ khó chính xác, khách quan kết quả học tập và
cao hơn nhằm đánh giá được những thí sinh năng lực của người học.
TÀI LIỆU THAM KHẢO
[1] Nguyễn Thị Hồng Minh, Nguyễn Đức Thiện, “Đo lường đánh giá trong thi trắc nghiệm
khách quan: Độ khó câu hỏi và năng lực của thí sinh”, Tạp chí Khoa học Đại học Quốc
gia Hà Nội, 22(4), 34-47, 2006.
[2] Nguyễn Bảo Hoàng Thanh, “Sử dụng phần mềm Quest để phân tích câu hỏi trắc nghiệm
khách quan”, Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, Số 2, tr.119-126,
2008.
[3] Đoàn Hồng Chương, Lê Anh Vũ, Phạm Hoàng Uyên, “Áp dụng mô hình IRT 3 tham số
vào đo lường và phân tích độ khó, độ phân biệt và mức độ dự đoán của các câu hỏi trong
đề thi trắc nghiệm khách quan”. Tạp chí Khoa học Trường Đại học Sư phạm TP. Hồ
Chí Minh, 7(85), 174-184, 2016.
[4] Bùi Ngọc Quang, “Đánh giá chất lượng ngân hàng đề thi trắc nghiệm khách quan môn
Nhân học đại cương bằng mô hình Rasch và phần mềm Quest”, Tạp chí Phát triển Khoa
học và Công nghệ, Tập 20, Số X3, tr.42-54, 2017.
[5] Lê Anh Vũ, Phạm Hoàng Uyên, Đoàn Hồng Chương, Lê Thanh Hoa, “Áp dụng lấy mẫu
GIBBS vào đo lường và đánh giá độ khó câu hỏi trong mô hình Rasch”, Tạp chí Khoa
học Trường Đại học Sư phạm Thành phố Hồ Chí Minh, 14(4), 119-130, 2017.
[6] Bùi Anh Kiệt, Bùi Nguyên Phương, “Sử dụng phần mềm IATA để phân tích, đánh giá
và nâng cao chất lượng câu hỏi trắc nghiệm khách quan trong chương trình hàm số lũy
thừa, hàm số mũ, hàm số logarit”, Tạp chí Khoa học Trường Đại học Cần Thơ, 54(9C),
81-93, 2018.
[7] Romel A. Morales, “Evaluation of mathematics achievement test: A comparison
between CTT and IRT”, The International Journal of Educational and Psychological
Assessment, 1(1), 19-26, 2009.
[8] L. Q. Thiệp, Đo lường trong giáo dục, lý thuyết và ứng dụng, NXB Đại học Quốc gia
Hà Nội, 2010.
[9] G. Camilli, Lorrie A. Shepard, Methods of identifying biased test items, Thousand Oaks,
CA: Sage, 1994.
63
- SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021)
[10] G. Rasch, Studies in mathematical psychology: I. Probabilistic models for some
intelligence and attainment tests, Danish Institute for Educational Research, 1960.
[11] Frank B. Baker, The basics of item response theory, College Park, MD, ERIC
Clearinghouse on Assessment and Evaluation, 2001.
[12] Margaret L. Wu, Raymond J. Adams, Mark R. Wilson, and Samuel A. Haldane, ACER
ConQuest version 2.0: Generalised item response modelling software, ACER
Press (2007).
[13] Robert L. Ebel, Measuring educational achievement, Englewood Cliffs: Prentice-Hall,
1965.
Ngày nhận bài: 21/3/2020 Biên tập xong: 15/3/2021 Duyệt đăng: 20/3/2021
64
nguon tai.lieu . vn