Xem mẫu

  1. TRƯỜNG ĐẠI HỌC SÀI GÒN SAIGON UNIVERSITY TẠP CHÍ KHOA HỌC SCIENTIFIC JOURNAL ĐẠI HỌC SÀI GÒN OF SAIGON UNIVERSITY Số 75 (03/2021) No. 75 (03/2021) Email: tcdhsg@sgu.edu.vn ; Website: http://sj.sgu.edu.vn/ ĐÁNH GIÁ CHẤT LƯỢNG ĐỀ THI TRẮC NGHIỆM KHÁCH QUAN THÔNG QUA VIỆC ỨNG DỤNG MÔ HÌNH RASCH VÀ PHẦN MỀM CONQUEST Evaluating the quality of multiple-choice tests through applying Rasch model and ConQuest software ThS. Nguyễn Văn Cảnh(1), ThS. Nguyễn Quốc Tuấn(2) (1),(2) Trường Đại học Đồng Tháp TÓM TẮT Nghiên cứu này trình bày cách đánh giá một đề thi trắc nghiệm khách quan dựa vào mô hình Rasch thông qua việc sử dụng phần mềm ConQuest. Kết quả phân tích trong bài viết đã chỉ ra một số vấn đề liên quan đến chất lượng của một đề thi trắc nghiệm khách quan. Cụ thể như: (1) về độ khó, trong đề thi có một câu hỏi rất dễ, thấp hơn năng lực của toàn bộ thí sinh cần phải được loại bỏ, đồng thời thiếu những câu hỏi có khả năng đo lường năng lực của những thí sinh có năng lực cao; (2) về độ phân biệt, trong đề thi có ba câu hỏi có độ phân biệt kém, không có ý nghĩa trong việc đo lường năng lực của thí sinh; (3) về chất lượng các phương án nhiễu, trong đề thi có năm câu hỏi có phương án nhiễu kém chất lượng cần phải được điều chỉnh hoặc thay thế. Bằng phương pháp này, giảng viên biên soạn đề thi sẽ phát hiện được những câu hỏi có chất lượng tốt và đưa vào ngân hàng câu hỏi thi, đồng thời những câu hỏi kém chất lượng sẽ được điều chỉnh hoặc bị loại bỏ ra khỏi đề thi. Từ khóa: ConQuest, đề thi, mô hình Rasch ABTRACTS This study evaluates the quality of multiple-choice test, based on using the Rasch model and ConQuest software. The analysis results in the article have pointed out some issues related to the quality of a test. Specifically, (1) regarding difficulty, there is a very easy question in the test, which is lower than capacity of candidates that need to be removed and the test also lacks of difficult questions to measure the competency of highly capable candidates; (2) regarding discrimination, there are three questions with low discrimination, which are not significant in measuring the competency of candidates; (3) regarding quality of distracting options, there are five questions with low quality distracting options that need to be adjusted or replaced. By this method, exam preparation teachers will discover good questions to put into the exam questions bank, and low quality questions will be adjusted or removed from the test. Keywords: ConQuest, test, Rasch model 1. Mở đầu qua việc Bộ Giáo dục và Đào tạo đã sử dụng Trong những năm gần đây, trắc nghiệm hình thức đánh giá này với hầu hết các môn khách quan đang dần trở thành một trong thi trong kỳ thi trung học phổ thông quốc những hình thức kiểm tra đánh giá phổ biến gia. Bên cạnh đó, các trường đại học cũng trong giáo dục Việt Nam. Điều này được thể đang sử dụng trắc nghiệm khách quan để Email: nvcanh@dthu.edu.vn 52
  2. NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN đánh giá kết quả học tập của sinh viên, đặc câu hỏi trắc nghiệm khách quan. biệt là các học phần đại cương có nhiều sinh 2. Nội dung nghiên cứu viên đăng ký tham gia học tập. Mặc dù vẫn 2.1. Giới thiệu về mô hình Rasch có những hạn chế nhất định, hình thức này Khoa học đo lường và đánh giá trong vẫn có nhiều ưu điểm trong đo lường, đánh giáo dục phát triển tương đối hoàn chỉnh từ giá kết quả học tập. Một trong những ưu thập niên 1970 với sự ra đời và hoàn thiện điểm nổi bật của hình thức đánh giá này là của lý thuyết khảo thí cổ điển (Classical đảm bảo tính khách quan và tiện lợi trong Test Theory – CTT). Việc áp dụng CTT để quá trình chấm bài thi. Tuy nhiên để đảm đo lường và đánh giá đề thi trắc nghiệm bảo đề thi chính xác và có khả năng đo khách quan rất dễ thực hiện vì nó hầu như lường được đúng năng lực của thí sinh, cần không đòi hỏi bất kì giả thiết nào khi chạy thiết phải có công cụ đánh giá chất lượng đề mô hình, nhưng phương pháp này tồn tại thi, làm cơ sở để điều chỉnh và cải tiến chất một số hạn chế [7]. Hạn chế cơ bản nhất của lượng. lý thuyết này là không tách biệt được các Ở Việt Nam, thời gian gần đây đã có đặc trưng của thí sinh với các đặc trưng của một số nghiên cứu về việc đánh giá đề thi đề trắc nghiệm, đặc trưng này chỉ có thể trắc nghiệm khách quan với sự hỗ trợ của được giải thích trong mối quan hệ với đặc các phần mềm tính toán, tiêu biểu phải kể trưng kia và ngược lại. Cụ thể, các đặc trưng đến nghiên cứu của các tác giả như Nguyễn của đề trắc nghiệm như độ khó, độ phân biệt Thị Hồng Minh và Nguyễn Đức Thiện của câu hỏi, độ tin cậy và độ giá trị của đề (2006) với việc sử dụng phương pháp trắc nghiệm được xác định dựa vào một PROX [1], Nguyễn Bảo Hoàng Thanh nhóm thí sinh làm bài. Vì vậy, các đặc trưng (2008) với việc sử dụng phần mềm Quest này của đề trắc nghiệm sẽ thay đổi khi được [2], Đoàn Hồng Chương và cộng sự (2016) đo lường trên một nhóm thí sinh khác. Bên với việc sử dụng gói “ltm” của phần mềm R cạnh đó, năng lực của thí sinh cũng sẽ thay [3], Bùi Ngọc Quang (2017) với việc sử đổi khi đề trắc nghiệm thay đổi, chẳng hạn dụng mô hình Rasch và phần mềm Quest như khi thực hiện trên một đề trắc nghiệm [4], Lê Anh Vũ và cộng sự (2017) với việc dễ thì thí sinh sẽ được đánh giá là có năng sử dụng phương pháp lấy mẫu GIBBS [5], lực cao, và ngược lại thí sinh được đánh giá Bùi Anh Kiệt và Bùi Nguyên Phương là có năng lực thấp khi thực hiện trên một (2018) với việc sử dụng phần mềm IATA đề trắc nghiệm khó. Do đó, rất khó so sánh [6]. Trong nghiên cứu này, chúng tôi trình năng lực của thí sinh khi họ phải thực hiện bày cách đánh giá một đề thi trắc nghiệm trên những đề trắc nghiệm khác nhau cũng khách dựa vào mô hình Rasch thông qua như rất khó so sánh độ khó của các câu hỏi việc ứng dụng phần mềm ConQuest. Bên trong đề thi khi chúng được trả lời bởi các cạnh việc hỗ trợ tính toán các tham số của nhóm thí sinh khác nhau [8]. Trên cơ sở đó, câu hỏi như độ khó và độ phân biệt, phần lý thuyết ứng đáp câu hỏi (Item Response mềm ConQuest còn hỗ trợ phân tích chất Theory – IRT) được ra đời nhằm khắc phục lượng của các phương án nhiễu của câu hỏi những điểm hạn chế của CTT. thông qua hệ số tương quan, phép kiểm định Lý thuyết ứng đáp của hỏi được xây t và hình ảnh biểu diễn xác suất trả lời cho dựng dựa trên hai giả thiết: (1) sự ứng đáp từng phương án theo năng lực của thí sinh. của một thí sinh đối với một câu hỏi có thể Đây là ưu điểm của phần mềm này so với được tiên đoán bằng năng lực tiềm ẩn của các phần mềm khác có chức năng phân tích thí sinh; (2) quan hệ giữa sự ứng đáp câu hỏi 53
  3. SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) của thí sinh và năng lực tiềm ẩn làm cơ sở của người kia; tương tự như vậy, nếu một câu cho sự đáp ứng đó có thể mô tả bằng một hỏi khó hơn câu hỏi khác thì xác suất để một hàm đặc trưng câu hỏi đồng biến [8]. Theo người bất kì trả lời đúng câu hỏi đó phải nhỏ đó, Rasch cho rằng việc phân tích trong đo hơn xác suất để người đó trả lời đúng câu hỏi lường và đánh giá đề thi trắc nghiệm khách kia” [10]. quan chỉ có ý nghĩa khi dựa vào từng cá Trên cơ sở đó, Rasch đã xây dựng một nhân thí sinh, trong đó, các thuộc tính của mô hình toán học cho sự ứng đáp câu hỏi thí sinh và của các câu hỏi được tách riêng. của mỗi thí sinh. Công thức của mô hình có Quan điểm này của Rasch đã đánh dấu sự dạng như sau: chuyển tiếp từ mô hình CTT sang mô hình  b ei j IRT, đây là mô hình mô tả xác suất trả lời P( X ij  1/ i , b j )   b (1) 1 e i j đúng các câu hỏi trong đề thi trắc nghiệm Trong đó, θi là năng lực của thí sinh thứ khách quan đối với sự ứng đáp của thí sinh i, bj là độ khó của câu hỏi thứ j, và Xij là trả đối với các câu hỏi đó [9]. Dựa trên quan điểm đó, Rasch đã giới thiệu mô hình gọi là lời của thí sinh thứ i đối với câu hỏi thứ j. mô hình Rasch, mô hình này dựa trên giả Nếu thí sinh trả lời đúng câu hỏi thìXij =1 và thuyết cơ bản như sau: ngược lại thí sinh trả lời sai câu hỏi thì “Nếu một người có năng lực cao hơn Xij =0. Đồ thị của hàm số trong công thức người khác thì xác suất trả lời đúng một câu trên theo biến θi được gọi là đường cong đặc hỏi bất kì phải lớn hơn xác suất tương ứng trưng của câu hỏi và có dạng như Hình 1. Hình 1. Đường cong đặc trưng của câu hỏi trong mô hình Rasch Đường cong đặc trưng của câu hỏi có gọi là ngưỡng của câu hỏi. Như vậy, độ khó độ dốc hướng lên biểu thị cho xác suất trả của mỗi câu hỏi chính là ngưỡng mà với lời đúng câu hỏi của thí sinh tỉ lệ thuận với năng lực đó, khả năng trả lời đúng câu hỏi năng lực của thí sinh đó. Xác suất này sẽ tiến của thí sinh là 50%. Điểm nổi bật của mô dần về 1 khi năng lực của thí sinh tiến đến hình Rasch là nó mô tả được mối liên hệ dương vô cùng. Trong mô hình Rasch, nếu giữa năng lực của mỗi thí sinh đối với các năng lực θi của thí sinh bằng với độ khó câu tham số đặc trưng của các câu hỏi thông qua hỏi bj thì khả năng trả lời đúng câu hỏi của sự ứng đáp của mỗi thí sinh khi trả lời các thí sinh đó là 50%. Mức năng lực này được câu hỏi trong đề thi [11]. 54
  4. NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN 2.2. Giới thiệu về dữ liệu phân tích file sơ đồ phân bố năng lực của thí sinh với Bài viết này dựa trên kết quả phân tích độ khó của câu hỏi, giá trị phù hợp của dữ liệu thi trắc nghiệm khách quan môn MNSQ có định dạng *.shw; file thống kê Tiếng Anh 1 trong kỳ thi kết thúc học phần năng lực của thí sinh có định dạng *.mle. học kỳ 1, năm học 2018 - 2019 tại Trường 2.3.1. Sự phù hợp của câu hỏi với mô Đại học Đồng Tháp. Đề thi gồm 50 câu hỏi hình Rasch trắc nghiệm khách quan, mỗi câu hỏi đều có Mức độ phù hợp của các câu hỏi trong đề 04 phương án trả lời trong đó có 01 phương thi với mô hình Rasch được xác định dựa vào án đúng và 03 phương án nhiễu. Số lượng giá trị bình phương trung bình MNSQ (Mean thí sinh tham gia trả lời các câu hỏi trong đề Square). Câu hỏi được coi là phù hợp với mô thi là 874 người. hình nếu giá trị MNSQ của câu hỏi nằm trong 2.3. Đánh giá chất lượng đề thi trắc khoảng tin cậy CI (Confidence Interval) nghiệm khách quan dựa vào mô hình tương ứng. Những câu hỏi có giá trị MNSQ Rasch và phần mềm ConQuest trong cả 2 cột UNWEIGHTED FIT và Phần mềm ConQuest được viết bởi Hội WEIGHTED FIT đều nằm ngoài các khoảng đồng nghiên cứu giáo dục Úc dùng để ứng CI tương ứng chứng tỏ có điều bất thường xảy dụng lý thuyết ứng đáp câu hỏi IRT vào đối với câu hỏi đó, cần phải được xem xét lại. phân tích dữ liệu đề thi và đánh giá năng lực Những bất thường xảy ra đối với câu hỏi có của thí sinh [12]. Để sử dụng phần mềm khả năng là đáp án bị sai, hay nội dung câu ConQuest cần có hai file dữ liệu đầu vào hỏi được thể hiện không rõ ràng gây ra sự gồm file cấu hình có định dạng *.cqc và file hiểu nhầm cho thí sinh. Kết quả thống kê cho chứa kết quả trả lời của các thi sinh có định thấy trong đề thi này có 13 câu hỏi có giá trị dạng *.dat. Kết quả phân tích được xuất ra MNSQ trong cả 2 cột UNWEIGHTED FIT từ phần mềm ConQuest sẽ phụ thuộc vào và WEIGHTED FIT đều không nằm trong file cấu hình nhưng cơ bản sẽ gồm các file khoảng tin cậy CI tưng ứng. Những câu hỏi sau: file đánh giá từng câu hỏi có dạng *.itn; này thể hiện qua Bảng 1. Bảng 1. Thống kê giá trị MNSQ của một số câu hỏi xảy ra bất thường 55
  5. SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) Trong đề thi có 13 câu hỏi có khả năng của các câu hỏi trong đề thi theo thang đo xảy ra bất thường do các giá trị MNSQ của logarit được ước lượng bằng phần mềm hai cột UNWEIGHTED FIT và WEIGHTED ConQuest và được thể hiện tại cột ESTIMATE FIT đều nằm ngoài các khoảng CI tương trong cùng bảng ước lượng giá trị MNSQ ứng và được thể hiện trong Hình 2. Đó là câu hỏi (Hình 2). Theo Baker (2001), độ khó các câu hỏi như: câu 13, 14, 20, 27, 31, 33, của câu hỏi được chia thành 05 mức như 36, 39, 41, 45, 46, 47 và câu 49. Đây những sau: mức rất dễ nếu giá trị độ khó bé hơn - câu hỏi này cần được xem xét lại về nội 2,0; mức dễ nếu giá trị độ khó từ -2,0 đến dung cũng như các phương án trả lời. Còn dưới -0,5; mức trung bình nếu giá trị độ khó lại 37 câu hỏi trong đề thi phù hợp với mô từ -0,5 đến dưới 0,5; mức khó nếu giá trị độ hình Rasch. khó từ 0,5 đến dưới 2,0 và mức rất khó nếu 2.3.2. Độ khó của câu hỏi độ khó của câu hỏi đạt từ 2,0 trở lên [11]. Độ khó của câu hỏi đặc trưng cho khả Theo cách phân loại trên, kết quả thống kê năng trả lời đúng câu hỏi của thí sinh. Câu bằng phần mềm ConQuest cho thấy độ khó hỏi có độ khó càng cao thì xác suất trả lời của câu hỏi được phân bố theo các mức độ đúng câu hỏi của thí sinh càng thấp. Độ khó như sau: Bảng 2. Thống kê độ khó của các câu hỏi trong đề thi Giá trị độ khó Mức độ Số lượng câu hỏi Tỷ lệ % Dưới -2.0 Rất dễ 0 0.0 Từ -2.0 đến dưới -0.5 Dễ 16 32.0 Từ -0.5 đến dưới 0.5 Trung bình 20 40.0 Từ 0.5 đến dưới 2.0 Khó 13 26.0 Từ 2.0 trở lên Rất khó 1 2.0 Tổng cộng 50 100.0 Kết quả thống kê trong Bảng 2 cho thấy của đề thi đối với những thí sinh dự thi. Một phần lớn câu hỏi trong đề thi có độ khó tập đề thi có chất lượng tốt khi những câu hỏi trung vào 3 mức độ: mức dễ (16 câu, tỷ lệ trong đề thi có độ khó tương ứng với năng 32%), mức trung bình (20 câu, tỷ lệ 40%) và lực của thí sinh, kể cả những thí sinh có năng mức khó (13 câu, 26%). Đề thi không có câu lực thấp và những thí sinh có năng lực cao. hỏi ở mức rất dễ và chỉ có duy nhất 1 câu Những câu hỏi có độ khó vượt quá khả năng hỏi ở mức rất khó. hoặc quá thấp so với năng lực của thí sinh 2.3.3. Phân bố độ khó của câu hỏi và cần phải được điều chỉnh hoặc loại bỏ. năng lực của thí sinh Kết quả phân bố độ khó của câu hỏi Việc phân bố độ khó của câu hỏi và năng trong đề thi này so với năng lực của thí sinh lực của thí sinh sẽ cho thấy mức độ phù hợp dự thi được thể hiện qua Hình 2. 56
  6. NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN Hình 2. Biểu đồ phân bố độ khó của câu hỏi và năng lực của thí sinh Kết quả tính toán bằng phần mềm bình của các câu hỏi bằng 0,00 và độ lệch ConQuest đã cho thấy năng lực của thí sinh chuẩn 0,908. Như vậy, đây là một đề thi khá dự thi theo thang đo logarit đạt giá trị từ - dễ vì có độ khó trung bình (bằng 0,00) thấp 1,575 đến 3,352, năng lực trung bình của thí hơn so với năng lực trung bình của thí sinh sinh là 0,809 và độ lệch chuẩn là 1,036. Bên (bằng 0,809). cạnh đó, độ khó của các câu hỏi trong đề thi Ngoài ra, kết quả thống kê trong Hình 2 có giá trị từ -1,682 đến 2,279, độ khó trung còn cho thấy câu hỏi khó nhất trong đề thi là 57
  7. SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) câu 22 với độ khó bằng 2,279 và dễ nhất là có thể trả lời đúng câu hỏi như nhau. Hay câu 21 với độ khó bằng -1,682. Mặc dù câu nói cách khác, những câu hỏi có độ phân 22 là câu hỏi khó nhất trong đề thi nhưng độ biệt lớn thì có ý nghĩa tốt hơn trong việc khó của câu hỏi này vẫn còn thấp hơn năng phân loại thí sinh. Ebel (1965) cho rằng các lực của một số thí sinh. Điều này cho thấy, câu hỏi trong bài thi nên có độ phân biệt đạt đề thi vẫn còn thiếu những câu hỏi khó để từ 0,3 trở lên [13]. Bên cạnh đó, đối với các có thể đánh giá được những thí sinh có năng phương án nhiễu, thí sinh có năng lực cao lực cao. Bên cạnh đó, câu 21 trong đề thi có phải có tỷ lệ chọn thấp hơn đối với những độ khó thấp hơn năng lực của tất cả thí sinh thí sinh có năng lực thấp. Điều này được xác dự thi. Vì vậy, câu hỏi này cần được loại bỏ định thông qua giá trị hệ số tương quan Pt ra khỏi đề thi. Bis và giá trị p của phép kiểm định t trong 2.3.4. Đánh giá chất lượng của từng kết quả thống kê bằng phần mềm ConQuest. câu hỏi trong đề thi Cụ thể, giá trị Pt Bis > 0 cho biết số lượng Bên cạnh độ khó của câu hỏi, chất thí sinh có năng lực cao lựa chọn nhiều hơn lượng của đề thi còn được thể hiện thông số lượng thí sinh có năng lực thấp và người qua độ phân biệt và chất lượng các phương lại, giá trị p < 0,05 cho biết sự chênh lệch án nhiễu trong từng câu hỏi. Trong đó, độ giữa số lượng thí sinh lựa chọn các phương phân biệt của câu hỏi thể hiện khả năng phân án là có ý nghĩa thống kê với độ tin cậy 95%. loại những thí sinh có năng lực cao và những Như vậy, những phương án nhiễu được gọi thí sinh có năng lực thấp trong việc trả lời là có chất lượng khi hệ số tương quan Pt Bis câu hỏi. Một câu hỏi có độ phân biệt tốt khi < 0 và giá trị p < 0,05. trả lời câu hỏi đó, những thí sinh có năng lực Kết quả tính toán bằng phần mềm cao có tỷ lệ trả lời đúng cao hơn những thí ConQuest cho thấy một số câu hỏi trong đề sinh có năng lực thấp. Ngược lại, những câu thi này có các phương án nhiễu có chất lượng hỏi có độ phân biệt kém sẽ dẫn đến các thí tốt. Một trong số đó là câu hỏi 1 với các số sinh có năng lực cao và năng lực thấp đều liệu thống kê được thể hiện qua Bảng 3. Bảng 3. Thông tin phân tích câu hỏi 1 Item 1 Cases for this item: 873 Discrimination: 0,34 Item Threshold(s): -0,70 Weighted MNSQ: 1,02 Item Delta(s): -0,70 Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1 A 0,00 45 5,15 -0,13 -3,99 (0,000) 0,24 0,76 B 0,00 76 8,71 -0,23 -7,09 (0,000) 0,08 0,77 C 0,00 69 7,90 -0,17 -5,19 (0,000) 0,21 0,63 D 1,00 683 78,24 0,34 10,84 (0,000) 0,99 1,03 58
  8. NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN Kết quả thống kê cho thấy phương án đều có giá trị Pt Bis < 0 và phép kiểm định đúng của câu hỏi này là phương án D (giá t đều có giá trị p = 0,000 < 0,05. Điều này trị Score =1) thu hút được 683 thí sinh trả cho thấy các phương án nhiễu của câu hỏi lời. Độ khó của câu hỏi theo thang đo logarit đều có ý nghĩa phân biệt những thí sinh có (Item Threshold) là -0,70 (mức dễ), độ phân năng lực cao và những thí sinh có năng lực biệt của câu hỏi (Discrimination) là 0,34 lớn thấp. Sự phân biệt này được thể hiện rõ hơn hơn 0.3. Các phương án nhiễu là A, B, C lần qua hình biểu diễn đường xác suất trả lời các lượt thu hút được 45, 67, 69 thí sinh trả lời phương án của câu hỏi trong Hình 3. Hình 2. Đường cong đặc trưng của Câu hỏi 1 Đường biểu diễn xác suất trả lời các chất lượng tốt. phương án nhiễu A, B, C cho thấy khi Bên cạnh những câu hỏi có phương án năng lực của thí sinh càng cao thì xác suất nhiễu có chất lượng tốt, kết quả thống kê trả lời đối với các phương này càng thấp cho thấy trong đề thi này có những câu hỏi và tiến dần về 0 khi năng lực của thí sinh có phương án nhiễu kém chất lượng. Một ở mức rất cao. Điều này cho thấy đây là trong số đó là câu hỏi 14 với các số liệu một câu hỏi có các phương án nhiễu có thống kê thể hiện qua Bảng 4. Bảng 4. Thông tin phân tích câu hỏi 14 Item 14 Cases for this item: 871 Discrimination: 0,48 Item Threshold(s): 0,27 Weighted MNSQ: 0,94 Item Delta(s): 0,26 Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1 A 1,00 531 60,96 0,48 16,32 (0,000) 1,20 1,01 B 0,00 75 8,61 -0,06 -1,86 (0,063) 0,57 0,83 C 0,00 185 21,24 -0,42 13,61 (0,000) 0,02 0,67 D 0,00 80 9,18 -0,16 -4,88 (0,000) 0,29 0,68 59
  9. SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) Phương án đúng của câu hỏi này là và phép kiểm định t có giá trị p = 0,063 > phương án A (giá trị Score =1) thu hút được 0,05. Điều này cho thấy phương án B là 531 thí sinh trả lời. Độ khó của câu hỏi theo phương án nhiễu kém chất lượng vì không thang đo logarit (Item Threshold) là 0,27 có ý nghĩa phân biệt giữa những thí sinh có (mức trung bình), độ phân biệt của câu hỏi năng lực cao và những thí sinh năng lực (Discrimination) là 0,48 lớn hơn 0,3. Các thấp. Sự phân biệt kém của phương án phương án nhiễu là B, C, D lần lượt thu hút nhiễu này được thể hiện rõ hơn qua hình được 75, 185, 80 thí sinh trả lời. Trong đó, biểu diễn đường đặc trưng của câu hỏi phương án B có giá trị Pt Bis = -0,06 < 0 trong Hình 4 . Hình 3. Đường cong đặc trưng của Câu hỏi 14 Đường biểu diễn xác suất trả lời các những thí sinh có năng lực thấp hơn. Đây là phương án trong câu hỏi cho thấy rất rõ sự một điều chưa hợp lý đối với một phương án phân biệt của hai phương án nhiễu C và D nhiễu trong một câu hỏi của đề thi. Do đó, đây giữa những thí sinh có năng lực cao và những là một phương án nhiễu kém chất lượng. thí sinh có năng lực thấp. Cụ thể, khi thí sinh Ngoài ra, kết quả thống kê bằng phần có năng lực càng cao thì xác suất lựa chọn hai mềm ConQuest còn cho thấy trong đề thi phương án trên càng thấp. Đây là điều hợp lý này có một số câu hỏi có độ phân biệt thấp, đối với phương án nhiễu. Tuy nhiên phương không có ý nghĩa trong việc phân biệt năng án B chưa thể hiện rõ sự phân biệt này. Một lực của thí sinh dự thi. Một trong số đó là số thí sinh có năng lực cao hơn nhưng xác câu hỏi 39 với các số liệu thống kê được thể suất lựa chọn phương án này vẫn còn cao hơn hiện qua Bảng 5. 60
  10. NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN Bảng 5. Thông tin đánh giá câu hỏi 39 Item 39 Cases for this item: 874 Discrimination: 0,19 Item Threshold(s): -0,05 Weighted MNSQ: 1,18 Item Delta(s): -0,05 Label Score Count % of tot Pt Bis t (p) WLEAvg:1 WLE SD:1 A 1,00 586 67,05 0.19 5,75 (0,000) 0,95 1,06 B 0,00 56 6,41 -0.18 -5,35 (0,000) 0,16 0,88 C 0,00 191 21,85 -0.04 -1,08 (0,282) 0,70 0,90 D 0,00 41 4,69 -0.15 -4,39 (0,000) 0,15 0,81 Đây là câu hỏi có độ phân biệt kém có ý nghĩa phân biệt giữa những thí sinh có (Discrimination = 0,19 < 0,30). Ngoài ra phép năng lực cao và những thí sinh có năng lực kiểm định t có giá trị p = 0,282 > 0,05 đối với thấp. Đường biểu diễn cho thấy sự phân biệt phương án C cho thấy phương án này không kém của câu hỏi này được thể hiện qua Hình 5. Hình 4. Đường cong đặc trưng của Câu hỏi 39 Đường biểu diễn xác xuất trả lời các phân biệt giữa những thí sinh có năng lực phương của câu hỏi cho thấy rất rõ phương cao và những thí sinh có năng lực thấp. Đây án nhiễu C của câu hỏi này không có ý nghĩa là một câu hỏi kém chất lượng cần phải 61
  11. SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) được loại bỏ ra khỏi đề thi. 20 với giá trị độ phân biệt bằng 0,29 và câu Bằng phương pháp đánh giá tương tự, 31 với giá trị độ phân biệt bằng 0,26. chúng tôi phát hiện trong đề thi này còn có Ngoài ra, trong đề thi này có thêm một thêm hai câu hỏi có độ phân biệt kém cần số câu hỏi có phương án nhiễu kém chất phải được loại bỏ ra khỏi đề thi, đó là: câu lượng và được thể hiện qua Bảng 6. Bảng 6. Thống kê các câu hỏi có phương án nhiễu kém chất lượng Phương án Câu hỏi Tham số Đáp án A B C D Số lượt chọn 500 198 65 109 Pt Bis 0,29 -0,29 -0,11 0,01 20 A t 9,08 -8,79 -3,16 0,19 p - value 0,000 0,000 0,002 0,848 Số lượt chọn 191 194 121 368 Pt Bis -0,09 0,32 -0,05 -0,16 22 B t -2,53 10,1 -1,54 -4,92 p - value 0,011 0,000 0,124 0,000 Số lượt chọn 15 143 197 516 Pt Bis -0,16 -0,36 -0,06 0,36 26 D t -4,9 11,32 -1,66 11,43 p - value 0,000 0,000 0,098 0,000 Số lượt chọn 28 107 523 213 Pt Bis -0,15 -0,23 0,26 -0,05 31 C t -4,38 -7,07 7,82 -1,59 p - value 0,000 0,000 0,000 0,113 Kết quả thống kê trong Bảng 6 cho và câu 39. Như vậy, các câu hỏi còn lại được thấy, các phương án nhiễu kém chất lượng phát hiện có dấu hiệu bất thường có thể do trong các câu hỏi trên là phương án D đối cách diễn đạt nội dung câu hỏi mang đến sự với câu hỏi 20 và câu hỏi 31; phương án C hiểu làm cho thí sinh. đối với câu hỏi 22 và câu hỏi 39. Như vậy, 3. Kết luận trong số những câu hỏi có bất thường được Kết quả phân tích, đánh giá chất lượng phát hiện dựa vào giá trị phù hợp MNSQ đề thi trắc nghiệm khách quan thông qua trong Hình 2, bốn câu hỏi có phương án việc ứng dụng mô hình Rasch và phần mềm nhiễu kém chất lượng là các câu 14, 20, 31 ConQuest đã chỉ ra trong đề thi có một số 62
  12. NGUYỄN VĂN CẢNH - NGUYỄN QUỐC TUẤN TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN câu hỏi có dấu hiệu bất thường do các giá trị có năng lực cao. Bên cạnh đó, những câu hỏi phù hợp MNSQ không nằm trong các có chất lượng các phương án nhiễu kém chất khoảng tin cậy tương ứng. Ngoài ra, kết quả lượng đã được phát hiện, giúp người biên phân tích này đã giúp loại bỏ được câu hỏi soạn đề thi kịp thời điều chỉnh cải tiến để có độ khó rất thấp không tương ứng với nâng cao chất lượng câu hỏi cũng như nâng năng lực của thí sinh, đồng thời phát hiện đề cao chất lượng đề thi góp phần đánh giá thi vẫn còn thiếu những câu hỏi có độ khó chính xác, khách quan kết quả học tập và cao hơn nhằm đánh giá được những thí sinh năng lực của người học. TÀI LIỆU THAM KHẢO [1] Nguyễn Thị Hồng Minh, Nguyễn Đức Thiện, “Đo lường đánh giá trong thi trắc nghiệm khách quan: Độ khó câu hỏi và năng lực của thí sinh”, Tạp chí Khoa học Đại học Quốc gia Hà Nội, 22(4), 34-47, 2006. [2] Nguyễn Bảo Hoàng Thanh, “Sử dụng phần mềm Quest để phân tích câu hỏi trắc nghiệm khách quan”, Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, Số 2, tr.119-126, 2008. [3] Đoàn Hồng Chương, Lê Anh Vũ, Phạm Hoàng Uyên, “Áp dụng mô hình IRT 3 tham số vào đo lường và phân tích độ khó, độ phân biệt và mức độ dự đoán của các câu hỏi trong đề thi trắc nghiệm khách quan”. Tạp chí Khoa học Trường Đại học Sư phạm TP. Hồ Chí Minh, 7(85), 174-184, 2016. [4] Bùi Ngọc Quang, “Đánh giá chất lượng ngân hàng đề thi trắc nghiệm khách quan môn Nhân học đại cương bằng mô hình Rasch và phần mềm Quest”, Tạp chí Phát triển Khoa học và Công nghệ, Tập 20, Số X3, tr.42-54, 2017. [5] Lê Anh Vũ, Phạm Hoàng Uyên, Đoàn Hồng Chương, Lê Thanh Hoa, “Áp dụng lấy mẫu GIBBS vào đo lường và đánh giá độ khó câu hỏi trong mô hình Rasch”, Tạp chí Khoa học Trường Đại học Sư phạm Thành phố Hồ Chí Minh, 14(4), 119-130, 2017. [6] Bùi Anh Kiệt, Bùi Nguyên Phương, “Sử dụng phần mềm IATA để phân tích, đánh giá và nâng cao chất lượng câu hỏi trắc nghiệm khách quan trong chương trình hàm số lũy thừa, hàm số mũ, hàm số logarit”, Tạp chí Khoa học Trường Đại học Cần Thơ, 54(9C), 81-93, 2018. [7] Romel A. Morales, “Evaluation of mathematics achievement test: A comparison between CTT and IRT”, The International Journal of Educational and Psychological Assessment, 1(1), 19-26, 2009. [8] L. Q. Thiệp, Đo lường trong giáo dục, lý thuyết và ứng dụng, NXB Đại học Quốc gia Hà Nội, 2010. [9] G. Camilli, Lorrie A. Shepard, Methods of identifying biased test items, Thousand Oaks, CA: Sage, 1994. 63
  13. SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No. 75 (03/2021) [10] G. Rasch, Studies in mathematical psychology: I. Probabilistic models for some intelligence and attainment tests, Danish Institute for Educational Research, 1960. [11] Frank B. Baker, The basics of item response theory, College Park, MD, ERIC Clearinghouse on Assessment and Evaluation, 2001. [12] Margaret L. Wu, Raymond J. Adams, Mark R. Wilson, and Samuel A. Haldane, ACER ConQuest version 2.0: Generalised item response modelling software, ACER Press (2007). [13] Robert L. Ebel, Measuring educational achievement, Englewood Cliffs: Prentice-Hall, 1965. Ngày nhận bài: 21/3/2020 Biên tập xong: 15/3/2021 Duyệt đăng: 20/3/2021 64
nguon tai.lieu . vn