Xem mẫu

  1. Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 175 Ứng dụng kỹ thuật phân cụm và luật kết hợp phân tích tình hình học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng Nguyễn Văn Chức, Trần Thị Quỳnh Tiên Trường Đại học Kinh tế - Đại học Đà Nẵng chuc.nv@due.edu.vn, quynhtien96@gmail.com Tóm tắt. Vấn đề nâng cao năng lực tiếng Anh cho sinh viên của các trường Đại học đang là yêu cầu cấp thiết, giúp sinh viên đáp ứng yêu cầu ngày càng cao của thị trường lao động nhất là trong bối cảnh hội nhập quốc tế. Một trong những khó khăn của các trường Đại học trong việc dạy tiếng Anh cho sinh viên là do mỗi sinh viên có sự khác nhau về đầu tư cho việc học tiếng Anh của mình (thời gian, kinh phí, quyết tâm…) dẫn đến kỹ năng tiếng Anh của mỗi người là không giống nhau. Việc này gây khó khăn cho các trường đại học trong việc xây dựng chương trình học tiếng Anh cho sinh viên một cách hiệu quả. Để có được cái nhìn tổng quan về thực trạng việc học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng, nghiên cứu tập trung vào kỹ thuật phân cụm và luật kết hợp để phân tích tình hình học tiếng Anh của sinh viên nhà Trường nhằm giúp Trường nắm được đặc điểm, thực trạng và mong muốn của sinh viên trong việc học tiếng Anh từ đó đưa ra các tư vấn, định hướng và đề xuất các giải pháp nhằm nâng cao hiệu quả của việc dạy và học tiếng Anh cho sinh viên trong Trường. Từ khóa: Phân tích dữ liệu, phân cụm, luật kết hợp, học tiếng Anh, Khai phá dữ liệu. 1 Đặt vấn đề Trong xu thế toàn cầu hóa và hội nhập quốc tế ngày nay, khả năng ngoại ngữ, đặc biệt là tiếng Anh đóng một vai trò rất quan trọng trong tất cả các hoạt động từ giao tiếp, học tập, công việc... Ở Việt Nam, tiếng Anh đã được giảng dạy từ rất sớm trong các trường học từ bậc tiểu học đến đại học. Bên cạnh đó, các trung tâm ngoại ngữ cũng đóng góp tích cực vào việc đào tạo năng lực tiếng Anh đáp ứng yêu cầu học tập của người học. Ở bậc đại học, năng lực ngoại ngữ (chủ yếu là tiếng Anh) của sinh viên được các trường đại học rất coi trọng và có nhiều giải pháp giúp sinh viên hoàn thiện kỹ năng ngoại ngữ như đưa năng lực ngoại ngữ là chuẩn đầu ra để tốt nghiệp, nhiều chương trình đào tạo dạy bằng tiếng Anh… Vì vậy, việc nắm được đặc điểm, xu hướng và thực trạng học tiếng Anh của sinh viên trong các trường đạị học là việc làm rất cần thiết, giúp các trường đại học có được cái nhìn tổng quan về năng lực tiếng Anh của sinh viên, từ đó đề xuất các chính sách, định hướng và tư vấn giúp sinh viên nâng cao năng lực tiếng Anh. Để phân tích thực trạng học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng, sau quá trình thu thập dữ liệu về tình hình học tiếng Anh của sinh viên trong Trường, nghiên cứu tập trung vào ứng dụng kỹ thuật phân cụm và luật kết hợp trong khai phá dữ liệu để để phân tích, giúp nhà Trường có được các thông tin cần thiết về thực trạng, đặc điểm và mong muốn học tiếng Anh của sinh viên. Từ đó, đề xuất những giải pháp phù hợp trong tư vấn, định hướng và giảng dạy giúp nâng cao năng lực tiếng Anh cho sinh viên. 2 Sơ lược về kỹ thuật phân cụm và luật kết hợp 2.1 Phân cụm dữ liệu Phân cụm dữ liệu là qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm càng giống nhau (similar) càng tốt và các đối tượng khác cụm thì càng khác nhau nhau (Dissimilar) càng tốt.[1],[2]
  2. 176 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu. Có rất nhiều kỹ thuật phân cụm như phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ... Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh giá hiệu qủa của phân tích phân cụm, điều này phụ thuộc vào mục đích của bài toán phân cụm. [1],[2] 2.2 Luật kết hợp Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ bản của luật kết hợp được tóm tắt như dưới đây.[1],[2] Cho cơ sở dữ liệu giao dịch T gồm tập các giao dịch t1, t2…, tn. T = {t1, t2…, tn}. Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset). I = {i1, i2 …, im}. Một itemset gồm k items gọi là k-itemset. Mục đích của luật kết hợp là tìm ra sự kết hợp (tương quan) giữa các items. Những luật kết hợp này có dạng X → Y Hai tiêu chí rất quan trọng trong việc đánh giá luật kết hợp đó là độ hỗ trợ (support) và độ tin cậy (confidence). Công thức tính độ hỗ trợ và độ tin cậy của luật kết hợp X→Y: [2] n( X  Y ) Support ( X  Y )  P( X  Y )  N n( X  Y ) Confidence( X  Y )  P(Y X )  n( X ) Trong đó: - n(X): Số giao dịch chứa X. - N: Tổng số giao dịch. Các luật kết hợp có độ hỗ trợ và độ tin cậy lớn hơn hoặc bằng độ hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu (min_conf) gọi là các luật mạnh. min_sup và min_conf gọi là các giá trị ngưỡng (threshold) được xác định trước khi sinh các luật kết hợp. 3 Ứng dụng kỹ thuật phân cụm và luật kết hợp phân tích tình hình học tiếng Anh của sinh viên Đại học Kinh tế - Đại học Đà Nẵng 3.1 Mô tả bài toán Mục đích: ứng dụng kỹ thuật phân cụm và luật kết hợp để đánh giá được tình hình học tiếng Anh của sinh viên Đại học Kinh tế - Đại học Đà Nẵng Đầu vào: Gồm các thông tin của sinh viên: giới tính, quê quán, chuyên ngành, năm thứ, kết quả học tập; thông tin về việc học tiếng Anh: mục đích học tiếng Anh, thời gian, chi phí dành cho việc học tiếng Anh… Đầu ra: Đưa ra đặc trưng về việc học tiếng Anh của từng nhóm sinh viên, mối liên hệ giữa các thuộc tính liên quan đến việc học tiếng Anh của sinh viên, từ đó đánh giá được thực trạng học tiếng Anh của họ.
  3. Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 177 3.2 Kịch bản triển khai các mô hình phân tích tình hình học tiếng Anh của sinh viên Hình 1. Kịch bản triển khai các mô hình phân tích tình hình học tiếng Anh của sinh viên - Bước 1. Thu thập và tiền xử lý dữ liệu. Dữ liệu thu thập được 450 mẫu, từ các sinh viên đang học tại trường Đại học Kinh tế - Đại học Đà Nẵng từ tháng 2/2017 đến 4/2017. Dữ liệu ban đầu gồm rất nhiều thuộc tính, sau quá trình tiền xử lý dữ liệu (sử dụng phương pháp trích chọn thuộc tính) để đánh giá mức độ ảnh hưởng của các thuộc tính việc phân tích tình hình học tiếng Anh (TA) của sinh viên, mô hình xác định được các thuộc tính như Bảng 1. Tên thuộc tính Giải thích Tên thuộc tính Giải thích Mục đích học TA: Đủ điều MaSV Mã sinh viên (PK) MDDuDKDuHoc kiện đi du học GioiTinh Giới tính BatDauHocTA Bắt đầu học TA từ khi nào Thường học TA vào thời QueQuan Quê quán ThoiGianHocTA gian nào Thời gian trung bình trong 1 ChuyenNganh Chuyên ngành ThoiGianTBHocTrong1Tuan tuần dành cho việc học TA Chi phí hàng tháng dành cho NamThu Năm học thứ ChiPhiHangThang việc học TA KQHT Kết quả học tập VaiTroTATrongCongViec Vai trò TA trong công việc Mục đích học TA: MDDuChuanTN KiNangYeuNhat Kĩ năng TA yếu nhất Đủ chuẩn tốt nghiệp Mục đích học TA: MDYeuThich KhoaHocTAQuanTamNhat Khóa học TA quan tâm nhất Vì yêu thích MDCongViecTuongLa Mục đích học TA: Vì Có lên kế hoạch cho việc học KeHoachRoRangHocTA i công việc tương lai TA không Bước 2. Xây dựng mô hình phân cụm và luật kết hợp Mô hình phân cụm và luật kết hợp phân tích dữ liệu khách hàng sử dụng dịch vụ khách sạn được xây dựng trên công cụ khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft. BIDS là công cụ rất mạnh cho phép triển khai các mô hình khai phá dữ liệu, được sử dụng rộng rãi hiện nay bởi khả năng kết nối dễ dàng với nhiều nguồn dữ liệu, giao diện dễ sử dụng và nhất là khả năng biểu diễn tri thức phát hiện được rất trực quan, dễ hiểu, dễ sử dụng. BIDS được tích hợp vào SQL SERVER 2005 trở về sau trong các phiên bản Enterprise hoặc Development.[5]
  4. 178 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Sau khi thực hiện các thao tác tiền xử lý dữ liệu để phù hợp với mô hình khai phá dữ liệu, sử dụng Microsoft Clustering với thuật toán K-means và Microsoft Association Rule với thuật toán Apriori trong BIDS để xây dựng mô hình phân tích tình hình học tiếng Anh của sinh viên Đại học Kinh tế - Đại học Đà Nẵng. - Bước 3. Phát hiện tri thức từ mô hình phân cụm và luật kết hợp. Mô hình phân cụm. Hình 2. Kết quả phân cụm dữ liệu Từ mô hình phân cụm, cho ra được đặc trưng 5 nhóm khách hàng như sau: - Cụm 1: Cụm này đa số là các bạn nữ; đang học năm 3; kết quả học tập: Khá; có mục đích học TA là vì công việc tương lai và đủ chuẩn tốt nghiệp; bắt đầu học TA từ tiểu học, trung học cơ sở; thời gian học TA thường là buổi tối,10h -
  5. Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 179 - Cụm 5: Cụm này đa số là các bạn đang nam học năm 3; kết quả học tập: trung bình và khá; có mục đích học TA là vì công việc tương lai, vì đủ chuẩn tốt nghiệp, vì đủ điều kiện đi du học, vì yêu thích; bắt đầu học TA từ tiểu học; thời gian học TA thường là bất cứ khi nào rảnh, < 10h/tuần; chi phí dành cho việc học TA: < 500.000 VNĐ/tháng; cho rằng vai trò TA trong công việc là rất cần thiết; kĩ năng TA yếu nhất là nghe; khóa học TA quan tâm nhất là ôn thi chứng chỉ; có lên kế hoạch rõ ràng cho việc học TA. Hình 3. Đặc trưng từng cụm dữ liệu Mô hình luật kết hợp. Hình 4. Kết quả mô hình luật kết hợp Từ mô hình luật kết hợp đã xây dựng, một số luật được trích ra sau đây: - Luật 1: Với chuyên ngành là Quản trị kinh doanh du lịch, quê quán ở Đà Nẵng thì chi phí dành cho việc học TA hàng tháng là 1.000.000 - 1.500.000 VNĐ với độ tin cậy 0,5. - Luật 2: Với kết quả học tập (KQHT) là Xuất sắc, quê quán ở Đà Nẵng thì có mục đích học TA là để đủ điều kiện đi du học với độ tin cậy 0,8. - Luật 3: Với chuyên ngành là Tài chính doanh nghiệp, giới tính Nam thì kĩ năng TA yếu nhất là viết với độ tin cậy 0,57.
  6. 180 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” - Luật 4: Với chuyên ngành là Kiểm toán, là sinh viên Năm 2 thì khóa học TA quan tâm nhất là Tiếng Anh tổng quát với độ tin cậy 0,5. - Luật 5: Với chuyên ngành là Marketing, là sinh viên Năm 3 thì chi phí dành cho việc học TA hàng tháng là 500.000 -
  7. Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 181 2. Jiawei Han and Micheline Kamber (2011). Datamining: Concepts and Techniques, Simon Fraser University. 3. Nguyễn Văn Chức, Đào Thị Giang (2015), Ứng dụng kỹ thuật phân cụm và luật kết hợp khai phá dữ liệu khách hàng sử dụng dịch vụ khách sạn, Tạp chí KH&CN ĐHĐN, số 12(97).2015, Quyển 2, tr. 1-4. 4. Nguyễn Văn Chức, Lê Vũ Thùy Tâm (2016), Nghiên cứu và ứng dụng luật kết hợp phân tích xu hướng đăng ký ngành tuyển sinh Đại học, Kỷ yếu Hội thảo khoa học Quốc Gia “Thống kê và Tin học ứng dụng” NCASI 2016, 2, 1-8. 5. JamieMacLennan, Z.T., Bogdan Crivat (2008), Data Mining with Microsoft SQL Server 2008, Indianapolis, Indiana: Wiley Publishing, Inc.
nguon tai.lieu . vn