Xem mẫu

  1. ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH THỊ NHỊ NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN DỰA TRÊN BỘ CÔNG CỤ BI CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008 LUẬN VĂN THẠC SĨ Hà Nội - 2011
  2. - 2- ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRỊNH THỊ NHỊ NGHIÊN CỨU, KHAI THÁC KHO DỮ LIỆU ĐIỂM TẠI TRƯỜNG ĐẠI HỌC SPKT HƯNG YÊN DỰA TRÊN BỘ CÔNG CỤ BI CỦA HỆ QUẢN TRỊ CSDL SQL SERVER 2008 Ngành: CÔNG NGHỆ THÔNG TIN Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 60 48 05 LUẬN VĂN THẠC SĨ Người hướng dẫn khoa học TS. NGUYỄN HÀ NAM Hà Nội - 2011
  3. - 3- LỜI CAM ĐOAN Tôi xin cam đoan rằng, đây là công trình nghiên cứu của tôi, trong đó có sự giúp đỡ rất lớn và đầy nhiệt tình của thầy hướng dẫn, các thầy/cô ở Khoa CNTT – Trường Đại học Công nghệ và các đồng nghiệp nơi tôi đang làm việc. Các nội dung nghiên cứu và kết quả trong đề tài này là hoàn toàn trung thực. Trong luận văn, tôi có tham khảo đến một số tài liệu của một số tác giả đã được liệt kê tại phần tài liệu tham khảo ở cuối luận văn. Hà Nội, ngày 12 tháng 05 năm 2011 Tác giả Trịnh Thị Nhị
  4. - 4- MỤC LỤC BẢNG CÁC CHỮ VIẾT TẮT ..................................................................................... 6 DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU .................................................................. 7 Chương 1 - GIỚI THIỆU ........................................................................................... 11 1.1. Nhu cầu xây dựng kho dữ liệu về điểm.............................................................. 11 1.1.1. Nhu cầu xây dựng kho dữ liệu về điểm của Đại học SPKT Hưng Yên: .. 11 1.1.2. Phạm vi dự kiến của luận văn: ................................................................ 12 1.2. Một số hướng nghiên cứu về kho dữ liệu trên thế giới và ở tại Việt Nam ............ 12 1.2.1. Một số hướng nghiên cứu về kho dữ liệu trên Thế giới ............................. 12 1.2.2. Một số hướng nghiên cứu về kho dữ liệu ở Việt Nam ............................... 12 1.3. Hướng tiếp cận của luận văn và dự kiến kết quả đạt được ................................. 13 1.3.1. Hướng tiếp cận của luận văn ..................................................................... 13 1.3.2. Dự kiến kết quả đạt được .......................................................................... 13 1.4. Cấu trúc của luận văn ........................................................................................ 13 1.5. Kết luận chương 1 ............................................................................................. 13 Chương 2 - KHO DỮ LIỆU VÀ CÁC VẤN ĐỀ LIÊN QUAN .................................. 14 2.1. Cơ sở lý thuyết .................................................................................................. 14 2.1.1. Một số khái niệm về kho dữ liệu ............................................................... 14 2.1.2. Mô hình dữ liệu sử dụng trong kho ........................................................... 19 2.1.4. Các bước xây dựng kho dữ liệu ................................................................. 21 2.2. Khai phá dữ liệu.................................................................................................. 27 2.2.1. Khái niệm về khai phá dữ liệu ................................................................... 27 2.2.2. Khuynh hướng phát triển của lĩnh vực khai phá dữ liệu ............................ 28 2.3. Giới thiệu bộ công cụ BI trong hệ quản trị cơ sở dữ liệu SQL 2008 .................... 29 2.3.1. Business Intelligence (BI) ......................................................................... 29 2.3.2. Dịch vụ phân tích ...................................................................................... 29 2.3.3. Dịch vụ báo cáo ........................................................................................ 39 2.4. Kết luận chương 2 ............................................................................................... 40 Chương 3 - XÂY DỰNG KHO DỮ LIỆU ĐIỂM CỦA SINH VIÊN ......................... 41 3.1 Hiện trạng dữ liệu và nhu cầu xây dựng kho dữ liệu............................................. 41 3.2. Xây dựng kho dữ liệu điểm của sinh viên............................................................ 42 3.2.1. Thông tin về dữ liệu điểm ......................................................................... 42 3.2.2 Kiến trúc của kho dữ liệu ........................................................................... 46 3.2.3. Các chiều dữ liệu ...................................................................................... 47 3.2.4. Các bước cài đặt vật lý kho dữ liệu ........................................................... 48 3.3. Xây dựng báo cáo từ kho dữ liệu phục vụ quản lý ............................................... 49 3.3.1. Yêu cầu báo cáo ........................................................................................ 49 3.3.2. Lợi ích của báo cáo trong BI ..................................................................... 49
  5. - 5- 3.3.3. Xây dựng báo cáo và đưa ra kết quả .......................................................... 50 3.3.4. Tính ưu việt của báo cáo xây dựng từ kho dữ liệu ..................................... 55 3.4. Kết luận chương 3 ............................................................................................... 56 Chương 4 - KHAI THÁC DỮ LIỆU TỪ KHO DỮ LIỆU .......................................... 57 4.1. Ứng dụng kỹ thuật KPDL để dự báo, dự đoán ..................................................... 57 4.1.1. Yêu cầu dự báo, dự đoán xu thế ................................................................ 57 4.1.2. Ưu điểm của một số thuật toán khai phá trong BI...................................... 58 4.2. Xây dựng mô hình dự báo dựa trên Data Mining Tool ........................................ 58 4.2.1. Khảo sát dự đoán kết quả học tập của sinh viên ........................................ 58 4.2.2. Phân tích kết quả đạt được ........................................................................ 63 4.3. Kết luận chương 4 ............................................................................................... 63 KẾT LUẬN – HƯỚNG PHÁT TRIỂN...................................................................... 64 Các mục tiêu đã thực hiện trong luận văn ................................................................... 64 Hướng phát triển ........................................................................................................ 64 TÀI LIỆU THAM KHẢO.......................................................................................... 65
  6. - 6- BẢNG CÁC CHỮ VIẾT TẮT Viết tắt Tên đầy đủ BI Business Intelligence CSDL Cơ sở dữ liệu CNTT Công nghệ thông tin HSSV Học sinh - sinh viên HOLAP Hybrid Online Analytical Processing KPDL Khai phá dữ liệu MOLAP Multidimensional Online Analytical Processing OLAP Online Analytical Processing ROLAP Relational - Online Analytical Processing SQL Structured Query Language SPKT Sư phạm Kỹ thuật T - SQL Transact - Structured Query Language
  7. - 7- DANH MỤC HÌNH VẼ VÀ BẢNG BIỂU Hình 2.1 - Dòng dữ liệu trong kho dữ liệu................................................................. 15 Hình 2.2 – Sơ đồ hình sao .......................................................................................... 17 Hình 2.3 – Sơ đồ bông tuyết ...................................................................................... 19 Hình 2.4 - Kiến trúc 3 tầng hệ thống kho dữ liệu........................................................ 20 Hình 2.5 – Ví dụ về mô hình dữ liệu 3 chiều .............................................................. 24 Hình 2.6 – Mô tả chi tiết các bước của quá trình khám phá tri thức ............................ 28 Hình 2.7 - Cấu trúc của dịch vụ phân tích .................................................................. 30 Hình 2.8 – Các thành phần của BI................................................................................ 1 Hình 2.9 - Ví dụ dữ liệu đầu vào phân tích thuật toán Cây quyết định ........................ 33 Hình 2.10 – Entrophy cho thuộc tính “Quê quán” ...................................................... 33 Hình 2.11 – Entrophy cho thuộc tính “Điểm vào” ...................................................... 34 Hình 2.12 – Entrophy cho thuộc tính “Kinh tế”.......................................................... 34 Hình 2.13 – Entrophy cho thuộc tính “Giới tính” ....................................................... 34 Hình 2.14 - Chọn nút phân nhánh của cây.................................................................... 1 Hình 2.15 – Bảng dữ liệu đầu vào con ....................................................................... 35 Hình 2.16 – Entrophy cho thuộc tính “Điểm vào” ...................................................... 35 Hình 2.17 – Entrophy cho thuộc tính “Kinh tế”.......................................................... 35 Hình 2.18 – Entrophy cho thuộc tính “giới tính” ........................................................ 35 Hình 2.19 - Cây quyết định kết quả .............................................................................. 1 Hình 2.20 – Tính xác suất cho các thuộc tính ............................................................. 37 Hình 3.1 - Bảng tổng hợp kết quả học tập của một lớp ............................................... 43 Hình 3.2 - Lược đồ thực thể - mối quan hệ của CSDL điểm sinh viên ........................ 43 Hình 3.3 - Lược đồ CSDL điểm sinh viên dưới dạng quan hệ .................................... 44 Hình 3.4 - Bảng các dữ liệu liên quan đến kho dữ liệu về điểm .................................. 45 Hình 3.5 - Chuẩn hóa, tối ưu dữ liệu làm nguồn cho kho dữ liệu điểm ....................... 46 Hình 3.6 – Nguồn của kho dữ liệu về điểm ................................................................ 47 Hình 3.7 – Các chiều của khối DiemSV-20-4 ............................................................ 48 Hình 3.8 – Kho dữ liệu về điểm của sinh viên ............................................................ 49 Hình 3.9 - Cửa sổ tạo Report Server Project............................................................... 50 Hình 3.10- Cửa sổ thiết lập kết nối............................................................................. 51 Hình 3.11- Cửa sổ tạo Report Server Project.............................................................. 51 Hình 3.12 – Hiển thị kết quả của báo cáo thông thường dạng bảng ............................ 52 Hình 3.13- Báo cáo lực học của sinh viên thuộc mỗi khóa học dạng cột .................... 52 Hình 3.14 – Báo cáo thống kê số lượng về giới tính dạng thanh ................................. 53 Hình 3.15 – Báo cáo điểm vào trung bình của sinh viên dạng hình dáng. ................... 54 Hình 3.16 – Theo dõi điểm toán của sinh viên khóa k03 dạng Line............................ 54 Hình 3.17 – Theo dõi điểm tổng kết của sinh viên khóa k03 dạng Line ...................... 54 Hình 3.18 – Học lực của sinh viên theo kỳ học .......................................................... 55
  8. - 8- Hình 4.1 – Cấu trúc mô hình dùng cho các thuật toán: Decision Tree, Naïve Bayes, Neural Network .................................................................................................. 58 Hình 4.2 – Mô hình khai phá cho 3 thuật toán............................................................ 59 Hình 4.3 – Cây phân nhánh khi dùng thuật toán Decision Tree .................................. 59 Hình 4.4 – Cây không phân nhánh khi dùng thuật toán cây quyết định ...................... 59 Hình 4.5 – Mạng phụ thuộc khi dùng thuật toán Decision Tree .................................. 59 Hình 4.6 – Mạng phụ thuộc khi dùng thuật toán Naïve Bayes .................................... 60 Hình 4.7 – Đặc điểm của các thuộc tính khi dùng thuật toán Naïve Bayes ................. 60 Hình 4.8 – Đặc trưng của thuộc tính học lực là khá khi dùng thuật toán Naïve Bayes 60 Hình 4.9 – Biểu đồ dự báo về học lực trung bình của sinh viên khi dùng 3 thuật toán 61 Hình 4.10 – Ma trận phân lớp khi dùng ba thuật toán ................................................. 61 Hình 4.11 – Xây dựng mô hình dự đoán cho thuật toán Naïve Bayes ......................... 62 Hình 4.12 – Kết quả dự đoán khi dùng thuật toán Naïve Bayes .................................. 62
  9. - 9- LỜI CẢM ƠN Trước tiên tôi xin được bày tỏ sự trân trọng và lòng biết ơn sâu sắc đối với TS. Nguyễn Hà Nam - Phó phòng đào tạo - giảng viên Bộ môn Hệ thống thông tin - Khoa Công nghệ thông tin - Trường Đại học Công nghệ - ĐHQGHN. Trong thời gian học và làm luận văn tốt nghiệp, Thầy đã dành nhiều thời gian qúi báu và tận tình chỉ bảo, hướng dẫn tôi trong việc nghiên cứu, thực hiện luận văn. Trong thời gian làm việc với Thầy, tôi không những học hỏi được nhiều kiến thức bổ ích mà còn học được tinh thần làm việc, thái độ nghiên cứu khoa học nghiêm túc của Thầy. Tôi xin được cảm ơn PGS.TS Hà Quang Thụy và các Thầy/Cô ở Khoa Công nghệ thông tin – Trường Đại học Công nghệ đã giảng dạy chúng tôi trong quá trình học tập và góp ý cho tôi hoàn thiện trong quá trình làm luận văn. Tôi cũng xin được cảm ơn PGS.TS Nguyễn Quang Hoan đang công tác tại khoa Công nghệ thông tin – Trường đại học SPKT Hưng yên đã tận tình góp ý cho luận văn của tôi. Các thầy đã giúp tôi tiếp thu được những kiến thức bổ ích trong lĩnh vực mà mình nghiên cứu để có thể vận dụng các kiến thức đó vào trong trường - nơi tôi đang làm việc. Xin cảm ơn các bạn bè, đồng nghiệp và đặc biệt là các thành viên trong gia đình đã tạo mọi điều kiện tốt nhất, động viên tôi trong suốt quá trình học tập và nghiên cứu để hoàn thành tốt bản luận văn tốt nghiệp này. Mặc dù đã cố gắng hoàn thiện luận văn với tất cả sự nỗ lực của bản thân, nhưng chắc chắn không thể tránh khỏi những thiếu sót. Kính mong quý Thầy/Cô tận tình chỉ bảo. Tác giả
  10. -10- LỜI MỞ ĐẦU Trong nhiều năm gần đây, CNTT đã được ứng dụng rất rộng rãi trong nhiều lĩnh vực khác nhau như kinh doanh, giáo dục, nông nghiệp, y học…Trong lĩnh vực giáo dục, phần lớn các trường đã xây dựng được CSDL sinh viên để lưu trữ hồ sơ lý lịch, quá trình học tập, rèn luyện của HSSV. Trên CSDL đó đã có nhiều nghiên cứu, đánh giá về kết quả thi tuyển sinh, kết quả học tập, rèn luyện của HSSV nhưng mới chỉ dừng lại ở mức độ đơn giản, việc sinh ra các báo báo vẫn hoàn toàn thực hiện một các thủ công, thống kê kết quả học tập của HSSV mới chỉ thực hiện ở phần mềm excel tốn rất nhiều công sức nhưng chưa có nhiều nghiên cứu về sự ảnh hưởng giữa kết quả tuyển sinh, kết quả của từng môn học, giới tính… với kết quả học tập của HSSV.Thông qua đó dự báo, dự đoán kết quả học tập của HSSV. Nhằm góp phần trợ giúp các nhà quản lý có những quyết định nhanh, phù hợp để phát huy cái mới tích cực, hạn chế, ngăn chặn những sai sót trong công tác quản lý đào tạo. Do đó, việc nghiên cứu vấn đề nêu trên có vai trò rất quan trọng. Trường Đại học SPKT Hưng Yên nằm trong hệ thống các trường đại học thuộc GD&ĐT, đào tạo nhiều ngành nghề với nhiều hình thức đào tạo và nhiều hệ đào tạo khác nhau. Trường được phát triển trên cơ sở từ trường Cao đẳng SPKT Hưng Yên với bề dày hơn 35 năm. Kết quả học tập của HSSV là cơ sở để phòng Đào tạo phối hợp với các phòng, ban, khoa tổ chức năng đánh giá chất lượng người dạy và người học, báo cáo trình bộ giáo dục, từ đó trợ giúp cho Ban Giám hiệu nhà trường về định hướng đào tạo, kế hoạch chuyên môn, chỉ tiêu tuyển sinh các khóa tiếp theo…Hai năm gần đây, bộ giáo dục đã triển khai cho nhiều trường đại học sử dụng đồng bộ nhiều phần mềm cho công tác đào tạo như Edusoft: lập thời khóa biểu, quản lý hồ sơ sinh viên, quản lý điểm,…bước đầu đã thống nhất được các biểu mẫu, bảng điểm. Bên cạnh, trường cũng đã có nhiều phần mềm tiện ích khác: Quản lý vật tư, quản lý thực tập của sinh viên…Tuy nhiên những phần mềm này vẫn chưa giải quyết được câu trả lời về sự ảnh hưởng giữa kết quả tuyển sinh, kết quả của từng môn học, giới tính… với kết quả học tập của HSSV. Đây là một nhiệm vụ quan trọng trong công tác quản lý đào tạo, thu hút nhân tài. Hơn nữa, lượng HSSV thi vào trường ngày một đông, trường có 3 cơ sở với tổng diện tích sàn trên 30 ha, đây là thuận lợi và cũng là vấn đề lo lắng của trường trong việc lưu trữ dữ liệu, sinh ra các báo cáo nhiều chiều và đưa ra chiến lược đào tạo hàng năm. Do đó, đòi hỏi phải có nghiên cứu về vấn đề này để cải thiện tình hình quản lý đào tạo của trường cũng như giúp cho trường ngày một phát triển và thích ứng với trào lưu tin học hóa, và ngang tầm với các trường có bề dày lịch sử trong nước và quốc tế. Xuất phát từ vấn đề trên, chúng tôi thực hiện đề tài luận văn “Nghiên cứu, khai thác kho dữ liệu điểm tại trường Đại học SPKT Hưng Yên dựa trên bộ công cụ BI của Hệ quản trị CSDL SQL Server 2008”. Với mong muốn góp phần trợ giúp, ra quyết định cho công tác quản lý đào tạo của trường Đại học SPKT Hưng Yên nói riêng và các trường chuyên nghiệp nói chung.
  11. -11- Chương 1 - GIỚI THIỆU 1.1. Nhu cầu xây dựng kho dữ liệu về điểm. 1.1.1. Nhu cầu xây dựng kho dữ liệu về điểm của Đại học SPKT Hưng Yên: Theo báo cáo kế hoạch năm 2011 và 5 năm 2011- 2015, Về tốc độ tăng trưởng quy mô học sinh, sinh viên 5 năm 2006 – 2010, dựa trên kế hoạch tuyển sinh bộ GD&ĐT giao hàng năm, nhà trường đã thực hiện tuyển sinh các trình độ, loại hình đào tạo đảm bảo chi tiêu chất lượng, tỷ lệ bình quân các năm tăng ~16,5 %, quy mô học sinh sinh viên tăng nhanh vào những năm cuối của kế hoạch 5 năm 2006-2010. Trong 5 năm qua Nhà trường đã xin phép để mở mới được 06 ngành đào tạo ở trình độ đại học: Công nghệ Cơ điện tử, Công nghệ kỹ thuật hóa học, Công nghệ kỹ thuật môi trường, Kế toán, Tiếng Anh và Công nghệ cơ điện. Xây dựng và thực hiện đào tạo nhiều chuyên ngành mới đưa tổng số chuyên ngành đào tạo của trường lên là 29, Tính đến tháng 6/2010 tổng số CBVC của trường là hơn 600. Trường còn mở thêm nhiều ngành mới ở trình độ đại học: Công nghệ vật liệu, Tài chính – Ngân hàng, Tiếng Trung Quốc, Hàn Quốc. Quy mô đào tạo: tăng nhanh cả về số lượng lẫn chất lượng, năm 2010 số lượng sinh viên trên toàn trường là hơn 16000 sinh viên, dự kiến năm 2011, số lượng sinh viên sẽ tăng lên gần 18000 sinh viên với tất cả các hệ đào tạo và ngành nghề khác nhau trong toàn trường. - Đầu tư trang thiết bị: Trong giai đoạn 2011-2015 tập trung các nguồn vốn: Ngân sách Nhà nước, vốn hợp pháp của Trường và các nguồn vốn khác đầu tư từ 25 tỷ35 tỷ mua sắm trang thiết bị phục vụ đào tạo cho các khoa: Công nghệ thông tin, Công nghệ Hoá học và Môi trường, Kinh tế, May và Thiết kế thời trang, Cơ khí, cơ khí động lực, Cơ điện tử, Điện - Điện tử, Sư phạm kỹ thuật và đặc biệt ngành Công nghệ vật liệu. Tính trung bình, số lượng máy tính sử dụng tốt trong toàn trường là hơn 600 máy tính. Tuy nhiên, số máy tính này vẫn khai thác chưa triệt để, chủ yếu vẫn là phục vụ cho công tác dạy học, soạn thảo văn bản đơn giản, chưa lưu trữ các phần mềm quản lý, các tiện ích. Hiện tại, việc lưu trữ dữ liệu về sinh viên mới chỉ ở mức đơn giản trên excel, các mẫu biểu giữa các khoa chưa được thống nhất dẫn đến việc tổng hợp và báo cáo chưa được thuận lợi và chính xác. Để khắc phục nhược điểm này, nhà trường đã có chiến lược chuẩn bị cho việc tổ chức và lưu trữ dữ liệu được tốt, bằng các quy định về các mẫu biểu, thống nhất các quy trình, bước đầu, đã triển khai các phần mềm xếp thời khóa biểu, quản lý sinh viên, quản lý điểm sinh viên. Nên việc quản lý, lưu trữ các thông tin có nhiều bất cập, nguy cơ thất lạc và mất mát cao dẫn đến việc xử lý các thông tin liên quan gặp nhiều khó khăn. Như vậy, với sự phát triển nhanh chóng về số lượng sinh viên qua các năm, một vấn đề quan tâm là việc lưu trữ dữ liệu về chương trình đào tạo, thời khóa biểu, thông tin sinh viên và các thông tin về điểm của sinh viên để việc tìm kiếm nhanh và có hiệu quả. Và quan trọng hơn là việc tìm ra những dữ liệu tiềm ẩn qua các năm, định ra
  12. -12- hướng mở rộng và phân bổ số lượng sinh viên hợp lý ở các ngành nghề khác nhau, phục vụ cho việc tổng hợp, báo cáo, dự đoán. Do đó, nhu cầu chuẩn bị xây dựng một kho dữ liệu là cần thiết và cấp bách. [5] 1.1.2. Phạm vi dự kiến của luận văn: Trong khuôn khổ giới hạn của luận văn, chúng tôi xin trình bày:  Tìm hiểu cơ sở lý thuyết kho dữ liệu, một số thuật toán KPDL.  Xây dựng kho dữ liệu điểm trường Đại học SPKT Hưng Yên.  Thiết kế báo cáo đa chiều.  Sử dụng một số thuật toán KPDL để giải quyết bài toán dự đoán. 1.2. Một số hướng nghiên cứu về kho dữ liệu trên thế giới và ở tại Việt Nam 1.2.1. Một số hướng nghiên cứu về kho dữ liệu trên Thế giới Về các hướng nghiên cứu kho dữ liệu trên Thế giới thì về cơ bản vẫn là để phục vụ cho mục tiêu xây dựng báo cáo của công ty. Tuy nhiên, mức độ khó dễ có thể khác nhau, do đó độ phức tạp của kho dữ liệu cũng khác nhau. Một số nơi có thế có các ứng dụng cao cấp hơn chẳng hạn KPDL hoặc tích hợp hệ thống. Ngày nay, thế giới đang quan tâm đến: kho dữ liệu thời gian thực, OLAP mining, mobile OLAP, thông qua những bài toán khai phá dữ liệu: phân lớp, gom cụm, dự báo để để tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu lớn. Những công cụ khai phá dữ liệu có thể phát hiện những xu hướng trong tương lai, các tri thức mà khai phá dữ liệu mang lại cho các doanh nghiệp có thể ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây tốn nhiều thời gian để xử lý [18]. 1.2.2. Một số hướng nghiên cứu về kho dữ liệu ở Việt Nam Ở Việt nam đa phần cũng là xây dựng các báo cáo. [11] Khai phá dữ liệu trong kho dữ liệu ở môi trường kinh doanh đầy tính cạnh tranh ngày nay và được ứng dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễn thông,…[6] Hệ hỗ trợ quyết định - Đây có thể nói là mục tiêu quan trọng nhất của doanh nghiệp khi xây dựng kho dữ liệu. Một doanh nghiệp trước khi xây dựng kho dữ liệu, nên tự đặt câu hỏi liệu kho dữ liệu đó có giúp ích gì trong việc ra quyết định kinh doanh của doanh nghiệp không. [11] Kho dữ liệu nên được xây dựng từ trên yêu cầu nghiệp vụ. Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu. Điều này có được là do sử dụng báo cáo và OLAP. Báo cáo được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong kho dữ liệu tới những người kinh doanh [6]. Thường thì các yêu cầu này liên quan đến việc sử dụng các số liệu tổng hợp, chẳng hạn count, sum, max, min, average... Thường thì người ta sử dụng các số liệu kiểu này để phân tích xu hướng. [11]
  13. - 13- Sacombank là ngân hàng TMCP Việt Nam đầu tiên vừa chính thức công bố triển khai thành công dự án kho dữ liệu– giải pháp kho dữ liệu tập trung hỗ trợ công tác dự báo, phân tích và ra quyết định kinh doanh trong thời gian nhanh nhất được xây dựng dựa trên nền tảng công nghệ Oracle - lần đầu tiên triển khai thành công tại Việt Nam. Điều này là minh chứng cho tầm quan trọng của việc xây dựng một kho dữ liệu trong hiện tại và tương lai với những lợi ích.[12] Nhiều đề tài nghiên cứu khoa học, luận văn, …đã và đang được tiến hành về kho dữ liệu. 1.3. Hướng tiếp cận của luận văn và dự kiến kết quả đạt được 1.3.1. Hướng tiếp cận của luận văn  Luận văn trình bày về vấn đề xây dựng kho dữ liệu về điểm và khai khác dữ liệu từ kho dữ liệu đã xây dựng. 1.3.2. Dự kiến kết quả đạt được  Hiểu được các kiến thức về kho dữ liệu, KPDL, một số thuật toán KPDL trong bộ công cụ BI của hệ quản trị SQL Server 2008.  Xây dựng kho dữ liệu về điểm sinh viên phục vụ một mục tiêu cụ thể.  Thiết kế các báo cáo theo yêu cầu.  Sử dụng một số thuật toán khai phá để dự đoán, ra quyết định nghiệp vụ cho trường sở tại. 1.4. Cấu trúc của luận văn Nội dung chính của luân văn gồm 4 chương, cụ thể như sau: Chương 1 - Giới thiệu Chương này trình bày về nhu cầu xây dựng kho dữ liệu về điểm của sinh viên, một số hướng nghiên cứu của kho dữ liệu, mô tả ngắn gọn hướng nghiên cứu của luận văn. Chương 2 - Kho dữ liệu và các vấn đề liên quan Chương này trình bày cơ sở lý thuyết về kho dữ liệu, khai phá dữ liệu, giới thiệu bộ công cụ sử dụng để làm thực nghiệm. Chương 3 - Xây dựng kho dữ liệu về điểm của sinh viên Chương này trình bày về việc xây dựng kho dữ liệu về điểm của trường Đại học SPKT Hưng yên, thiết kế báo cáo đa chiều phục vụ cho việc ra quyết định. Chương 4 - Khai thác dữ liệu từ kho dữ liệu Chương này trình bày ứng dụng của một số thuật toán khai phá dữ liệu trong kho dữ liệu điểm của bộ công cụ BI. 1.5. Kết luận chương 1 Chương này trình bày:  Nhu cầu xây dựng kho dữ liệu điểm của Trường Đại học SPKT Hưng Yên.  Một số hướng nghiên cứu kho dữ liệu ở Việt Nam và trên thế giới.  Hướng tiếp cận của luận văn và dự kiến kết quả đạt được.  Cấu trúc luận văn.
  14. -14- Chương 2 - KHO DỮ LIỆU VÀ CÁC VẤN ĐỀ LIÊN QUAN 2.1. Cơ sở lý thuyết 2.1.1. Một số khái niệm về kho dữ liệu  Khái niệm kho dữ liệu Theo William Inmon [1], kho dữ liệu là một bộ dữ liệu có các đặc tính: hướng chủ đề, có tính tích hợp, ổn định, dữ liệu gắn với thời gian thường được sử dụng trong các hệ thống hỗ trợ quyết định. Kho dữ liệu thường bao gồm:  Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác nhau.  Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập các bảng dữ liệu. Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau:  Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các dữ liệu từ các ứng dụng khác nhau.  Hỗ trợ cho một số người dùng có liên quan, có sử dụng tới các thông tin liên quan.  Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thông tin.  Chứa các dữ liệu trong lịch sử và hiện tại nhằm cung cấp các xu h ướng thông tin.  Chứa các bảng dữ liệu có kích thước lớn.  Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng và các liên kết nhiều bảng.  Các đặc tính của kho dữ liệu  Hướng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm Gigabyte, được tổ chức theo những chủ đề chính. Kho dữ liệu không chú trọng vào giao tác và việc xử lý giao tác. Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân tích dữ liệu nhằm hỗ trợ cho nhà quản lý ra quyết định. Do đó, các kho dữ liệu thường cung cấp một khung nhìn tương đối đơn giản bằng cách loại bớt những dữ liệu không cần thiết trong quá trình ra quyết định.  Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu từ nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi giao tác trực tuyến hoặc thậm chí là từ những file dữ liệu độc lập. Những dữ liệu này tiếp tục được làm sạch, chuẩn hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu.
  15. -15-  Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi, chủ yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao. Hai thao tác chủ yếu tác động tới kho dữ liệu là: nhập dữ liệu vào và truy xuất.  Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ liệu của hệ thống trong khoảng thời gian dài, cung cấp đủ số liệu cho các mô hình nghiệp vụ, dự báo, khảo sát những chỉ tiêu cần quan tâm.  Dòng dữ liệu trong kho dữ liệu [3] Do kho dữ liệu chứa lượng dữ liệu lớn, đồng thời hạn chế thao tác sửa đổi nên rất thích hợp cho việc phân tích dài hạn và báo cáo. Các thao tác với dữ liệu của kho dữ liệu chủ yếu dựa trên cơ sở là Mô hình dữ liệu đa chiều, thường áp dụng cho các khối dữ liệu. Khối dữ liệu là trung tâm của vấn đề cần phân tích, bao gồm một hay nhiều tập sự kiện và các sự kiện được tạo ra từ nhiều chiều dữ liệu khác nhau. Hình 2.1 - Dòng dữ liệu trong kho dữ liệu. Đầu tiên dữ liệu được lấy trong các hệ cơ sở dữ liệu tác nghiệp, có thể ở nhiều dạng khác nhau, dữ liệu được làm sạch, chuẩn hóa rồi đưa vào kho dữ liệu, cuối cùng dữ liệu được lấy từ kho dữ liệu phục vụ cho các phân tích khác nhau.  Ứng dụng của kho dữ liệu [1] Kho dữ liệu được đưa vào ba mảng ứng dụng chính. Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo. Nhờ việc dữ liệu thô đã được chuyển sang thành các dữ liệu ổn định, có chất lượng nên kho dữ liệu đã giúp nâng cao kỹ thuật biểu diễn thông tin truyền thống. Với cách thứ hai, các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngôn ngữ SQL và các công cụ xây dựng báo cáo truyền thống chỉ có thể mô tả những gì có
  16. -16- trong cơ sở dữ liệu thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai. Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra được các giả thuyết. Ngoài ra, sử dụng OLAP còn giúp phân tích tổng hợp dữ liệu, đưa ra kết quả bằng các báo cáo hoặc bảng biểu trực quan. Cách thứ ba để khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá dữ liệu. Đây là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học cũng như yêu cầu trong thực tiễn. Các kết quả thu được mang nhiều tính dự báo, dự đoán, dùng trong việc xây dựng kế hoạch, chiến lược.  Các lĩnh vực hiện tại áp dụng kho dữ liệu:  Thương mại điện tử.  Kế hoạch hoá nguồn lực doanh nghiệp.  Quản lý quan hệ khách hàng.  Chăm sóc sức khỏe.  Viễn thông. 2.1.2. Mô hình dữ liệu sử dụng trong kho Mô hình kho dữ liệu được phát sinh từ một mô hình dữ liệu tổng thể. Một mô hình dữ liệu này là một bức tranh tổng thể mà các mô hình khác có thể hoạt động trên đó. Nó được tổ chức thành các vùng theo chủ điểm, dịch vụ phân tích là phần chính của sự chia nhỏ các công việc cần được quan tâm đáp ứng nhu cầu người sử dụng. Nếu một tổ chức không có sẵn mô hình dữ liệu tổng thể thích hợp, mô hình dữ liệu tổng thể cũ được phép dùng tiếp và bổ sung các dịch vụ phân tích mới. Một số công ty bắt đầu với một mô hình được chuẩn hóa đầy đủ cho kho dữ liệu của họ sau đó ứng dụng kĩ thuật mô hình kho dữ liệu. Một vấn đề nổi cộm trong việc thiết lập mô hình dữ liệu là không có câu trả lời đúng cho mọi tình huống. Mô hình dữ liệu kho dữ liệu có tính chủ đề, phụ thuộc vào công việc nghiệp vụ và các vấn đề nảy sinh.  Mô hình dữ liệu của kho dữ liệu có thể thiết lập theo:  Sơ đồ hình sao.  Sơ đồ tuyết rơi.  Sơ đồ kết hợp.  Lược đồ dữ liệu hình sao: Sơ đồ hình sao được đưa ra lần đầu tiên bởi Dr. Ralph Kimball [1] như là một lựa chọn thiết kế cơ sở dữ liệu cho kho dữ liệu. Nó được gọi là sơ đồ hình sao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm vi liên quan, rất giống với các điểm của một ngôi sao. Sơ đồ hình sao cho phép một hệ thống đối tượng có thể kết nối với nhiều đối tượng khác. Mô hình này thể hiện cách nhìn của người sử dụng về nhiều vấn đề trong tác nghiệp. Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu:
  17. -17-  Các sự kiện được tổ chức thành bảng sự kiện  Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng chiều. - Bảng sự kiện chứa các thông tin cơ sở ở mức giao tác ở trong nghiệp vụ mà các ứng dụng cần thiết. Ví dụ, khi phân tích dữ liệu về học lực của sinh viên thì cần những dữ liệu về điểm các kỳ của sinh viên như về Điểm môn, v.v.. Những dữ liệu này đều được lưu ở bảng sự kiện của kho dữ liệu. Tuy nhiên, trước khi các dữ liệu này được đưa vào kho dữ liệu thì cần phải chọn một trường dữ liệu nào đó thường sử dụng trong các chiều phân tích để tham chiếu và sau đó đưa vào bảng các chiều. Các sự kiện là các đại lượng số của công việc. Các bảng sự kiện thường rất lớn, chứa hàng triệu dòng mà phần lớn là số. - Bảng chiều, ngược lại, thường là tương đối nhỏ so với các bảng sự kiện, chứa các thông tin mô tả. Đó là các bộ lọc hoặc các ràng buộc của những sự kiện ở bảng sự kiện. Bảng chiều chứa các dữ liệu cần thiết cho việc thực hiện các giao tác nghiệp vụ theo một chiều, hay phạm vi nào đó. Ví dụ, trong ứng dụng phân tích kết quả học tập của sinh viên, bảng chiều bao gồm: thời gian, sinh viên, môn học, v.v. Hình 2.2 mô tả về một ví dụ sơ đồ hình sao. Trong sơ đồ hình sao này có ba quan hệ một-nhiều liên kết giữa các dòng trong bảng chiều với các dòng trong bảng sự kiện. Hình 2.2 – Sơ đồ hình sao Ưu điểm của sơ đồ hình sao - Hỗ trợ rất đa dạng các câu truy vấn và xử lý khá hiệu quả những câu truy vấn đó. Ví dụ, khi phân tích dữ liệu ở hình 2.2, chiều thời gian có thể thực hiện khá hiệu quả mà không cần sắp xếp lại dữ liệu trong bảng các sự kiện. - Phù hợp với cách mà người sử dụng nhận và sử dụng dữ liệu và qua đó làm cho dữ liệu được hiểu trực quan hơn. - Nguyên lý cơ bản của sơ đồ hình sao là một dạng dư thừa dữ liệu nhằm cải thiện sự thực hiện các truy vấn. Với sơ đồ hình sao, người thiết kế có thể dễ dàng mô phỏng những chức năng của cơ sở dữ liệu đa chiều. Sự phi chuẩn hóa có thể coi là sự tiền kết nối các bảng để cho các ứng dụng không phải thực hiện công việc kết nối, làm giảm thời gian thực hiện.
  18. -18- - Dễ dàng nhận thấy, sơ đồ hình sao được thiết kế là để khắc phục những hạn chế của mô hình quan hệ hai chiều. Với cơ sở dữ liệu được thiết kế theo sơ đồ hình sao, những truy vấn với những câu hỏi phức tạp liên quan tới nhiều bảng và số liệu trở nên đơn giản hơn và số lượng công việc cần thực hiện để đưa được ra câu trả lời là ít nhất so với một mô hình quan hệ chuẩn. Sơ đồ hình sao cải thiện đáng kể thời gian truy vấn và cho phép thực hiện một số tính năng đa phạm vi. Sơ đồ này rất trực quan, dễ sử dụng, thể hiện khung nhìn đa chiều của dữ liệu dùng ngữ nghĩa của cơ sở dữ liệu quan hệ. Khóa của bảng sự kiện được tạo bởi những khóa của các bảng chứa thông tin theo từng phạm vi. Tất cả các khóa đều được xác định với cùng một chuẩn đặt tên. - Những bảng chiều có chứa khóa của các bảng chiều, có thể là với tên khác đi để đảm bảo tính duy nhất của mỗi hàng. Các bảng chiều thường có định danh duy nhất và chứa đựng những thông tin về chiều của bảng đó. Số lượng các bảng chiều của mỗi bảng sự kiện là từ 3 đến 5. - Vì bảng sự kiện được tổng hợp từ trước và được kết hợp theo nhiều chiều nên xu hướng có rất nhiều hàng và tăng trưởng một cách nhanh chóng trong khi đó các bảng chiều không có nhiều hàng và sự tăng trưởng là tĩnh. Bảng sự kiện có thể bao gồm hàng triệu hàng. Bảng chiều chứa đựng các thuộc tính có thể được sử dụng như các tiêu chí tìm kiếm và thường có kích thước nhỏ hơn nhiều, rất quen thuộc với người sử dụng từ trước. Khoá của nó không là khoá ghép như bảng sự kiện. Nếu một bảng chiều bắt đầu có sự tương đồng với các bảng sự kiện thì có thể nó cần được chia ra thành các bảng sự kiện. Nếu một bảng chiều được chia ra thành chiều chính và chiều phụ thì cấu trúc thu được của kết quả được coi là một sơ đồ tuyết rơi hoặc một cấu trúc hình sao mở rộng. - Một sơ đồ hình sao đơn giản chỉ gồm một bảng sự kiện và một vài bảng chiều. Một sơ đồ hình sao phức tạp bao gồm hàng trăm bảng sự kiện và bảng chiều. Lưu ý: Bảng sự kiện và các bảng chiều đều không bắt buộc ở dạng chuẩn như đối với phương pháp thiết kế truyền thống tức là có dư thừa dữ liệu. Với loại sơ đồ này cho phép lưu trữ dư thừa dữ liệu đổi lại khả năng truy nhập nhanh hơn phù hợp với những câu hỏi phân tích nhiều chiều, phức tạp. Về bản chất, bảng sự kiện thuộc dạng chuẩn I, với mức độ dư thừa dữ liệu rất lớn.  Lược đồ dữ liệu bông tuyết: Lược đồ này là mở rộng của lược đồ hình sao. Khi một bảng chiều trở lên phức tạp hàm chức các quan hệ dữ liệu thì có thể tách thành nhiều bảng. Các bảng được tách có quan hệ với bảng chiều tạo lên hình dạng tuyết rơi. Công việc này cũng chính là chuẩn hóa dữ liệu cho bảng chiều.
  19. -19- Hình 2.3 – Sơ đồ bông tuyết Tùy theo thực tế mà ta lựa chọn lược đồ hình sao hay hình tuyết rơi. Việc lựa chọn được cân nhắc giữa hai yếu tố: thời gian đáp ứng truy vấn và mức độ kiểm soát tính chặt chẽ dữ liệu. Lược đồ dạng tuyết rơi có thể thích hợp khi dữ liệu bảng chiều trở lên quá lớn và nhiều thuộc tính. Tuy sự khác nhau thể hiện rất rõ về mặt lý thuyết nhưng khi thực hiện chúng trong thực tế có thể dẫn tới các kết quả khác hẳn nhau.  Sơ đồ kết hợp: Là kết hợp giữa sơ đồ hình sao dựa trên bảng sự kiện và những bảng chiều không chuẩn hóa theo các chuẩn 1, 2, 3 và sơ đồ hình tuyết rơi trong đó tất cả các bảng chiều đều đã được chuẩn hóa. Trong sơ đồ loại này chỉ những bảng chiều lớn là được chuẩn hóa còn những bảng khác chứa một khối lượng lớn các cột dữ liệu chưa được chuẩn hóa. 2.1.3. Kiến trúc kho dữ liệu [3], [7]  Các chức năng của kho dữ liệu Như trên đã phân tích, kiến trúc ba tầng là thích hợp đối kho dữ liệu, nó phản ánh được mối liên hệ giữa các dữ liệu và phù hợp với các yêu cầu của người sử dụng. Liên quan đến các thành phần của kiến trúc trên là các chức năng:  Xây dựng dữ liệu cho kho dữ liệu nghiệp vụ: Thu thập dữ liệu từ các hệ thống tác nghiệp.  Xây dựng dữ liệu kho thông tin tác nghiệp: Thu thập dữ liệu từ các kho dữ liệu nghiệp vụ.  Xây dựng dữ liệu cho danh mục kho dữ liệu: là sự lưu trữ vật lý tất cả các siêu dữ liệu sử dụng và điều khiển trong kho dữ liệu, được phân chia và phân tán giữa các kho dữ liệu tác nghiệp và nhiều kho thông tin tác nghiệp.Thu thập dữ liệu từ các siêu dữ liệu khi xây dựng kho dữ liệu.
  20. -20-  Các chức năng quản trị hệ thống kho dữ liệu: lưu trữ, xử lý, truy cập, truyền tin,… Ba chức năng đầu làm nhiệm vụ tập hợp dữ liệu cho kho dữ liệu theo kiến trúc ba tầng. Chức năng thứ tư cung cấp các dịch vụ và sự tiện dụng cho người sử dụng nhằm khai thác, xử lý, khai thác dữ liệu nhằm đáp ứng mọi yêu cầu về thông tin hàng ngày của con người.  Người sử dụng có thể sử dụng dữ liệu và siêu dữ liệu theo nhiều cách khác nhau. Dữ liệu có thể được thăm dò và phân tích để có được những kết quả theo yêu cầu, còn siêu dữ liệu chỉ thăm dò mà không phân tích được, nó chỉ giúp chúng ta hiểu về dữ liệu mà thôi.  Kiến trúc nhà kho dữ liệu Hình 2.4 - Kiến trúc 3 tầng hệ thống kho dữ liệu. Hệ thống kho dữ liệu thường bao gồm 3 tầng như trong hình 2.4: Tầng đáy: Là nơi lấy dữ liệu từ nhiều nguồn khác nhau sau đó làm sạch, chuẩn hóa, lưu trữ tập trung. Tầng giữa: thực hiện các thao tác với kho dữ liệu thông qua dịch vụ OLAP (OLAP server). Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả hai mô hình trên thành mô hình Hybrid OLAP. Tầng trên: thực hiện việc truy vấn, khai phá thông tin.
nguon tai.lieu . vn