Xem mẫu

  1. HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- Nguyễn Thị Minh Huệ ĐỀ TÀI : NGHIÊN CỨU KHO DỮ LIỆU CHUYÊN ĐỀ VÀ ỨNG DỤNG TRONG VIỆC TRÍCH RÚT THÔNG TIN QUẢN LÝ ÁN HÌNH SỰ TẠI VIỆN KIỂM SÁT NHÂN DÂN TỐI CAO Chuyên ngành: Khoa học máy tính MÃ Số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI – 2012
  2. Luậnvănđượchoànthànhtại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG Ngườihướngdẫnkhoahọc: PGS.TS Đỗ Trung Tuấn Phảnbiện 1: …………………………………………………………………………… …………………………………………………………………………… …………………………………………………………………………… Phảnbiện 2: ………………………………………………………………………….. …………………………………………………………………………… …………………………………………………………………………… LuậnvănsẽđượcbảovệtrướcHộiđồngchấmluậnvănthạcsĩtạiHọcviệnCôngnghệBưuchín hViễnthông Vàolúc: .......giờ ....... ngày ....... tháng ....... .. năm ............... Cóthểtìmhiểuluậnvăntại: - ThưviệncủaHọcviệnCôngnghệBưuchínhViễnthông
  3. 1 MỞ ĐẦU Yêu cầu có được thông tin nhanh chóng, chính xác phục vụ cho công việc không dễ gì có được bởi vì dữ liệu ngày một nhiều, lưu trữ phân tán ở nhiều nơi (phù hợp với tổ chức phân cấp của các đơn vị), ở nhiều dạng không tương thích với nhau, thậm chí còn ở những dạng phi cấu trúc. Nhiều hệ thống thông tin đã được xây dựng không tương thích với nhau và không tương thích với những hệ thông tin mới được xây dựng. Đến nay, phương pháp xây dựng kho dữ liệu (Data Warehouse) đã phát triển cả về lý thuyết cũng như thực tế. Bên cạnh đó các nhà cung cấp phần mềm cũng đưa ra các công cụ để xây dựng, duy trì phát triển kho dữ liệu. Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh chóng của thế giới, những nhà ra quyết định xác định rõ cần phải có một thế hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ trợ họ trong việc trích xuất các thông tin hữu ích được nhúng bên trong các dữ liệu thu thập và tích luỹ. Do đó việc nghiên cứu về Kho dữ liệu chuyên đề và xem xét khả năng ứng dụng trong việc xử lý dữ liệu là cần thiết. Hệ thống cơ quan Viện kiểm sát hiện nay được tổ chức theo cấp hành chính do đó Viện kiểm sát nhân dân các cấp cũng được trang bị hệ thống các ứng dụng nghiệp vụ trong toàn ngành. Việc tập hợp và quản trị các dữ liệu trên phạm vi toàn ngành để cung cấp cho quá trình “phân tích, đánh giá, kiểm tra, giám sát, hỗ trợ ra quyết định” tình hình tội phạm trong từng giai đoạn là rất cần thiết. Đề tài này nghiên cứu về lý thuyết, nắm chắc phương pháp luận và đưa ra phần thử nghiệm về trích rút thông tin theo yêu cầu của bài toán cụ thể. Luận văn bao gồm ba phần:  Chương I, giới thiệu chung về kho dữ liệu.  Chương II, cấu trúc kho dữ liệu và mô hình dữ liệu.  Chương III, ứng dụng trong việc trích rút thông tin quản lý án hình sự tại Viện kiểm sát nhân dân tối cao.
  4. 2 CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU Trong chương này, luận văn nêu một số khái niệm cơ bản về kho dữ liệu. 1.1. Về kho dữ liệu Định nghĩa kho dữ liệu: Có nhiều đinh nghĩa kho dữ liệu, nhưng phổ biến nhất là định nghĩa kho dữ liệu của Bill Inmon: "Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mỗi đơn vị dữ liệu đều gắn với một khoảng thời gian cụ thể. Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ quyết định". 1.1.1. Mục đích của kho dữ liệu Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng. Giúp cho tổ chức, xác định, quản lý và điều hành các dự án, các nghiệp vụ một cách hiệu quả và chính xác. Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc của mình như: có những quyết định hợp lý, nhanh, hiệu quả, thu được lợi nhuận cao hơn… 1.1.2.. Các lợi ích của kho dữ liệu Kho dữ liệu là một cơ sở dữ liệu được thiết kế đặc biệt cho các nhu cầu liên quan đến việc hỗ trợ ra quyết định. Từ góc nhìn của người dùng, kho dữ liệu mang lại những lợi ích sau:  Dữ liệu lưu trữ tập trung tại một nơi.  Thông tin luôn được cập nhật.  Truy xuất nhanh.  Không giới hạn kích thước.  Dễ hiểu  Rõ ràng và đồng nhất.  Dữ liệu chuẩn hoá. 1.1.3. Sử dụng kho dữ liệu Kho dữ liệu được sử dụng theo ba cách chính: 1. Theo cách khai thác truyền thống, kho dữ liệu được sử dụng để khai thác các thông tin bằng các công cụ vấn đáp và báo cáo. 2. Các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP). Trong khi ngôn ngữ truy vấn chuẩn SQL và các công cụ làm báo cáo truyền thống chỉ có thể miêu tả những gì có trong CSDL thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai. 3. Người ta đã đưa ra một phương pháp mới đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn, đó chính là công nghệ khai phá dữ liệu (Data Mining). Đây chính là ứng dụng chính thứ ba của kho dữ liệu. 1.2 Đặc điểm dữ liệu trong kho dữ liệu Theo định nghĩa của Bill Inmon Kho dữ liệu có 4 đặc tính cơ bản gồm:
  5. 3 1.2.1. Hướng chủ thể 1.2.2. Tích hợp 1.2.3. Ít thay đổi 1.2.4. Tích thời gian cụ thể 1.2.5. Dữ liệu chi tiết và dữ liệu tổng hợp 1.3 Nguyên lý cơ bản Kiến trúc chung của một kho dữ liệu thường gồm nhiều vùng chứa dữ liệu nhỏ. Những vùng chứa dữ liệu này được phân loại dựa trên cấu trúc bao gồm : Vùng xử lí: Là vùng chứa dữ liệu chuẩn bị cho việc biến đổi dữ liệu thu được từ nguồn trước khi chuyển qua các vùng chứa dữ liệu khác trong kho dữ liệu. Trong các hình vẽ vùng này được viết tắt là “STG” Vùng chứa dữ liệu dạng chuẩn hoá: Là vùng chứa dữ liệu trung gian sau khi đã được biến đổi và tích hợp từ nhiều nguồn khác nhau. Trong vùng này, dữ liệu được lưu trữ ở dạng chuẩn cao, thường là dạng chuẩn 3. Dữ liệu trong vùng này đã sẵn sàng được nạp vào vùng kho dữ liệu đầu cuối mà không cần nhiều biến đổi phức tạp. Trong các hình vẽ vùng này được viết tắt là “NDS” Vùng chứa dữ liệu hoạt động: Là vùng chứa dữ liệu dạng lai giữa vùng dữ liệu chuẩn hoá và cơ sở dữ liệu hoạt động. Mục đích của nó ngoài việc hỗ trợ cho việc nạp dữ liệu vào kho dữ liệu đầu cuối, còn được dùng như là cơ sở dữ liệu hoạt động tập trung. Kho dữ liệu đầu cuối, còn gọi là vùng dữ liệu đa chiều: Là vùng kho dữ liệu đầu cuối, phía người dùng. Trong vùng này, dữ liệu được lưu trữ dưới dạng mô hình hoá đa chiều nhằm hỗ trợ các ứng dụng hay truy vấn dạng phân tích đầu cuối.Trong các hình vẽ, vùng này được viết tắt là “DDS”, “DW” hay “DWH”. Kho dữ liệu có rất nhiều loại kiến trúc. Từ đơn giản nhất, chỉ gồm một kho dữ liệu đầu cuối, đến rất phức tạp, bao gồm nhiều kho dữ liệu trung gian, được sử dụng trong những hệ thống lớn. Tuy nhiên, hầu hết các kiến trúc đều dựa trên 3 kiến trúc chung phổ biến sau: 1.3.1. Kiến trúc DDS đơn Hình 3: Kiến trúc DSS đơn Kiến trúc DDS đơn là một trong những dạng kiến trúc đơn giản nhất của kho dữ liệu. Kiến trúc này có thành phần chính là một kho dữ liệu trung tâm.
  6. 4 1.3.2. Kiến trúc NDS và DDS Đây là một kiến trúc khá phổ biến. Kiến trúc này tương tự như kiến trúc DDS đơn, nhưng có thêm một vùng chứa dữ liệu trung gian là vùng chứa dữ liệu chuẩn hoá NDS. Hình 4: Kiến trúc NDS và DDS 1.3.3. Kiến trúc ODS và DDS Kiến trúc này có nhiều điểm tương đồng với kiến trúc NDS và DDS. Vùng dữ liệu hoạt động này cũng là một cơ sở dữ liệu dạng chuẩn hoá cao. Tuy nhiên, nó không lưu dữ liệu lịch sử. Vùng dữ liệu hoạt động có cấu trúc nghiêng về dạng cơ sở dữ liệu phục vụ giao tác (OLTP) nhiều hơn. Nó đóng vai trò như là một cơ sở dữ liệu tập trung mà ở đó, ứng dụng đầu cuối cho phép khai thác trên nó. Hình 5: Kiến trúc ODS và DDS 1.3.3 Vùng xử lí Thông thường, trong tất cả các kiến trúc kho dữ liệu, luôn có một vùng chứa dữ liệu gọi là vùng xử lí. Dữ liệu được chuyển từ nhiều nguồn vào vùng xử lí mà không thông qua (hoặc rất ít) công đoạn xử lí nào. Người ta có thể nạp trực tiếp dữ liệu từ nguồn vào kho dữ liệu đầu cuối.
  7. 5 Hình 6 : Vùng xử lý 1.3.4. Cơ sở dữ liệu chuẩn hoá Hình 7: Mô hình dữ liệu được chuẩn hóa Đối với kiến trúc NDS và DDS, vùng chứa dữ liệu dạng chuẩn hoá, còn được gọi là cơ sở dữ liệu chuẩn hoá đóng vai trò là một cơ sở dữ liệu tập trung. 1.3.5. Kho dữ liệu đầu cuối Hình 8: Kho dữ liệu đầu cuối Đây là kiểu cấu trúc dựa trên mô hình khối đa chiều. Mỗi khối đa chiều là bao gồm một bảng dữ kiện và các bảng chiều. Dữ kiện là các độ đo, các số liệu được tính toán từ các chiều. Cấu trúc dữ liệu này có đặc trưng là phi chuẩn hoá. Đây là một đặc trưng quan trọng của kho dữ liệu mô hình hoá đa chiều. 1.4. Kho dữ liệu chuyên đề Kho dữ liệu chuyên đề (DM) là CSDL có những đặc điểm giống với Kho dữ liệu nhưng với quy mô
  8. 6 nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành. Datamart là kho dữ liệu hướng chủ đề. Có thể chia ra làm 2 loại: DM độc lập và DM phụ thuộc 1. Datamart phụ thuộc 2. Datamart độc lập. 1.5. Hệ hỗ trợ quyết định 1.5.1.Khái niệm Hệ hỗ trợ quyết định là một hệ thống thuộc Hệ thống thông tin quản lý (MIS), có nhiệm vụ cung cấp các thông tin hỗ trợ cho việc đề ra quyết định ở cấp chiến lược và chiến thuật trở nên dễ dàng, thuận tiện hơn. 1.5.2. Các thành phần của một hệ thống hỗ trợ ra quyết định Hình 9: Các thành phần của một hệ thống hỗ trợ ra quyết định 1. Dữ liệu: được trích lọc từ TPS hay MIS để diễn tả cho những sự kiện liên quan đến những vấn đề đang cần giải quyết. 2. Mô hình: là một dạng dữ liệu đặc biệt dùng để mô tả khái quát các đặc trưng quan trọng nhất của các sự kiện, vấn đề mà không cần phải diễn tả lại toàn bộ chi tiết. Giá trị của mô hình là để giảm bớt chi phí nghiên cứu hoặc mô tả chi tiết cho các vấn đề. Tương tự như database, modelbase lưu trữ các mô hình thống kê, tài chính, toán học mà DSS sử dụng để thực hiện tự động nhiều phân tích khác nhau trên vấn đề để tìm lời giải. 3. Các phân hệ dựa vào kiến thức: Là bộ máy suy diễn dựa trên các quy tắc và sự kiện đã biết (từ dữ liệu, mô hình và cơ sở kiến thức tổ chức). Máy tri thức trợ giúp thu thập lưu trữ và sử dụng tri thức để hổ trợ tự động hoá việc phân tích, suy diễn, tổng hợp các sự kiện hướng đến giải pháp cho vấn đề. 4. Giao diện người dùng: DSS được sử dụng theo phương thức tương tác người – máy ở mức độ cao vì giải pháp cho các bài toán bán cấu trúc cần được tinh chỉnh từng bước từ phía người sử dụng. Sự giao tiếp người - máy càng thuận tiện bao nhiêu thì hiệu quả của DSS càng cao bấy nhiêu. 5. Người sử dụng: Người sử dụng của DSS đóng vai trò cung cấp kiến thức, hoặc ra các quyết định cho hệ thống (tinh chỉnh giải pháp, chọn cách giải quyết) trong suốt quá trình tìm kiếm giải pháp. 1.5.3. Phân loại các hệ trợ giúp quyết định Hệ xử lý tác vụ: mục đích chính của các Hệ xử lý tác vụ là giữ cho việc ghi nhận các giao tác được chính xác. Hệ thống này được xây dựng chỉ có thể làm ra những quyết định đơn giản trong việc xác định dữ
  9. 7 liệu được ghi nhận là có hợp lệ hay không. Hệ xử lý tác vụ làm công việc hợp lệ hóa trước khi ghi nhận giao tác để CSDL được làm sạch hơn. Hình 10: Phân loại các Hệ thông tin quản lý Hệ trợ giúp quyết định: bao gồm những hệ thống được thiết kế để trợ giúp các nhà quản lý ra quyết định. Khác với hệ xử lý tác vụ phục vụ cho những hoạt động hàng ngày, DSS phục vụ cho những mục tiêu dài hạn hơn và có thể cần đến một vài ý kiến, phán đoán đóng góp từ các chuyên gia. Hiện nay DSS có thể được chia thành hai hướng cơ bản. Hướng đầu tiên dựa vào mô hình theo xu hướng của các Hệ trợ giúp quyết định cũ. Loại Hệ trợ giúp quyết định thứ hai là loại Hệ trợ giúp quyết định dựa vào dữ liệu. DSS trong cơ chế vận hành của MIS:  Điều khiển theo chu kỳ đóng, dựa trên các quy tắc quản lý do tổ chức thiết lập. Quản lý dựa trên các kênh thông tin nội bộ.  Điều khiển theo chu kỳ mở, dựa trên các tiêu chuẩn độc lập với tổ chức. Môi trường có tham gia vào hoạt động quản lý. 1.5.4. Năng lực của hệ hỗ trợ ra quyết định  Phù hợp cho các cấp quản lý khác nhau từ cao đến thấp  Phù hợp cho cá nhân lẫn nhóm.  Hỗ trợ cho các quyết định tuần tự, liên thuộc, được đưa ra một lần, vài lần hoặc lặp lại.  Hỗ trợ cho các giai đoạn của quá trình ra quyết định như tìm hiểu, thiết kế và chọn lựa.  Phù hợp cho một số các phong cách và quá trình ra quyết định. Dễ dùng và thân thiện với người dùng.  Có thể tiến hóa theo thời gian.  Nhằm vào nâng cao tính hiệu dụng (chính xác, thời gian tính, chất lượng) của quyết định thay vì tính hiệu quả (giá phí của việc ra quyết định).  Người ra quyết định kiểm soát toàn bộ các bước của quá trình ra quyết định, DSS chỉ trợ giúp, không thay thế người ra quyết định. 1.6 Các yêu cầu chức năng kho dữ liệu 1. Khả năng cân bằng. 2. Khả năng quản trị
  10. 8 3. Khả năng sẵn sàng 4. Khả năng mở rộng 5. Khả năng mềm dẻo 6. Khả năng tích hợp 7. Khả năng truy cập sử dụng được 8. Khả năng tin cậy 1.7. Kết luận Chương trên trình bày một số khái niệm liên quan đến hệ thống trợ giúp quyết định và kho dữ liệu, chuẩn bị cho xem xét chi tiết ở chương sau.
  11. 9 CHƯƠNG 2. CẤU TRÚC KHO DỮ LIỆU VÀ MÔ HÌNH DỮ LIỆU Chương này sẽ trình bày về cấu trúc và các cách lựa chọn để tiến hành xây dựng kho dữ liệu. Mặc dù không phải lúc nào cũng như vậy, nhưng nên lựa chọn cấu trúc cho kho dữ liệu trước khi bắt đầu tiến hành. Cấu trúc có thể được quyết định hoặc sửa đổi sau khi bắt đầu tiến hành. 2.1 Các lựa chọn về cấu trúc 2.1.1. Cấu trúc kho dữ liệu tổng thể Cấu trúc dữ liệu tổng thể được trình bầy ở dưới đây là một cấu trúc hỗ trợ cho tất cả, hoặc một phần lớn của một đơn vị có nhu cầu về một kho dữ liệu tích hợp đầy đủ với mức độ truy nhập cao và được sử dụng xuyên suốt các ban ngành hoặc ngành nghề kinh doanh. 2.1.2. Cấu trúc kho dữ liệu chuyên đề độc lập Hình 13: Cấu trúc kho dữ liệu chuyên đề độc lập Cấu trúc kho dữ liệu chuyên đề độc lập có nghĩa là các kho dữ liệu chuyên đề đứng độc lập một mình được điều khiển bởi một nhóm, phòng ban, hoặc ngành kinh doanh cụ thể và được xây dựng duy nhất để đáp ứng các nhu cầu. 2.1.3. Cấu trúc Kho dữ liệu chuyên đề phụ thuộc Một cấu trúc kho dữ liệu chuyên đề phụ thuộc là hệ thống các kho dữ liệu chuyên đề có trao đổi thông tin chặt chẽ. Mặc dù các kho dữ liệu chuyên đề riêng biệt được thực hiện trong các nhóm làm việc, ban ngành hoặc ngành nghề kinh doanh cụ thể, nhưng chúng cũng có thể được tích hợp, liên kết với nhau để tạo ra dữ liệu có phạm vi rộng lớn hơn trong toàn doanh nghiệp hoặc toàn công ty. 2.2 Các lựa chọn thực hiện 2.2.1. Thực hiện từ trên xuống. Thực hiện từ trên xuống đòi hỏi phải lập kế hoạch và công việc thiết kế hoàn thành trước khi bắt đầu dự án. Việc thực hiện từ trên xuống có thể tạo ra những xác định về dữ liệu thích hợp và việc thực hiện các quy tắc kinh doanh xuyên xuốt đơn vị ngay từ khi bắt đầu. Tuy nhiên, chi phí cho việc lập kế hoạch và thiết kế ban đầu là tương đối đáng kể. Nó là một quá trình đòi hỏi tiêu tốn nhiều thời gian và có thể làm trì hoãn các hoạt động thực tế, lợi nhuận, và đầu tư có lợi tức. Phương thức quản lý từ trên xuống có thể làm việc tốt kho có một tổ chức IS tập trung chịu trách nhiệm cho tất cả các hệ thống phần cứng.
  12. 10 2.2.2. Thực hiện từ dưới lên Thực hiện từ dưới lên liên quan tới việc lập kế hoạch và thiết kế các kho dữ liệu chuyên đề mà không cần chờ cho đến khi có một hạ tầng tổng thể hơn. Điều này không có nghĩa là sẽ không triển khai một hạ tầng tổng thể hơn; mà sẽ xây dựng dần theo kiều mở rộng các kho dữ liệu chuyên đề ban đầu. Phương thức thực hiện từ dưới lên đã trở thành sự chọn lựa của nhiều đơn vị, đặc biệt là các đơn vị quản lý kinh doanh, bởi vì quá trình hoàn vốn sẽ diễn ra nhanh hơn. Nó có thể đem lại kết quả nhanh hơn vì các kho dữ liệu chuyên đề có phần thiết kế ít phức tạp hơn so với kho dữ liệu tổng thể. Thêm vào đó, việc thực hiện ban đầu thường ít tốn kém hơn về phần cứng và các nguồn lực khác so với việc triển khai một kho dữ liệu tổng thể. 2.2.3. Phương thức kết hợp Như chúng ta vừa xem xét, có cả hai mặt tích cực và tiêu cực cần phải cân nhắc khi thực hiện phương thức từ trên xuống hoặc từ dưới lên. Trong nhiều trường hợp phương thức tốt nhất là kết hợp cả hai. Điều này có thể khá phức tạp, nhưng với một người quản lý dự án tốt thì có thể làm được. Một trong những chìa khóa của phương thức này là quyết định mức độ kế hoạch và thiết kế cần thiết cho phương thức tổng thể để hỗ trợ cho việc tích hợp khi kho dữ liệu chuyên đề được xây dựng với phương thức từ dưới lên. Việc phát triển một cơ sở hạ tầng ở mức cơ bản cho kho dữ liệu tổng thể, ngay từ ban đầu nên thận trọng ở mức kinh doanh. 2.3. Mô hình dữ liệu cho kho dữ liệu Trong phần này chúng ta xét tới hai kỹ thuật xây dựng mô hình dữ liệu cơ bản: xây dựng mô hình ER và xây dựng mô hình theo chiều. Trong môi trường OLTP, kỹ thuật xây dựng mô hình ER là sự lựa chọn đã qua thử thách. Vói sự ra đời của kho dữ liệu, xuất hiện yêu cầu cần có một loại kx thuật để hỗ trọ cho môi trường phân tích dữ liệu. Mặc dù các mô hình ER có thể sử dụng để hỗ trợ môi trường kho dữ liệu, hiện nay sự quan tâm về cách xây dựng mô hình theo chiều nhằm đáp ứng nhiệm vụ này cũng đã gia tăng. 2.3.1. Tại sao việc xây dựng mô hình dữ liệu là quan trọng Theo cách truyền thống, người ta xây dựng mô hình dữ liệu phải sử dụng sơ đồ ER, được phát triển như một phần của quy trình xây dựng mô hình dữ liệu, như một phương tiện thông tin liên lạc với nhà kinh doanh - người sử dụng. Đồ thị ER là một công cụ có thể giúp phân tích các yêu cầu kinh doanh và thiết kế cấu trúc dữ liệu sau này. Các bước tiếp cận khác nhau của mô hình dữ liệu: việc xây dựng mô hình ER mô hình chiều, mặc dù có liên quan nhưng lại khác nhau. 2.3.2. Các kỹ thuật xây dựng mô hình dữ liệu Có hai loại kỹ thuật xây dựng mô hình dữ liệu thích hợp trong môi trường kho dữ liệu là xây dựng mô hình ER và xây dựng mô hình chiều. 1. Việc xây dựng mô hình ER tạo ra một mô hình dữ liệu về một lĩnh vực quan tâm nhất định sử dụng hai khái niệm cơ bản: các thực thể và các mối quan hệ giữa các thực thể đó. Các mô hình ER chi tiết cũng bao gồm các thuộc tính, thuộc tính này có thể hoặc là đặc tính của thực thể hoặc là đặc tính của mối quan hệ.
  13. 11 2. Việc xây dựng mô hình theo chiều sử dụng 3 khái niệm cơ bản: cho phép đo, thực tế và chiều. Cả hai loại xây dựng mô hình ER và chiều đều có thể được sử dụng để tạo một mô hình trừu tượng của một chủ đề. Mỗi loại đều có những hạn chế của mình về các khái niệm xây dựng mô hình và các quy ước ký hiệu.. 2.3.3. Xây dựng mô hình ER Các khái niệm cơ bản : Mô hình ER được thể hiện bằng sơ đồ ER sử dụng 3 biểu tượng đồ họa cơ bản để hình thành khái niệm dữ liệu: thực thể, mối quan hệ và thuộc tính. Hình 17: Ví dụ về các thực thể trong sơ đồ ER Trong xây dựng mô hình ER, đặt tên cho các thực thể là rất quan trọng để hiểu và thông tin liên lạc dễ dàng và rõ. Trong mô hình ER chi tiết, nhiệm vụ quan trọng nhất là xác định từ định danh duy nhất của thực thể. Từ này được gọi là từ khóa gốc. Bổ sung cho các khái niệm xây dựng mô hình ER cơ bản, có 2 khái niệm khác cũng rất quan trọng: (i) Loại cha và con; và (ii) Thông báo ràng buộc Hình 18 : Mô hình thực thể loại cha và con (supertype & subtype) 2.3.4 Xây dựng mô hình theo chiều Về phương diện nào đó, việc xây dựng mô hình theo chiều đơn giản hơn có ý nghĩa hơn và dễ hiểu hơn so với xây dựng mô hình ER. Các khái niệm cơ bản : Xây dựng mô hình theo chiều là một kỹ thuật để tạo khái niệm và hình dung các mô hình dữ liệu như một bộ tiêu chuẩn được mô tả bằng các lĩnh vực kinh doanh chung. Xây dựng mô hình theo chiều có một số khái niệm cơ bản:  Sự kiện
  14. 12  Chiều  Tiêu chuẩn đánh giá (các biến số) Sự kiện : Sự kiện là thu thập các hạng mục dữ liệu liên quan, bao gồm cả các tiêu chuẩn đánh giá và nội dung dữ liệu. Chiều: Chiều là sự thu thập của các thành viên hoặc các đơn vị cùng loại để xem xét. Những thao tác cơ bản cho OLAP : Xây dựng mô hình theo chiều chủ yếu hỗ trợ cho OLAP và đưa ra quyết định. Có 4 thao tác được sử dụng trong OLAP để phân tích dữ liệu. Khi chúng ta xét tới các mức chi tiết khác nhau, chúng ta có thể thực hiện thao tác drill down và roll up. Để duyệt cùng các chiều chúng ta sử dụng thao tác lát mỏng và kẻ ô vuông (slice và dice) 1. Drill down và Roll up : Drill down và Roll up là các thao tác dịch chuyển cách nhìn xuống hoặc lên khi xem các mức phân cấp theo chiều. 2. Lát cắt và kẻ ô vuông : Lát cắt và kể ô vuông là những thao tác để trình duyệt dữ liệu qua khối lập phương. Lát cắt cắt khối lập phương sao cho người sử dụng khối lập phương tới một việc cảnh khác sao cho việc phân tích báo cáo sản xuất của một tháng nhất định theo nhà máy và theo sản phẩm, 3. Mô hình sao và mô hình bông tuyết : Có hai loại mô hình cơ bản có thể được sử dụng trong xây dựng mô hình theo chiều (i) Mô hình sao; (ii) Mô hình bông tuyết Mô hình sao : Giản đồ mô hình sao đã trở thành một thuật ngữ thông dụng được sử dụng bao hàm nghĩa mô hình chiều. Mô hình bông tuyết : Việc xây dựng mô hình theo chiều điển hình bắt đầu bằng việc xác định các sự kiện và chiều, sau khi các yêu cầu kinh doanh đã được thu thập. Mô hình bông tuyết là kết quả của việc phân ly một hoặc nhiều chiều, những cái đôi khi tự nó cũng có phân thành các cấp.. 2.4. Kế hoạch xây dựng kho dữ liệu Việc thiết kế kho dữ liệu nên khởi đầu bằng một kiến trúc sơ bộ xác định phạm vi của dự án. Các quá trình nghiệp vụ hoặc những đối tượng được chú ý phát triển cũng nên được xác định. Một cách tiếp cận không khôn ngoan khi cố gắng phát triển đáp ứng " tất cả", do vậy phải mất nhiều năm mới có thể hoàn thành. Thực tế cho thấy đây là lý do chính làm cho việc tạo dựng kho dữ liệu bị thất bại. Việc xác định các quá trình nghiệp vụ nào sẽ được đưa vào kho dữ liệu sẽ mang lại hiệu quả và chúng chỉ ra khả năng truy cập sử dụng dữ liệu ở các mức, mục tiêu được thực hiện trong thời gian thích hợp. 2.5. Luồng dữ liệu qua kho dữ liệu Dữ liệu được trích chọn từ nhiều nguồn dữ liệu, được chuyển đổi-nếu cần thiết, và được chuyển tải tới vị trí thích hợp trong kho lưu trữ dữ liệu. Các công cụ truy cập giúp sử dụng dữ liệu của kho dữ liệu phục vụ công việc phân tích, hỗ trợ ra quyết định và các câu hỏi truy vấn dữ liệu, tạo báo cáo…
  15. 13 2.6 Các giai đoạn thiết kế kho dữ liệu 2.6.1. Xác định mô hình nghiệp vụ 2.6.2. Xác định mô hình logic 2.6.3. Xác định mô hình chiều 2.6.4. Xác định mô hình vật lý 2.7. Kết luận Chương này trình bày về một số mô hình dữ liệu sử dụng trong tổ chức kho dữ liệu và một số đánh giá đối sánh. Chương sau sẽ ứng dụng các phân tích trong chương trên để xây dựng ứng dụng kho dữ liệu và phân tích dữ liệu.
  16. 14 CHƯƠNG 3. TRÍCH RÚT THÔNG TIN ÁN HÌNH SỰ Chương này thể hiện ứng dụng của các vấn đề nêu tong các chương trên, tại Viện kiểm sát nhân dân tối cao. Ứng dụng đề cập là trích rút dữ liệu về quản lí án hình sự. Viện Kiểm sát Nhân dân Tối cao là cơ quan trực thuộc Quốc hội Việt Nam, có chức năng kiểm sát hoạt động tư pháp và thực hành quyền công tố Nhà nước. Hệ thống Viện kiểm sát được tổ chức theo ba cấp là cấp huyện, cấp tỉnh thành phố, cấp trung ương và các viện kiểm sát quân sự. Hình 23: Trang web của Viện 3.1 Nhu cầu về xử lý dữ liệu tại Viện kiểm sát nhân dân tối cao Ngoài việc thực hiện các báo cáo định kỳ theo tháng, 6 tháng, năm, Viện kiểm sát tối cao còn thực hiện việc quản lý án hình sự qua t ừ n g gia i đ oạ n nhằm nâng cao hiệu quả quản lý, xử lý các vụ án hình sự, nắm chắc tình hình khởi tố, truy tố, đình chỉ, tạm đình chỉ, xét xử sơ thẩm, phúc thẩm, giám đốc thẩm, thi hành án,... Công tác quản lý án hình sự được thực hiện một cách đầy đủ, chi tiết theo yêu cầu quản lý, chỉ đạo điều hành, giải quyết án hình sự của Viện kiểm sát nhân dân các cấp. Dữ liệu quản lý án hình sự của ngành Kiểm sát nhân dân phục vụ cho các hoạt động nghiệp vụ hàng ngày của các đơn vị giải quyết về án hình sự trong ngành, cho phép lãnh đạo các đơn vị phân công, giao việc cũng như theo dõi được tình hình, tiến độ thụ lý giải quyết các vụ án hình sự của đơn vị mình. Thông qua hệ thống quản lý án hình sự có thể trao đổi và tra cứu thông tin tội phạm để trích xuất các thông tin án hình sự từ các ngành Công an (thông tin về kết quả điều tra, thông tin thi hành án,..) và các ngành Tòa án nhân dân (thông tin kết quả xét xử), kế thừa các thông tin này mà không phải nhập vào hệ thống. Kho dữ liệu tổng hợp về án hình sự của toàn ngành phục vụ việc cung cấp dữ liệu chi tiết, đầy đủ về án hình sự như số vụ án, bị can qua các giai đoạn kiểm sát điều tra, kiểm sát xét xử sơ thẩm, phúc thẩm, giám đốc thẩm….kết hợp với các hệ thống thông tin khác trong toàn ngành phục vụ việc trao đổi thông tin với các ngành Công an, Tòa án và kết xuất báo cáo chi tiết, báo cáo tổng hợp toàn ngành Kiểm sát nhân dân. Thực tế nhu cầu về xử lý dữ liệu tại Viện kiểm sát nhân dân tối cao là rất lớn vì với cơ sở dữ liệu lớn, nhiều chỉ tiêu báo cáo và yêu cầu giải quyết trong một thời gian ngắn để đáp ứng yêu cầu của công việc luôn được đặt hàng đầu.
  17. 15 3.2 Hiện trạng về các cơ sở dữ liệu của Viện Trong những năm qua ngành Kiểm sát nhân dân đã từng bước xây dựng và triển khai thực hiện các phần mềm ứng dụng vào các lĩnh vực công tác, như: Tổng hợp báo cáo thống kê, quản lý danh sách các chỉ tiêu, quản lý án hình sự, quản lý công văn đi đến, quản lý đơn khiếu tố, quản lý tài chính kế toán, hệ thống thư điện tử,... Phần mềm tổng hợp số liệu thống kê, quản lý danh sách các chỉ tiêu đã được triển khai trên diện rộng toàn quốc, từ cấp trung ương đến cấp tỉnh và cấp huyện từ năm 2000, đã thay thế việc thu thập, tổng hợp số liệu, xây dựng và gửi báo cáo thống kê theo phương pháp thủ công, góp phần nâng cao độ chính xác, tính kịp thời của các báo cáo thống kê. Thực hiện việc quản lý án hình sự trên mạng máy tính nhằm nâng cao hiệu quả quản lý, xử lý các vụ án hình sự, nắm chắc tình hình khởi tố, truy tố, đình chỉ, tạm đình chỉ, xét xử sơ thẩm, phúc thẩm, thi hành án,… Công tác quản lý án hình sự được thực hiện một cách đầy đủ, chi tiết nhằm đáp ứng nhu cầu trao đổi thông tin, tổng hợp, báo cáo, phân tích, dự báo và hỗ trợ ra quyết định phục vụ công tác chỉ đạo, điều hành của lãnh đạo Viện kiểm sát nhân dân các cấp. Kho dữ liệu quản lý án hình sự của ngành kiểm sát nhân dân gồm Dữ liệu quản trị, Dữ liệu vụ án, Dữ liệu đối tượng (bị can, bị cáo), Dữ liệu tạm giam, tạm giữ, dữ liệu tội danh, dữ liệu khác…được xây dựng trên hệ cơ sở dữ liệu Oracle Database 11g Release 1. 3.3 Nhu cầu tích hợp dữ liệu của Viện và trợ giúp quyết định Hệ thống thông tin quản lý án hình sự là một hệ thống hết sức quan trong của ngành Kiểm sát nhân dân dân. Hệ thống không chỉ phục vụ công tác nghiệp vụ hàng ngày của các kiểm sát viên mà còn phục vụ công tác quản lý giám sát điều hành cũng như khai thác tra cứu thông tin của lãnh đạo Viện kiểm sát nhân dân các cấp. Dữ liệu nguồn của hệ thống quản lý án hình sự được lấy từ kho dữ liệu của Viện kiểm sát nhân dân tối cao bao gồm từ nhiều nguồn như: Dữ liệu quản trị, Dữ liệu vụ án, Dữ liệu đối tượng (bị can, bị cáo), Dữ liệu tạm giam, tạm giữ, dữ liệu tội danh, dữ liệu khác… Dữ liệu án hình sự đã hình thành một kho dữ liệu án dùng chung cho tất cả các cấp. Có chế độ bảo mật, phân quyền chặt chẽ để đảm bảo an toàn dữ liệu. Để đáp ứng được yêu cầu của lãnh đạo báo cáo nhanh, chính xác, liên tục, đảm bảo tính sẵn sàng cao, đáp ứng yêu cầu nghiệp vụ quản lý và thống kê án hình sự tại 3 cấp đòi hỏi việc đồng bộ hóa dữ liệu được thực hiện một cách tự động hoặc theo schedule, số liệu dùng cho hệ thống báo cáo (OLAP) được kết xuất từ hệ thống cơ sở dữ liệu trực tuyến (OLAP) bao gồm thông tin vụ án, bị can, các quyết định liên quan, … Từ đó giúp cho lãnh đạo đơn vị theo dõi, kiểm soát được tình hình, tiến độ thụ lý, giải quyết các vụ án hình sự. Đáp ứng được các nhu cầu về trao đổi dữ liệu với các cơ quan tố tụng như Bộ công an, Tòa án nhân dân các cấp. Đưa ra các dự báo về công tác phòng chống tội phạm, phân tích về tình hình tội phạm và đánh giá hoạt động nghiệp vụ của các cơ quan tiến hành tố tụng, Thực hiện việc kiểm tra, theo dõi giám sát tiến độ thực hiện các vụ án.
  18. 16 3.4 Đề xuất giải pháp theo tiếp cận kho dữ liệu Dữ liệu nguồn của hệ thống quản lý án hình sự được lấy từ kho dữ liệu của Viện kiểm sát nhân dân tối cao bao gồm từ nhiều nguồn như: Dữ liệu quản trị, Dữ liệu vụ án, Dữ liệu đối tượng (bị can, bị cáo), Dữ liệu tạm giam, tạm giữ, dữ liệu tội danh, dữ liệu khác…Dữ liệu án hình sự đã hình thành một kho dữ liệu án dùng chung cho tất cả các cấp. Phần ứng dụng của bài toán yêu cầu đưa ra báo cáo danh sách về các vụ qua tại qua các giai đoạn của vụ án, trong khoảng thời yêu cầu cụ thể. Cơ sở dữ liệu được sử dụng là Oracle. Sử dụng công cụ Data Stage cho quá trình ETL. Dùng công cụ BI xử lý dữ liệu và đưa ra các báo cáo Mô hình dưới đây mô tả kiến trúc data warehouse của Viện kiểm sát nhân dân tối cao. Data Repositories Phân tích Database Data Mart BI Data ETL Warehouse Data Mart Báo cáo Database Hình 26: Kiến trúc Data warehouse của hệ thống quản lý hình sự Quá trình tạo các DM : 1. Định nghĩa các nguồn dữ liệu. Các bảng quan hệ và các file ngoài 2. Định nghĩa các đối tượng của kho dữ liệu theo mô hình bông tuyết, sử dụng công cụ Oracle BI thiết kế các Dimension table 3. Làm sạch, chuẩn hóa dữ liệu (quá trình ETL) bằng công cụ Data Stage 4. Tạo các Data model 5. Định nghĩa các Data model 6. Tạo report chọn các data model thích hợp để đưa ra báo cáo 3.5 Thử nghiệm và đánh giá kết quả Luận văn đã thử nghiệm một số khía cạnh :  Thử nghiệm tại cơ sở dữ liệu tại Viện kiểm sát nhân dân tối cao.  Dữ liệu nguồn được lấy từ các bảng thực thể : SPP_REGISTER, LST_SPP, LST_LAW, SPP_DECISION, …  Cơ sở dữ liệu được sử dụng là Oracle. Sử dụng công cụ Data Stage cho quá trình ETL. Dùng công cụ BI xử lý dữ liệu và đưa ra các báo cáo
  19. 17 Hình 27: Mô hình qua hệ thực thể của DM quản lý án hình sự Hình 28: Mô hình bông tuyết
  20. 18 Hình 29: Mô tả quá trình ETL Quá trình tạo một job lấy dữ liệu từ hệ thống nguồn 1. Login vào hệ thống DataStage 2. Tạo một job lấy dữ liệu từ hệ thống nguồn a. Từ File bạn chọn New b. Chọn Server job c. Nhấn OK Hình 30: Tạo một job lấy dữ liệu từ hệ thống nguồn 3. Từ Palete bạn chọn các biểu tượng sau
nguon tai.lieu . vn