Xem mẫu

  1. Association rules at the 1-item values of X Có thể sử dụng cách như trên đểtìm luật kết hợp của 1-item VD: Consider the rule: Milk → Bread. Out of total 12 transactions Milk occurs 9 times while (Milk, Bread) occurs 7 times. The rule has a support level of 7/12 (or 58 percent) and a confidence level of 7/9 (or 77 percent). Thus, the next valid association rule is as follows: Milk → Bread {S = 58%, C = 77%}. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 133 Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu 3.1. Tồng quan chung về SQL server analysis service 3.1.1. Một số khái niệm liên quan 3.1.2. Tổ chức mô hình cơ sở dữ liệu đa chiều 3.1.3. Giới thiệu và cài đặt công cụ OLAP 3.2. Xây dựng OLAP Cube 3.2.1. Xây dựng DB Engine 3.2.2. Thiết lập nguồn , bảng Fact 3.2.3. Thiết lập các chiều cho Cube 3.2.4. Xây dựng Cube 3.3. Xây dựng Report 3.3.1. Thiết lập nguồn cho Report 3.3.2. Lập Report từ cơ sở dữ liệu nhiều chiều 3.3.3. Quản lý Report (bảo mật- security, truyền- KHAI PHÁ subscription, DỮ LIỆU TRONG KINH DOANH quản lý thực thi –excution). 134 67
  2. 3.1. Tổng quan chung về SQL server analysis service 3.1.1. Một số khái niệm liên quan SQL Server Analysis Service là một công cụ phân tích dữ liệu được sử dụng trong hỗ trợ quyết định và phân tích kinh doanh. Dữ liệu phân tích được lưu trữ dưới mô hình bảng, hình khối đa chiều (cubes), và các mô hình khai phá dữ liệu mà NSD có thể truy cập từ các báo cáo, bảng tính và bảng điều khiền. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 135 OLAP Cube là thuật ngữ dùng để chỉ dữ liệu có nhiều chiều (Cube) mà có thể xử lý phân tích online (OLAP). Thường số chiều của Cube là 3, còn nếu số chiều của dữ liệu lớn hơn 3, dữ liệu này còn được gọi là hypercube. Dữ liệu nhiều chiều (multi-dimension) có thể hiểu đơn giản là dữ liệu mà người dùng muốn nhóm theo các tiêu chí khác nhau. Ví dụ, dữ liệu tài chính của một công ty được nhóm theo sản phẩm, khung thời gian, thành phố.. để so sánh. Mỗi tiêu chí (sản phẩm, khung thời gian, địa điểm...) là một chiều dữ liệu vì nó cung cấp một góc nhìn khác đến dữ liệu hiện có KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 136 68
  3. Fact table có thể được hiểu như là bảng chứa các dữ liệu có tính chất đo lường (measurement). Một fact (hay còn gọi là measure) trong Data warehouse được dùng để minh họa cho một trường (field/column) chứa một giá trị đo lường được Tiến trình ETL (Extract-Transform-Load) Tiến trình ETL là một quy trình dùng để lấy dữ liệu từ các hệ thống nguồn sau đó xử lý và đưa nó vào data warehouse. Nó bao gồm các chức năng: Rút trích dữ liệu; biến đổi dữ liệu; và tải (load) vào kho dữ liệu hoặc các hệ thống báo cáo khác KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 137 Mô hình các bước của tiến trình ETL KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 138 69
  4. Thống nhất hóa (roll-up) là quá trình tập hợp lại dữ liệu từ một hay nhiều chiều Drill- down – chi tiết hóa: ngược với roll-up Chọn và cắt lát dữ liệu (slice-còn gọi là chọn và chiếu): là kĩ thuật cho phép ta lấy ra khối dữ liệu nhiều chiều (rubic), sau đó tiến hành phân tích bằng các nhát cắt khác nhau dựa trên khối đó. Kết quả thu được sẽ là một khối dữ liệu con KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 139 3.1.2. Tổ chức mô hình cơ sở dữ liệu đa chiều Lược đồ đa chiều hình sao (star schema) là kiểu đơn giản nhất của lược đồ data mart. Lược đồ sao bao gồm một hoặc nhiều bảng Fact, tham chiếu đến một số bảng dimension. Khi ta liên kết Fact table và Dimension table lại với nhau dựa trên các Primary Key của dimension và Foreign Key tương ứng của fact, ta được một lược đồ dữ liệu dạng hình sao - Star schema. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 140 70
  5. VD KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 141 VD2 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 142 71
  6. 3.1.3. Giới thiệu và cài đặt công cụ OLAP Các bước cài đặt (xem sách tham khảo) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 143 3.2. Xây dựng OLAP Cube Khởi tạo dự án và thiết lập Data Soure Cài đặt đầy đủ SQL Server với các dịch vụ: Database Engine, Analysis Services, Reporting Services, Intergration Services sau đó khởi động công cụ SQL Server Management Studio. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 144 72
  7. Khởi động Business Intelligence Development Studio (BIDS) Khởi tạo dự án phân tích dữ liệu với BIDS Thiết lập Data Source Chọn bảng Fact, và related tables cho dự án KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 145 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 146 73
  8. Kết quả KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 147 3.2.4. Xây dựng Cube KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 148 74
  9. Kết quả KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 149 Triển khai và phân tích dữ liệu với OLAP Cube Tùy chỉnh lại thứ bậc các thuộc tính trong Dimension Dim Date như sau: Double Click vào Dim Date.dim: Kéo thả các date tương ứng muốn hiển thị KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 150 75
  10. Tùy chỉnh một số thuộc tính trước khi triển khai Cube (Deployment). Click chuột phải vào SaleDataAnalysis  hiển thị menu ngữ cảnh  chọn Properties: KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 151 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 152 76
  11. Chú ý: thuộc tính Server chính là Instance Name của SQL Server Analysis Services và trong trường hợp này sử dụng localhost Thuộc tính Database là do người dùng tùy ý nhập vào và thuộc tính này mô tả tên của Analysis Database sẽ được sinh ra trong SQL Server Analysis Services sau khi Deploy thành công. Nhấn OK để hoàn tất. Tiếp tục Click chuột phải vào SaleDataAnalysis  hiển thị menu ngữ cảnh  chọn Deploy: KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 153 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 154 77
  12. Developing a Data Warehouse The phases of a data warehouse project listed below are similar to those of most database projects, starting with identifying requirements and ending with executing the T-SQL Script to create data warehouse: Identify and collect requirements Design the dimensional model Execute T-SQL queries to create and populate your dimension and fact tables KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 155 Design the Dimensional Model Dimension: The dimension is a master table composed of individual, non-overlapping data elements. The primary functions of dimensions are to provide filtering, grouping and labeling on your data. Dimension tables contain textual descriptions about the subjects of the business. Product, Customer, Store, Date, Time, Sales person KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 156 78
  13. Measure: A measure represents a column that contains quantifiable data, usually numeric, that can be aggregated. A measure is generally mapped to a column in a fact table. Actual Cost, Total Sales, Quantity, Fact table record count KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 157 Fact Table: Data in fact table are called measures (or dependent attributes), Fact table provides statistics for sales broken down by customer, salesperson, product, period and store dimensions. Fact table usually contains historical transactional entries of your live system, it is mainly made up of Foreign key column which references to various dimension and numeric measure values on which aggregation will be performed. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 158 79
  14. Identify what attributes should be there in our Fact Sales Table. Foreign Key ColumnSales Date key, Sales Time key, Invoice Number, Sales Person ID, Store ID, Customer ID MeasuresActual Cost, Total Sales, Quantity, Fact table record count KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 159 Using the Code Open SQL Server Management Studio Connect Database Engine Open New Query editor Copy paste Scripts given below in various steps in new query editor window one by one To run the given SQL Script, press F5 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 160 80
nguon tai.lieu . vn