Xem mẫu
- Association rules at the 1-item
values of X
Có thể sử dụng cách như trên đểtìm luật kết hợp của 1-item
VD:
Consider the rule: Milk → Bread. Out of total 12 transactions Milk
occurs 9 times while (Milk, Bread) occurs 7 times. The rule has a
support level of 7/12 (or 58 percent) and a confidence level of 7/9 (or
77 percent).
Thus, the next valid association rule is as follows:
Milk → Bread {S = 58%, C = 77%}.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 133
Chương 3: Sử dụng công cụ OLAP trong khai phá dữ
liệu
3.1. Tồng quan chung về SQL server analysis service
3.1.1. Một số khái niệm liên quan
3.1.2. Tổ chức mô hình cơ sở dữ liệu đa chiều
3.1.3. Giới thiệu và cài đặt công cụ OLAP
3.2. Xây dựng OLAP Cube
3.2.1. Xây dựng DB Engine
3.2.2. Thiết lập nguồn , bảng Fact
3.2.3. Thiết lập các chiều cho Cube
3.2.4. Xây dựng Cube
3.3. Xây dựng Report
3.3.1. Thiết lập nguồn cho Report
3.3.2. Lập Report từ cơ sở dữ liệu nhiều chiều
3.3.3. Quản lý Report (bảo mật- security, truyền-
KHAI PHÁ subscription,
DỮ LIỆU TRONG KINH DOANH quản lý thực thi –excution).
134
67
- 3.1. Tổng quan chung về SQL
server analysis service
3.1.1. Một số khái niệm liên quan
SQL Server Analysis Service là một công cụ phân tích dữ liệu
được sử dụng trong hỗ trợ quyết định và phân tích kinh
doanh.
Dữ liệu phân tích được lưu trữ dưới mô hình bảng, hình
khối đa chiều (cubes), và các mô hình khai phá dữ liệu mà
NSD có thể truy cập từ các báo cáo, bảng tính và bảng điều
khiền.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
135
OLAP Cube là thuật ngữ dùng để chỉ dữ liệu có nhiều
chiều (Cube) mà có thể xử lý phân tích online (OLAP).
Thường số chiều của Cube là 3, còn nếu số chiều của dữ liệu
lớn hơn 3, dữ liệu này còn được gọi là hypercube.
Dữ liệu nhiều chiều (multi-dimension) có thể hiểu đơn giản
là dữ liệu mà người dùng muốn nhóm theo các tiêu chí khác
nhau. Ví dụ, dữ liệu tài chính của một công ty được nhóm
theo sản phẩm, khung thời gian, thành phố.. để so sánh.
Mỗi tiêu chí (sản phẩm, khung thời gian, địa điểm...) là
một chiều dữ liệu vì nó cung cấp một góc nhìn khác đến dữ
liệu hiện có
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
136
68
- Fact table có thể được hiểu như là bảng chứa các dữ
liệu có tính chất đo lường (measurement). Một fact
(hay còn gọi là measure) trong Data warehouse được
dùng để minh họa cho một trường (field/column)
chứa một giá trị đo lường được
Tiến trình ETL (Extract-Transform-Load)
Tiến trình ETL là một quy trình dùng để lấy dữ liệu từ các hệ
thống nguồn sau đó xử lý và đưa nó vào data warehouse. Nó
bao gồm các chức năng: Rút trích dữ liệu; biến đổi dữ liệu; và
tải (load) vào kho dữ liệu hoặc các hệ thống báo cáo khác
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
137
Mô hình các bước của tiến trình ETL
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
138
69
- Thống nhất hóa (roll-up) là quá trình tập hợp lại dữ
liệu từ một hay nhiều chiều
Drill- down – chi tiết hóa: ngược với roll-up
Chọn và cắt lát dữ liệu (slice-còn gọi là chọn và
chiếu): là kĩ thuật cho phép ta lấy ra khối dữ liệu
nhiều chiều (rubic), sau đó tiến hành phân tích
bằng các nhát cắt khác nhau dựa trên khối đó. Kết
quả thu được sẽ là một khối dữ liệu con
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
139
3.1.2. Tổ chức mô hình cơ sở
dữ liệu đa chiều
Lược đồ đa chiều hình sao (star schema) là kiểu
đơn giản nhất của lược đồ data mart. Lược đồ
sao bao gồm một hoặc nhiều bảng Fact, tham
chiếu đến một số bảng dimension.
Khi ta liên kết Fact table và Dimension table lại với
nhau dựa trên các Primary Key của dimension và
Foreign Key tương ứng của fact, ta được một lược
đồ dữ liệu dạng hình sao - Star schema.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
140
70
- VD
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
141
VD2
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
142
71
- 3.1.3. Giới thiệu và cài đặt công cụ OLAP
Các bước cài đặt (xem sách tham khảo)
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
143
3.2. Xây dựng OLAP Cube
Khởi tạo dự án và thiết lập Data Soure
Cài đặt đầy đủ SQL Server với các dịch vụ: Database Engine, Analysis
Services, Reporting Services, Intergration Services sau đó khởi động
công cụ SQL Server Management Studio.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
144
72
- Khởi động Business Intelligence Development
Studio (BIDS)
Khởi tạo dự án phân tích dữ liệu với BIDS
Thiết lập Data Source
Chọn bảng Fact, và related tables cho dự án
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
145
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
146
73
- Kết quả
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
147
3.2.4. Xây dựng Cube
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
148
74
- Kết quả
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
149
Triển khai và phân tích dữ liệu với OLAP Cube
Tùy chỉnh lại thứ bậc các thuộc tính trong Dimension Dim Date như sau:
Double Click vào Dim Date.dim: Kéo thả các date tương ứng muốn hiển
thị
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 150
75
- Tùy chỉnh một số thuộc tính trước khi triển khai Cube (Deployment).
Click chuột phải vào SaleDataAnalysis hiển thị menu ngữ cảnh
chọn Properties:
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 151
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 152
76
- Chú ý: thuộc tính Server chính là Instance Name của SQL
Server Analysis Services và trong trường hợp này sử dụng
localhost
Thuộc tính Database là do người dùng tùy ý nhập vào và
thuộc tính này mô tả tên của Analysis Database sẽ được
sinh ra trong SQL Server Analysis Services sau khi Deploy
thành công.
Nhấn OK để hoàn tất.
Tiếp tục Click chuột phải vào SaleDataAnalysis hiển thị
menu ngữ cảnh chọn Deploy:
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 153
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 154
77
- Developing a Data Warehouse
The phases of a data warehouse project listed
below are similar to those of most database
projects, starting with identifying requirements
and ending with executing the T-SQL Script to
create data warehouse:
Identify and collect requirements
Design the dimensional model
Execute T-SQL queries to create and populate your
dimension and fact tables
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
155
Design the Dimensional Model
Dimension: The dimension is a master table
composed of individual, non-overlapping data
elements. The primary functions of dimensions are
to provide filtering, grouping and labeling on your
data. Dimension tables contain textual descriptions
about the subjects of the business.
Product, Customer, Store, Date, Time, Sales person
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
156
78
- Measure: A measure represents a column
that contains quantifiable data, usually
numeric, that can be aggregated. A measure
is generally mapped to a column in a fact
table.
Actual Cost, Total Sales, Quantity, Fact table
record count
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
157
Fact Table: Data in fact table are called measures
(or dependent attributes), Fact table provides
statistics for sales broken down by customer,
salesperson, product, period and store dimensions.
Fact table usually contains historical transactional
entries of your live system, it is mainly made up of
Foreign key column which references to various
dimension and numeric measure values on which
aggregation will be performed.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
158
79
- Identify what attributes should be there in
our Fact Sales Table.
Foreign Key ColumnSales Date key, Sales
Time key, Invoice Number, Sales Person ID,
Store ID, Customer ID
MeasuresActual Cost, Total Sales, Quantity,
Fact table record count
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
159
Using the Code
Open SQL Server Management Studio
Connect Database Engine
Open New Query editor
Copy paste Scripts given below in various
steps in new query editor window one by
one
To run the given SQL Script, press F5
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
160
80
nguon tai.lieu . vn