Xem mẫu
- Đọc sách: Business Intelligence
Concepts and Applications
BI for Better Decisions : Decision Types
BI Tools
BI Skills
BI Applications : Customer Relationship
Management; Health Care and Wellness ;
Education; Retail; Banking; Financial Services;
Insurance; Manufacturing; Telecom; Government.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
41
Chương 2: Tiền xử lý và Tổ chức dữ liệu
kinh doanh
2.1. Tiền xử lý dữ liệu
2.1.1. Lựa chọn mẫu
2.1.2. Làm sạch dữ liệu
2.1.3. Tích hợp và biến đổi dữ liệu
2.2. Tổ chức dữ liệu
2.2.1. Tổ chức và cài đặt kho dữ liệu (Data warehouse)
2.2.2. Tổ chức và cài đặt Data Mart
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
42
21
- 2.1. Tiền xử lý dữ liệu
Làm cho dữ liệu có được ban đầu qua thu thập dữ
liệu (gọi là dữ liệu gốc original data) có thể áp dụng
được (thích hợp) với các mô hình khai phá dữ liệu
(data mining model) cụ thể.
Các công việc:
◦ Filtering Attributes (rút gọn thuộc tính)
◦ Filtering samples (rút gọn dữ liệu)
◦ Clean data (làm sạch dữ liệu)
◦ Transformation:
◦ Discretization (rời rạc hóa dữ liệu):
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
43
2.1.1. Lựa chọn mẫu
Mục đích loại bỏ những thuộc tính không cần thiết,
dư thừa khỏi quá trình học.
Những vấn đề gặp phải:
◦ Sự đa dạng và không đồng nhất: nhiều dạng,
nhiều nguồn
◦ Quy mô dữ liệu: dung lượng và quy mô của dữ
liệu lớn đòi hỏi các công cụ quản lý và khai phá
dữ liệu phải được cải tiến, nâng cấp cho phù hợp
◦ Tốc độ/tính chuyển động liên tục của dữ liệu: các
dòng dữ liệu (data stream)
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
44
22
- Tính chính xác và tin cậy
Bảo mật dữ liệu
Sự tương tác
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
45
Các công thức đánh giá
Confusion matrix
Các độ đo
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
46
23
- Phân chia tập dữ liệu
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
47
2.1.2. Làm sạch dữ liệu
Điền giá trị bị thiếu (missing values)
Dữ liệu nhiễu
Hồi quy tuyến tính
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
48
24
- Một số phương pháp để điền
giá trị thiếu
Bỏ qua các trường có chứa những giá trị này
Điền vào các giá trị thiếu thủ công
Sử dụng các giá trị quy ước (NULL/0)
Sử dụng những giá trị bình quân
Sử dụng các giá trị của các bộ cùng loại để
thay thế cho giá trị thiếu
Sử dụng giá trị có tỉ lệ xuất hiện cao để điền
vào cho các giá trị thiếu
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
49
Dữ liệu nhiễu
Dữ liệu nhiễu là các dữ liệu nằm ở những
khoảng không đồng đều, có những giá trị
nằm ở nhóm cao thấp, bất thường không
theo quy luật.
Việc làm mịn một giá trị dữ liệu được xác
định thông qua các giá trị xung quanh nó
được gọi là Bin.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
50
25
- VD
Outliers: giá trị 79.29 có thể là 7.929
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
51
Ví dụ: Giả sử ta có một danh sách các giá trị sau: 4, 8, 15, 21, 21, 24, 25, 28, 34
Ta có thể phân chia thành các bin
Bin 1: 4, 8 , 15
Bin 2: 21, 21, 24
Bin 3: 25, 28, 34
Trong trường hợp làm mịn sử dụng phương pháp trung vị, thì các bin có thể là:
Bin 1: 9, 9 ,9
Bin 2: 22, 22, 22
Bin 3: 29, 29, 29
Trong trường hợp làm mịn biên
Bin 1: 4, 4, 15
Bin 2: 21, 21, 24
Bin 3: 25, 25, 34
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
52
26
- Hồi quy tuyến tính
Tìm ra được một mối quan hệ tốt nhất giữa hai
thuộc tính (hoặc các biến), từ đó một thuộc
tính có thể dùng để dự đoán thuộc tính khác.
Phương pháp nhóm cụm: Các giá trị tương tự
nhau được tổ chức thành các nhóm hay “cụm"
trực quan. Các giá trị rơi ra bên ngoài các
nhóm này sẽ được xem xét để làm mịn.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
53
Xây dựng công cụ khảo sát
Công cụ thực nghiệm
-Phiếu khảo sát:
-Qui tắc mã hóa và qui đổi điểm về
thang đo các cấp độ hỏi
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
54
27
- Thống kê và kiểm định dữ liệu
Thống kê dữ liệu
Thống kê dữ liệu trong Excel
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
55
Khái niệm về kiểm định giả thiết
Cho một tổng thể (tập giá trị quan sát), ta thường chỉ có thể lấy ra
một mẫu (tập con các giá trị quan sát) theo lý thuyết lấy mẫu, để
phân tích, xử lí.
Từ đặc trưng của mẫu, ta suy ra (ước lượng) tổng thể cũng có đặc
trưng như thế.
Khi xem xét đặc trưng của mẫu, ta thường đưa ra một giả thiết và
kiểm tra giả thiết đúng hay sai. Việc đưa ra kết luận để chấp nhận
hoặc bác bỏ giả thiết này gọi là kiểm định giả thiết (thống kê)
(hypothesis test).
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 56
28
- Những quyết định dựa trên giả thiết
H0
giả thiết H0 giả thiết H0
thực tế là đúng thực tế là sai
Xác xuất quyết định Xác xuất mắc sai lầm
Kiểm định chấp đúng là loại 2 là
nhận H0
1–
Xác xuất mắc Xác xuất quyết định
Kiểm định
sai lầm loại 1 là đúng là
bác bỏ H0
1–
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 57
Xác suất mắc sai lầm hoặc đúng trong
kết quả kiểm định giả thiết H0
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 58
29
- Miền bác bỏ và giá trị kiểm định
1. Nếu giả thiết đối có dạng H1: > 0 thì được gọi là kiểm
định bên phải, vì miền bác bỏ H1 nằm phía bên phải miền
chấp nhận H0
• u là giá trị kiểm định;
• là mức ý nghĩa
Kiểm định bên phải (one – tail test): H0 : 0 H1 : > 0
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 59
Miền bác bỏ và giá trị kiểm định
2. Nếu giả thiết đối có dạng H1: < 0 thì được gọi là kiểm
định bên trái, vì miền bác bỏ H1 nằm phía bên trái miền
chấp nhận H0
• u là giá trị kiểm định;
• là mức ý nghĩa
Kiểm định bên trái (one – tail test): H0 : 0 H1 : < 0
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 60
30
- Miền bác bỏ và giá trị kiểm định
3. Nếu giả thiết đối có dạng H1: 0 thì được gọi là kiểm
định hai bên, vì miền bác bỏ H1 nằm về hai phía miền chấp
nhận H0
• u là giá trị kiểm định;
• là mức ý nghĩa
Kiếm định hai bên H0 : = 0 H1 : 0
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 61
Các phép kiểm định thống kê cơ bản
Kiểm định giả thiết về tỉ lệ tổng thể
Kiểm định giả thiết về trung bình tổng thể
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 62
31
- Thực hiện thống kê kiểm định bằng
phần mềm SPSS
Ví dụ về thang đo
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
64
32
- Đo độ tin cậy bằng SPSS
Tóm tắt cách thực hiện
Analyze \ Scale \ Reliability Analysis ...
Chọn các thang đo cần đánh giá độ tin cậy vào
danh sách items
Chọn mô hình alpha.
Nhấn nút Statistics... Chọn Scale, Scale if item
deleted.
Chọn tiếp Holleling’s T- square, Turkey’s test of
addtivity.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
65
Ví dụ
Ví dụ: Kiểm tra độ tin cậy của các thang đo của Bài kiểm tra:
Bảng 1 thống kê độ tin cậy (hệ số Cronbach’s Alpha)
Bảng 2 thống kê độ tin cậy của từng thang đo.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
66
33
- ĐỘ TƯƠNG QUAN CỦA TRẮC NGHIỆM
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 67
KHAI PHÁ DỮ LIỆU
TRONG KINH DOANH
Độ tương quan (Correlation)
Trong SPSS, thống kê có tên là hệ số tương quan
Pearson Correlation (kí hiệu R) để đánh giá mức độ
tương quan tuyến tính giữa hai biến định lượng. |R|
càng gần 1 thì mối tương quan tuyến tính càng chặt
chẽ. |R|=0 thì không có mối tương quan tuyến tính.
|R| > 0 hay |R| < 0 biểu thị mối tương quan thuận chiều
hoặc ngược chiều.
Giả thuyết H0 trong trường hợp này cho rằng hai biến
định lượng không có mối tương quan với nhau.
68
34
- Độ tương quan (Correlation)
Cách đọc chung
- Ta thấy các thang đó có mối tương quan tương đối như nhau và khá cao.
- Hệ số Pearson nói lên mức độ tương quan giữa các biến với nhau trong mô hình
(dấu âm thể hiện sự tương quan nghịch; dấu dương thể hiện sự tương quan
nghịch): ở đây là tương quan thuận chiều.
- Giá trị Sig. nói lên tính phù hợp của
hệ số tương quan giữa các biến
theo phép kiểm định F với một độ tin
cậy cho trước. Trong kiếm định này,
lấy độ tin cậy là 95%, nghĩa là hệ số
sai số Sig. không vượt quá 0.05. Do
đó, biến cột nào có giá trị Sig. > 0.05
thì nó cần phải loại bỏ để đảm bảo
sự phù hợp của mô hình.
69
KHAI PHÁ DỮ LIỆU
TRONG KINH DOANH
Độ tương quan (Correlation)
Quan sát bảng kết quả và nhận xét
Các thang đo có mối tương quan như nhau và thuận chiều
Hai dấu sao ** cạnh 0.350 và sử dụng mức ý nghĩa 1% khẳng định hai cấp độ tư
duy thuật toán chuyển giao và thiết kế tương quan với nhau ở mức rất cao.
70
35
- 2.2. Tổ chức dữ liệu
2.2.1. Tổ chức và cài đặt kho dữ liệu (Data warehouse)
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
71
Đặc điểm
Một Data Warehouse là một cơ sở lớn của dữ liệu được thu thập
từ các tổ chức hoặc phòng ban khác nhau trong doanh nghiệp.
cung cấp một môi trường tích hợp và một bức tranh tổng quát về
tình hình kinh doanh ở thời điểm hiện tại.
các dữ liệu này thường phù hợp với mô hình nhiều chiều
Tốn thời gian
thể hiện dữ liệu cho toàn bộ doanh nghiệp.
DL chỉ đọc
Kích thước lớn
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
72
36
- KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
73
Example
Given data warehouse
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
74
37
- Example – cross tabulation
1. What is the best selling movie by revenue?
2. What is the best quarter by revenue this year?
3. Any other patterns?
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
75
Extra- questions
If a cross-tabulation was designed to include customer location data,
one could answer other questions:
1. What is the best selling geography
2. What is the worst selling geography?
3. Any other patterns.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
76
38
- 2.2.2. Tổ chức và cài đặt Data
Mart
Là một dạng con của Data Warehouse
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
77
Lợi ích của Data mart
Giảm kích thước của tập dữ liệu tìm kiếm.
Cung cấp cách thức truy cập dễ dàng với những tập dữ liệu thường xuyên
Việc cài đặt của Data Mart khá dễ dàng và rẻ hơn so với cài đặt kho dữ liệu
(data warehouse).
nếu có sự thay đổi nào đó với mô hình hệ thống thì data mart dễ dàng
chuyển đổi hơn vì nó có kích thước nhỏ gọn.
Một Data mart được xây dựng bởi một chủ đề hay một chức năng tương
ứng của doanh nghiệp
Dữ liệu trong Data Mart được phân mảnh và cho phép truy cập từng mảng
độc lập với sự kiểm soát đặc thù.
Chính vì dữ liệu được phân mảnh nên nó có thể lưu trữ ở các nền tảng
phần cứng và phần mềm khác nhau.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
78
39
- Các kiểu Data Mart
Kiểu phụ thuộc: Data Mart phụ thuộc được tạo
bằng cách trích rút dữ liệu trực tiếp từ các nguồn
hoạt động tác nghiệp trong hoặc ngoài doanh
nghiệp, hoặc cả hai nguồn này.
Kiểu độc lập: Data Mart độc lập được tạo mà không
sử dụng một kho dữ liệu trung tâm.
Kiểu lai ghép: Data Mart này có thể lấy dữ liệu từ
kho dữ liệu hoặc từ hệ thống tác nghiệp trong
doanh nghiệp.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
79
Các bước cài đặt Data Mart
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
80
40
nguon tai.lieu . vn