Xem mẫu
- KHAI PHÁ DL TRONG KINH
DOANH
BỘ MÔN TIN HỌC
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
1
GIỚI THIỆU HỌC PHẦN
Chương 1: Tổng quan về khai phá dữ liệu trong kinh
doanh
Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh
Chương 3: Sử dụng công cụ OLAP trong khai phá
dữ liệu
Chương 4: Một số bài toán khai phá trong kinh
doanh
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
2
1
- Tài liệu tham khảo
Tài liệu tham khảo bắt buộc
[1] Phân tích và khai phá dữ liệu. Đại học Thương mại, 2019.
Nguyễn Thị Thu Thủy, NXB HĐ
Hồ Tú Bảo (2018). Bài giảng về khoa học dữ liệu và khai phá dữ
liệu.
Kho dữ liệu của Microsoft https://azure.microsoft.com/
Cios, K.J., Pedrycz, W., Swiniarski, R.W., Kurgan, L. (2007). Data
mining: A Knowledge Discovery Approach. Springer, 2007.
Fayyad, U., Piatetsky-shapiro, G. and Smith, P. (1996). From Data
Mining to Knowledge Discovery in Databases. Communications
of the ACM, 39, 37-54
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
3
Đánh giá
◦ Điểm chuyên cần: 10%
◦ Điểm thực hành: 30%
◦ Điểm thi hết học phần: 60%
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
4
2
- Application
https://www.solver.com/welcome-students-xlminer
XLMiner™ is a comprehensive data mining add-in for Excel.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
5
BI in sql server
SQL Server 2008 Business Intelligence platform
https://www.microsoft.com/en-
us/download/details.aspx?id=7687
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
6
3
- Chương 1: Tổng quan về khai
phá dữ liệu trong kinh doanh
1.1. Giới thiệu chung
1.1.1. Khai phá dữ liệu là gì
1.1.2. Khái niệm kho dữ liệu
1.1.3. Một số mẫu dữ liệu trong kinh doanh cần khai phá
1.1.3. Tầm quan trọng của khai phá dữ liệu trong kinh
doanh
1.2. Quy trình khai phá dữ liệu trong kinh doanh
1.2.1. Xác định mục tiêu
1.2.2. Chuẩn bị và tổ chức dữ liệu
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
7
1.1. Giới thiệu chung
1.1.1. Khai phá dữ liệu là gì
Là một loạt các kỹ thuật nhằm phát hiện ra các thông tin có
giá trị tiềm ẩn trong các tập dữ liệu lớn
Về bản chất, khai phá dữ liệu là những vấn đề liên quan đến
việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra
các mẫu nằm ẩn sâu trong tập dữ liệu.
Nói cách khác nó chính là điểm giao giữa các phương
pháp và kỹ thuật của học máy, thống kê và các hệ thống cơ
sở dữ liệu này.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
8
4
- Ví dụ
Trong một siêu thị, qua khảo sát cho thấy người
mua bàn chải đánh răng vào ngày chủ nhật cũng
mua kem đánh răng.
Tăng doanh thu: đặt 2 sản phẩm này cạnh
nhau.
Tăng số lượng bán ra của 2 loại sản phẩm đó nhiều
hơn vào những ngày chủ nhật.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
9
Các kỹ thuật của khai phá dữ
liệu
Association (Kết hợp): Tìm mối quan hệ giữa các biến.
Ví dụ như trong một cửa hàng bán lẻ, có thể xác định sản phẩm được mua
cùng với nhau thường xuyên và thông tin này có thể được sử dụng để tiếp
thị các sản phẩm này.
Clustering (Phân cụm): Xác định mối quan hệ hợp lý
trong các sản phẩm và nhóm chúng lại với nhau.
Ví dụ như trong một cửa hàng bán lẻ, kem đánh răng và bàn chải đánh răng
có thể được nhóm lại.
Classifying (Phân loại): Liên quan đến việc áp dụng một
mô hình được biết đến với các dữ liệu mới.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
10
5
- Nhiệm vụ của khai phá dữ liệu
Có thể phân thành 2 loại chính đó là Dự đoán
(Predictive) và Mô tả (Descriptive):
Predictive:
◦ Classification - phân lớp
◦ Regression - hồi quy
◦ Deviation Detection - phát hiện độ lệch
Descriptive:
◦ Clustering - phân cụm
◦ Association Rule Discovery - phát hiện luật kết hợp.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
11
Một số thuật toán phổ biến
Descision tree: Cây quyết định (Classification
Task)
Nearest Neighbor: Láng giềng gần nhất
(Classification Task)
Neural Network: Mạng Neural (Classification and
Clustering Task)
Rule Induction: Luật quy nạp (Classification Task)
K-Means: Thuật toán K-Means (Clustering Task).
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
12
6
- 1.1.2. Khái niệm kho dữ liệu
Là nơi lưu trữ dữ liệu ở bộ nhớ ngoài như đĩa cứng, USB, … để hỗ
trợ việc phân tích dữ liệu và lập báo cáo.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
13
Đặc điểm của kho DL
Tính tích hợp (Integration)
Dữ liệu gắn thời gian và có tính lịch sử
Dữ liệu có tính ổn định (nonvolatility)
Dữ liệu không biến động
Dữ liệu tổng hợp
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
14
7
- KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
15
Tiêu chuẩn xây dựng kho dữ liệu
Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh
lọc dữ liệu theo những hướng chủ đề nhất định
Tổng hợp và kết nối dữ liệu
Đồng bộ hoá các nguồn dữ liệu với DW
Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như
là các công cụ chuẩn để phục vụ cho DW.
Quản lí siêu dữ liệu
Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức
theo các chủ đề
Dùng trong các hệ thống hỗ trợ quyết định (Decision suport system -
DSS), các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn
đặc biệt
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
16
8
- Ngôn ngữ sử dụng trong kho
DL
Thống nhất hóa (roll-up): Trong tập dữ liệu lớn, người dùng
có thể thu nhỏ ở một khía cạnh nào đó của dữ liệu. Ví dụ
trong tập dữ liệu bán hàng, người sử dụng có thể nhóm dữ
liệu theo năm thay vì theo quý.
Chi tiết hóa (drill-down): Ngược với các thao tác trên, dữ
liệu có thể được mở rộng từ tập nhỏ. Ví dụ mở rộng dữ liệu,
nhìn theo tháng thay vì theo quý.
Cắt lát (slice): nhìn theo từng lớp một. Ví dụ: từ danh mục
bán hàng của Q1, Q2, Q3, Q4 chỉ xem của Q1.
Rút ngắn (dice): bỏ bớt một phần của dữ liệu (tương ứng
thêm điều kiện vào câu lệnh WHERE trong SQL).
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
17
Kiến trúc
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
18
9
- 1.1.3. Một số mẫu dữ liệu trong kinh doanh
cần khai phá
Inventory management system (Quản lý kho hàng):
Dữ liệu cần phục vụ cho:
Lập và in Phiếu nhập, Phiếu xuất, Phiếu xuất điều chuyển, Phiếu xuất lắp ráp và Phiếu
xuất công cụ dụng cụ trực tiếp trên phần mềm.
Quản lý nhiều thông tin trên chứng từ kho như kho, vật tư, nhập/xuất theo nhiều đơn vị
tính (Tấn- Kg, Thùng-Hộp, Két-Chai...).
Quản lý xuất/nhập vật tư theo bộ (mỗi bộ được định nghĩa bởi nhiều vật tư chi tiết).
Quản lý xuất/nhập/tồn kho và thời hạn sử dụng của vật tư-hàng hóa theo từng lô hoặc
từng phiếu nhập.
Quản lý xuất/nhập hàng hóa vật tư theo kho, theo vị trí với sơ đồ kho được thiết kế trên
phần mềm.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
19
◦ Quản lý nhập/xuất vật tư, hàng hóa theo nhiều tiêu thức (mặt
hàng, nhóm hàng, dạng nhập/xuất).
◦ Quản lý và theo dõi đơn hàng, đồng thời dựa trên kế hoạch
sản xuất, mức tồn kho để tính và đưa ra kế hoạch hàng mua.
◦ Cập nhật kiểm kê định kỳ,
-Dữ liệu được lấy từ những tác nghiệp trên và sử dụng để:
◦ In báo cáo: Bảng kê nhập/xuất vật tư – hàng hóa, Bảng kê
xuất khuyến mãi, Sổ chi tiết vật tư, Thẻ kho, Bảng tổng hợp
Nhập-Xuất-Tồn, Báo cáo tồn kho theo hạn mức, Báo cáo tuổi
hàng tồn kho theo phiếu nhập cuối, Báo cáo nhu cầu vật tư…
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
20
10
- Dữ liệu marketing
Database marketing (Quản trị tiếp thị bằng cơ sở dữ liệu-
tiếp thị trực tiếp khách hàng từ CSDL khách hàng).
Chức năng: Quản lý cơ sở dữ liệu: – Kiểm tra dữ liệu – kiểm tra
độ chính xác của dữ liệu hiện có bằng cách gọi ngẫu nhiên một
khách hàng và kiểm tra tên, địa chỉ, email và các thông tin liên
quan trong dữ liệu.
– Thanh lọc dữ liệu – phát hiện và chỉnh sửa (hoặc loại bỏ) các hồ
sơ bị gián đọan hoặc không chính xác từ hệ thống cơ sở dữ liệu.
– Phát hiện dữ liệu trùng – phân tích lôgic để tìm và lọc ra các dữ
liệu trùng nhau.
– Tổng hợp dữ liệu – phân tích dữ liệu khách hàng để đưa ra kết
luận tổng thể, bao gồm số lượng dữ liệu, số thuộc tính và phần
trăm của những thuộc tính đó trong cơ sở dữ liệu
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
21
– Tạo lập hồ sơ khách hàng – phân nhóm các
dữ liệu thu được theo các thuộc tính khác
nhau như nhân khẩu, tâm lý hoặc/và vị trí địa
lý.
– Phân tích cơ sở dữ liệu – phân tích các dữ
liệu có được sau mỗi chiến dịch để định
hướng được sở thích của khách hàng và dùng
làm cơ sở cho các chiến dịch trong tương lại.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
22
11
- Dữ liệu mua/bán hàng
3 đối tượng chính: hàng hóa, nhà cung cấp, khách
hàng
Hàng hóa: kiểm hàng, nhập hàng, xuất hàng, báo
cáo tồn kho, ...
Nhà cung cấp: nhập hàng, trả hàng, công nợ, chi trả
tiền hàng, ...
Khách hàng: xuất hàng, nhận lại hàng, công nợ, thu
tiền bán hàng, ...
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
23
Ngoài ra còn có:
◦ Bảng giá
◦ Phiếu nhập hàng
◦ Phiếu xuất hàng
◦ Phiếu trả hàng
◦ ….
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
24
12
- 1.1.3. Tầm quan trọng của khai phá dữ liệu
trong kinh doanh
Dựa vào sự ứng dụng của nó ở các lĩnh vực:
Kinh doanh - thương mại:
◦ Xác định thói quen mua hàng của khách hàng;
◦ Dự đoán chu kỳ kinh doanh sản phẩm;
◦ Liên hệ giữa khách hàng và các yếu tố khác;
◦ Xác định loại khách hàng tiềm năng, đối tượng có khả năng trở
thành khách hàng;
◦ Dự đoán hiệu quả của một đợt quảng cáo, tiếp thị
Thương mại điện tử:
◦ Phân tích hành động duyệt Web để phát triển sở thích của khách
hàng. Từ đó có thể cải thiện hoạt động Website...
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
25
Ngân hàng:
◦ Dự đoán các dấu hiệu của một giao dịch trái luật;
◦ Xác định các khách hàng sẽ cộng tác lâu dài, khách hàng tiềm
năng;
◦ Dự đoán rủi ro của các khoản cho vay;
◦ Xác định các nhân tố dẫn đến vỡ nợ vay;
◦ Liên hệ giữa các chỉ số tài chính với hoạt động ngân hàng
Viễn thông:
◦ Nhận biết các dấu hiệu của sự gian lận dịch vụ viễn thông;
◦ Xu thế phát triển khách hàng, đối tượng, khu vực cần phát
triển
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
26
13
- Bảo hiểm:
◦ Phân loại khách hàng, phân loại rủi ro, phòng chống gian
lận;
◦ Phân tích, dự báo về khả năng thực hiện hợp đồng của
khách hàng;
◦ Phân loại đối tượng, vùng mà có khả năng tham gia bảo
hiểm
Y tế:
◦ Chuẩn đoán bệnh qua các triệu chứng;
◦ Liên hệ giữa các loại bệnh;
◦ Dự đoán hiệu quả của một cuộc phẫu thuật, điều trị.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
27
1.2. Quy trình khai phá dữ liệu trong kinh
doanh
Kiến trúc (Nguồn: Shearer, 2000- IBM,2015)
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
28
14
- Quy trình
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
29
1.2.1. Xác định mục tiêu
Bám sát với mục tiêu phát triển của doanh nghiệp
Phù hợp với dữ liệu thực tế.
VD: mục tiêu trong ngân hàng là lĩnh vực quảng bá
sản phẩmbộ phận tiếp thị và bán hàng của các
Ngân hàng có thể sử dụng kỹ thuật khai phá dữ liệu
để phân tích cơ sở dữ liệu về khách hàng, xác định
hành vi của người tiêu dùng với sự tham khảo sản
phẩm, giá và kênh phân phối,…
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
30
15
- 1.2.2. Chuẩn bị và tổ chức dữ
liệu
Biến đổi cho phù hợp
Làm sạch dữ liệu
Giới hạn phạm vi của các dữ liệu thời gian thực, hoặc thay đổi,
điều chỉnh,… dữ liệu sao cho phù hợp nhất với yêu cầu đặt ra.
VD: một công ty bán hàng thời trang cần phân tích dữ liệu bán
hàng tại các chi nhánh khác nhau trên toàn quốc.
Sự chuẩn bị của dữ liệu cần phải làm là toàn bộ dữ liệu bán
hàng của toàn công ty ở các chi nhánh khác nhau, cũng như
các dữ liệu về hàng hóa tại các kho xưởng
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
31
Quá trình chuẩn bị dữ liệu:
◦ - Làm sạch dữ liệu;
◦ - Tích hợp dữ liệu;
◦ - Biến đổi dữ liệu;
◦ - Rút gọn dữ liệu
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
32
16
- 1.2.3. Lựa chọn phương pháp và mô hình khai
phá
Các phương pháp khai thác dữ liệu cơ bản:
Phương pháp phân loại (Classification): Có thể coi phương
pháp này là phương pháp dự báo. Nó cho phép phân loại
một đối tượng hoặc một mẫu hay một số mẫu thuộc vào
lớp (class) nào đó cho trước.
Hồi qui (Regression): Đây là phương pháp dự báo dựa trên
việc ánh xạ dữ liệu vào một giá trị cụ thể thông qua việc xây
dựng hàm thuộc.
Phân nhóm - phân cụm (Clustering): Đây là phương pháp
chung để tìm một tập nhãn hoặc một tập các cụm (cluster)
để miêu tả dữ liệu.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
33
Tổng hợp (Summarization): Đây là phương pháp miêu tả mà
mục đích chính là tìm ra một sự miêu tả cho một tập (hoặc
một tập con) dữ liệu đã cho.
Mô hình ràng buộc (Dependency modeling): Đây là phương
pháp tìm một mô hình mà nó có thể miêu tả sự phụ thuộc
giữa các biến hoặc giữa các giá trị của một thuộc tính trong
tập dữ liệu hoặc một phần của tập dữ liệu.
Dò tìm biến đổi và độ lệch (Change and Deviation
Dectection): Đây là phương pháp phát hiện sự thay đổi
đáng kể trong tập dữ liệu.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
34
17
- 1.2.4. Phân tích và đánh giá kết quả trong hỗ trợ kinh
doanh
Mục tiêu cơ bản của mọi tổ chức là lợi nhuận
Lợi nhuận
Lợi tức Chi phí
Bán hàng Xác định giá Chi phí cố định Chi phí biến đổi
Đề xuất kinh doanh Chi phí trong sản xuất
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
35
Dữ liệu hỗ trợ ra quyết định
(Hồ Tú Bảo, 2018)
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
36
18
- VD
(Quản lý đất đai dùng cây quyết định)
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
37
Đọc sách: Business Intelligence
Concepts and Applications
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
38
19
- Review Questions
1. Why should organizations invest in business
intelligence solutions? Are these more important
than IT security solutions? Why or why not?
2. List three business intelligence applications in
the hospitality industry.
3. Describe two business intelligence tools used in
your organization.
4. Businesses need a “two-second advantage” to
succeed. What does that mean to you?
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
39
Liberty Stores Case Exercise
Liberty Stores Inc is a specialized global retail chain that sells organic food,
organic clothing, wellness products, and education products to enlightened
LOHAS (Lifestyles of the Healthy and Sustainable) citizens worldwide. The
company is 20 years old and is growing rapidly. It now operates in 5 continents,
50 countries, 150 cities, and has 500 stores. It sells 20,000 products and has
10,000 employees. The company has revenues of over $5 billion and has a profit
of about 5 percent of revenue. The company pays special attention to the
conditions under which the products are grown and produced. It donates about
one-fifth (20 percent) of its pretax profits from global local charitable causes.
1. Create a comprehensive dashboard for the CEO of the company.
2. Create another dashboard for a country head.
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
40
20
nguon tai.lieu . vn