Xem mẫu

  1. KHAI PHÁ DL TRONG KINH DOANH BỘ MÔN TIN HỌC KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 1 GIỚI THIỆU HỌC PHẦN Chương 1: Tổng quan về khai phá dữ liệu trong kinh doanh Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu Chương 4: Một số bài toán khai phá trong kinh doanh KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 2 1
  2. Tài liệu tham khảo Tài liệu tham khảo bắt buộc [1] Phân tích và khai phá dữ liệu. Đại học Thương mại, 2019. Nguyễn Thị Thu Thủy, NXB HĐ Hồ Tú Bảo (2018). Bài giảng về khoa học dữ liệu và khai phá dữ liệu. Kho dữ liệu của Microsoft https://azure.microsoft.com/ Cios, K.J., Pedrycz, W., Swiniarski, R.W., Kurgan, L. (2007). Data mining: A Knowledge Discovery Approach. Springer, 2007. Fayyad, U., Piatetsky-shapiro, G. and Smith, P. (1996). From Data Mining to Knowledge Discovery in Databases. Communications of the ACM, 39, 37-54 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 3 Đánh giá ◦ Điểm chuyên cần: 10% ◦ Điểm thực hành: 30% ◦ Điểm thi hết học phần: 60% KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 4 2
  3. Application https://www.solver.com/welcome-students-xlminer XLMiner™ is a comprehensive data mining add-in for Excel. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 5 BI in sql server SQL Server 2008 Business Intelligence platform https://www.microsoft.com/en- us/download/details.aspx?id=7687 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 6 3
  4. Chương 1: Tổng quan về khai phá dữ liệu trong kinh doanh 1.1. Giới thiệu chung 1.1.1. Khai phá dữ liệu là gì 1.1.2. Khái niệm kho dữ liệu 1.1.3. Một số mẫu dữ liệu trong kinh doanh cần khai phá 1.1.3. Tầm quan trọng của khai phá dữ liệu trong kinh doanh 1.2. Quy trình khai phá dữ liệu trong kinh doanh 1.2.1. Xác định mục tiêu 1.2.2. Chuẩn bị và tổ chức dữ liệu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 7 1.1. Giới thiệu chung 1.1.1. Khai phá dữ liệu là gì Là một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn Về bản chất, khai phá dữ liệu là những vấn đề liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu nằm ẩn sâu trong tập dữ liệu. Nói cách khác nó chính là điểm giao giữa các phương pháp và kỹ thuật của học máy, thống kê và các hệ thống cơ sở dữ liệu này. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 8 4
  5. Ví dụ Trong một siêu thị, qua khảo sát cho thấy người mua bàn chải đánh răng vào ngày chủ nhật cũng mua kem đánh răng.  Tăng doanh thu: đặt 2 sản phẩm này cạnh nhau. Tăng số lượng bán ra của 2 loại sản phẩm đó nhiều hơn vào những ngày chủ nhật. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 9 Các kỹ thuật của khai phá dữ liệu Association (Kết hợp): Tìm mối quan hệ giữa các biến. Ví dụ như trong một cửa hàng bán lẻ, có thể xác định sản phẩm được mua cùng với nhau thường xuyên và thông tin này có thể được sử dụng để tiếp thị các sản phẩm này. Clustering (Phân cụm): Xác định mối quan hệ hợp lý trong các sản phẩm và nhóm chúng lại với nhau. Ví dụ như trong một cửa hàng bán lẻ, kem đánh răng và bàn chải đánh răng có thể được nhóm lại. Classifying (Phân loại): Liên quan đến việc áp dụng một mô hình được biết đến với các dữ liệu mới. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 10 5
  6. Nhiệm vụ của khai phá dữ liệu Có thể phân thành 2 loại chính đó là Dự đoán (Predictive) và Mô tả (Descriptive): Predictive: ◦ Classification - phân lớp ◦ Regression - hồi quy ◦ Deviation Detection - phát hiện độ lệch Descriptive: ◦ Clustering - phân cụm ◦ Association Rule Discovery - phát hiện luật kết hợp. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 11 Một số thuật toán phổ biến Descision tree: Cây quyết định (Classification Task) Nearest Neighbor: Láng giềng gần nhất (Classification Task) Neural Network: Mạng Neural (Classification and Clustering Task) Rule Induction: Luật quy nạp (Classification Task) K-Means: Thuật toán K-Means (Clustering Task). KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 12 6
  7. 1.1.2. Khái niệm kho dữ liệu Là nơi lưu trữ dữ liệu ở bộ nhớ ngoài như đĩa cứng, USB, … để hỗ trợ việc phân tích dữ liệu và lập báo cáo. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 13 Đặc điểm của kho DL Tính tích hợp (Integration) Dữ liệu gắn thời gian và có tính lịch sử Dữ liệu có tính ổn định (nonvolatility) Dữ liệu không biến động Dữ liệu tổng hợp KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 14 7
  8. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 15 Tiêu chuẩn xây dựng kho dữ liệu Nâng cao chất lượng dữ liệu bằng các phương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định Tổng hợp và kết nối dữ liệu Đồng bộ hoá các nguồn dữ liệu với DW Phân định và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụ chuẩn để phục vụ cho DW. Quản lí siêu dữ liệu Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề Dùng trong các hệ thống hỗ trợ quyết định (Decision suport system - DSS), các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho các truy vấn đặc biệt KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 16 8
  9. Ngôn ngữ sử dụng trong kho DL Thống nhất hóa (roll-up): Trong tập dữ liệu lớn, người dùng có thể thu nhỏ ở một khía cạnh nào đó của dữ liệu. Ví dụ trong tập dữ liệu bán hàng, người sử dụng có thể nhóm dữ liệu theo năm thay vì theo quý. Chi tiết hóa (drill-down): Ngược với các thao tác trên, dữ liệu có thể được mở rộng từ tập nhỏ. Ví dụ mở rộng dữ liệu, nhìn theo tháng thay vì theo quý. Cắt lát (slice): nhìn theo từng lớp một. Ví dụ: từ danh mục bán hàng của Q1, Q2, Q3, Q4 chỉ xem của Q1. Rút ngắn (dice): bỏ bớt một phần của dữ liệu (tương ứng thêm điều kiện vào câu lệnh WHERE trong SQL). KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 17 Kiến trúc KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 18 9
  10. 1.1.3. Một số mẫu dữ liệu trong kinh doanh cần khai phá Inventory management system (Quản lý kho hàng): Dữ liệu cần phục vụ cho: Lập và in Phiếu nhập, Phiếu xuất, Phiếu xuất điều chuyển, Phiếu xuất lắp ráp và Phiếu xuất công cụ dụng cụ trực tiếp trên phần mềm. Quản lý nhiều thông tin trên chứng từ kho như kho, vật tư, nhập/xuất theo nhiều đơn vị tính (Tấn- Kg, Thùng-Hộp, Két-Chai...). Quản lý xuất/nhập vật tư theo bộ (mỗi bộ được định nghĩa bởi nhiều vật tư chi tiết). Quản lý xuất/nhập/tồn kho và thời hạn sử dụng của vật tư-hàng hóa theo từng lô hoặc từng phiếu nhập. Quản lý xuất/nhập hàng hóa vật tư theo kho, theo vị trí với sơ đồ kho được thiết kế trên phần mềm. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 19 ◦ Quản lý nhập/xuất vật tư, hàng hóa theo nhiều tiêu thức (mặt hàng, nhóm hàng, dạng nhập/xuất). ◦ Quản lý và theo dõi đơn hàng, đồng thời dựa trên kế hoạch sản xuất, mức tồn kho để tính và đưa ra kế hoạch hàng mua. ◦ Cập nhật kiểm kê định kỳ, -Dữ liệu được lấy từ những tác nghiệp trên và sử dụng để: ◦ In báo cáo: Bảng kê nhập/xuất vật tư – hàng hóa, Bảng kê xuất khuyến mãi, Sổ chi tiết vật tư, Thẻ kho, Bảng tổng hợp Nhập-Xuất-Tồn, Báo cáo tồn kho theo hạn mức, Báo cáo tuổi hàng tồn kho theo phiếu nhập cuối, Báo cáo nhu cầu vật tư… KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 20 10
  11. Dữ liệu marketing Database marketing (Quản trị tiếp thị bằng cơ sở dữ liệu- tiếp thị trực tiếp khách hàng từ CSDL khách hàng). Chức năng: Quản lý cơ sở dữ liệu: – Kiểm tra dữ liệu – kiểm tra độ chính xác của dữ liệu hiện có bằng cách gọi ngẫu nhiên một khách hàng và kiểm tra tên, địa chỉ, email và các thông tin liên quan trong dữ liệu. – Thanh lọc dữ liệu – phát hiện và chỉnh sửa (hoặc loại bỏ) các hồ sơ bị gián đọan hoặc không chính xác từ hệ thống cơ sở dữ liệu. – Phát hiện dữ liệu trùng – phân tích lôgic để tìm và lọc ra các dữ liệu trùng nhau. – Tổng hợp dữ liệu – phân tích dữ liệu khách hàng để đưa ra kết luận tổng thể, bao gồm số lượng dữ liệu, số thuộc tính và phần trăm của những thuộc tính đó trong cơ sở dữ liệu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 21 – Tạo lập hồ sơ khách hàng – phân nhóm các dữ liệu thu được theo các thuộc tính khác nhau như nhân khẩu, tâm lý hoặc/và vị trí địa lý. – Phân tích cơ sở dữ liệu – phân tích các dữ liệu có được sau mỗi chiến dịch để định hướng được sở thích của khách hàng và dùng làm cơ sở cho các chiến dịch trong tương lại. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 22 11
  12. Dữ liệu mua/bán hàng 3 đối tượng chính: hàng hóa, nhà cung cấp, khách hàng Hàng hóa: kiểm hàng, nhập hàng, xuất hàng, báo cáo tồn kho, ... Nhà cung cấp: nhập hàng, trả hàng, công nợ, chi trả tiền hàng, ... Khách hàng: xuất hàng, nhận lại hàng, công nợ, thu tiền bán hàng, ... KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 23 Ngoài ra còn có: ◦ Bảng giá ◦ Phiếu nhập hàng ◦ Phiếu xuất hàng ◦ Phiếu trả hàng ◦ …. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 24 12
  13. 1.1.3. Tầm quan trọng của khai phá dữ liệu trong kinh doanh Dựa vào sự ứng dụng của nó ở các lĩnh vực: Kinh doanh - thương mại: ◦ Xác định thói quen mua hàng của khách hàng; ◦ Dự đoán chu kỳ kinh doanh sản phẩm; ◦ Liên hệ giữa khách hàng và các yếu tố khác; ◦ Xác định loại khách hàng tiềm năng, đối tượng có khả năng trở thành khách hàng; ◦ Dự đoán hiệu quả của một đợt quảng cáo, tiếp thị Thương mại điện tử: ◦ Phân tích hành động duyệt Web để phát triển sở thích của khách hàng. Từ đó có thể cải thiện hoạt động Website... KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 25 Ngân hàng: ◦ Dự đoán các dấu hiệu của một giao dịch trái luật; ◦ Xác định các khách hàng sẽ cộng tác lâu dài, khách hàng tiềm năng; ◦ Dự đoán rủi ro của các khoản cho vay; ◦ Xác định các nhân tố dẫn đến vỡ nợ vay; ◦ Liên hệ giữa các chỉ số tài chính với hoạt động ngân hàng Viễn thông: ◦ Nhận biết các dấu hiệu của sự gian lận dịch vụ viễn thông; ◦ Xu thế phát triển khách hàng, đối tượng, khu vực cần phát triển KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 26 13
  14. Bảo hiểm: ◦ Phân loại khách hàng, phân loại rủi ro, phòng chống gian lận; ◦ Phân tích, dự báo về khả năng thực hiện hợp đồng của khách hàng; ◦ Phân loại đối tượng, vùng mà có khả năng tham gia bảo hiểm Y tế: ◦ Chuẩn đoán bệnh qua các triệu chứng; ◦ Liên hệ giữa các loại bệnh; ◦ Dự đoán hiệu quả của một cuộc phẫu thuật, điều trị. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 27 1.2. Quy trình khai phá dữ liệu trong kinh doanh Kiến trúc (Nguồn: Shearer, 2000- IBM,2015) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 28 14
  15. Quy trình KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 29 1.2.1. Xác định mục tiêu Bám sát với mục tiêu phát triển của doanh nghiệp Phù hợp với dữ liệu thực tế. VD: mục tiêu trong ngân hàng là lĩnh vực quảng bá sản phẩmbộ phận tiếp thị và bán hàng của các Ngân hàng có thể sử dụng kỹ thuật khai phá dữ liệu để phân tích cơ sở dữ liệu về khách hàng, xác định hành vi của người tiêu dùng với sự tham khảo sản phẩm, giá và kênh phân phối,… KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 30 15
  16. 1.2.2. Chuẩn bị và tổ chức dữ liệu Biến đổi cho phù hợp Làm sạch dữ liệu Giới hạn phạm vi của các dữ liệu thời gian thực, hoặc thay đổi, điều chỉnh,… dữ liệu sao cho phù hợp nhất với yêu cầu đặt ra. VD: một công ty bán hàng thời trang cần phân tích dữ liệu bán hàng tại các chi nhánh khác nhau trên toàn quốc.  Sự chuẩn bị của dữ liệu cần phải làm là toàn bộ dữ liệu bán hàng của toàn công ty ở các chi nhánh khác nhau, cũng như các dữ liệu về hàng hóa tại các kho xưởng KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 31 Quá trình chuẩn bị dữ liệu: ◦ - Làm sạch dữ liệu; ◦ - Tích hợp dữ liệu; ◦ - Biến đổi dữ liệu; ◦ - Rút gọn dữ liệu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 32 16
  17. 1.2.3. Lựa chọn phương pháp và mô hình khai phá Các phương pháp khai thác dữ liệu cơ bản: Phương pháp phân loại (Classification): Có thể coi phương pháp này là phương pháp dự báo. Nó cho phép phân loại một đối tượng hoặc một mẫu hay một số mẫu thuộc vào lớp (class) nào đó cho trước. Hồi qui (Regression): Đây là phương pháp dự báo dựa trên việc ánh xạ dữ liệu vào một giá trị cụ thể thông qua việc xây dựng hàm thuộc. Phân nhóm - phân cụm (Clustering): Đây là phương pháp chung để tìm một tập nhãn hoặc một tập các cụm (cluster) để miêu tả dữ liệu. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 33 Tổng hợp (Summarization): Đây là phương pháp miêu tả mà mục đích chính là tìm ra một sự miêu tả cho một tập (hoặc một tập con) dữ liệu đã cho. Mô hình ràng buộc (Dependency modeling): Đây là phương pháp tìm một mô hình mà nó có thể miêu tả sự phụ thuộc giữa các biến hoặc giữa các giá trị của một thuộc tính trong tập dữ liệu hoặc một phần của tập dữ liệu. Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Đây là phương pháp phát hiện sự thay đổi đáng kể trong tập dữ liệu. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 34 17
  18. 1.2.4. Phân tích và đánh giá kết quả trong hỗ trợ kinh doanh Mục tiêu cơ bản của mọi tổ chức là lợi nhuận Lợi nhuận Lợi tức Chi phí Bán hàng Xác định giá Chi phí cố định Chi phí biến đổi Đề xuất kinh doanh Chi phí trong sản xuất KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 35 Dữ liệu hỗ trợ ra quyết định (Hồ Tú Bảo, 2018) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 36 18
  19. VD (Quản lý đất đai dùng cây quyết định) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 37 Đọc sách: Business Intelligence Concepts and Applications KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 38 19
  20. Review Questions 1. Why should organizations invest in business intelligence solutions? Are these more important than IT security solutions? Why or why not? 2. List three business intelligence applications in the hospitality industry. 3. Describe two business intelligence tools used in your organization. 4. Businesses need a “two-second advantage” to succeed. What does that mean to you? KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 39 Liberty Stores Case Exercise Liberty Stores Inc is a specialized global retail chain that sells organic food, organic clothing, wellness products, and education products to enlightened LOHAS (Lifestyles of the Healthy and Sustainable) citizens worldwide. The company is 20 years old and is growing rapidly. It now operates in 5 continents, 50 countries, 150 cities, and has 500 stores. It sells 20,000 products and has 10,000 employees. The company has revenues of over $5 billion and has a profit of about 5 percent of revenue. The company pays special attention to the conditions under which the products are grown and produced. It donates about one-fifth (20 percent) of its pretax profits from global local charitable causes. 1. Create a comprehensive dashboard for the CEO of the company. 2. Create another dashboard for a country head. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 40 20
nguon tai.lieu . vn