Xem mẫu

  1. BÀI GIẢNG KHAI PHÁ DỮ LIỆU Nội dung bổ sung về Khai phá dữ liệu PGS. TS. Hà Quang ThụyHÀ NỘI, 10-2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/ 1
  2. Nội dung 1. Một số tài nguyên khai phá dữ liệu 2. Khai phá quy trình 3. Khai phá dữ liệu: Học suốt đời 2
  3. 1. Tài nguyên KPDL: 9 kiểu công cụ ▪ Data mining suites (DMS): Gói chứa nhiều phương pháp ▪ Business intelligence packages (BIs): Không tập trung chuyên về KPDL mà hướng tới các chức năng KPDL cơ bản, đặc biệt thống kê trong ứng dụng kinh doanh ▪ Mathematical packages (MATs): Không tập trung chuyên về KPDL mà hướng tới một tập lớn và mở rộng các thuật toán và thủ tục trực quan hóa. ▪ Integration packages (INTs): gói mở rộng nhiều thuật toán nguồn 3 mở khác nhau/phần mềm độc lập (chủ yếu là dựa trên Java). ▪ EXT: tiện ích bổ sung nhỏ cho các công cụ khác như Excel, Matlab, R… với chức năng hạn chế song rất hữu dụng. ▪ Data mining libraries (LIBs): thực thi các phương pháp KPDL như một gói chức năng. ▪ Specialties (SPECs): tương tự như LIB song gồm chỉ một nhóm phương pháp chuyên biệt (mạng nơron, …) ▪ RES: thường là sự thi hành lần đầu tiên thuật toán mới, cách tân. ▪ Solutions (SOLs): một nhóm các công cụ được tùy biến cho các lĩnh vực ứng dụng hẹp như khai phá văn bản (GATE), xử lý hình July ảnh (ITK, ImageJ) ... 12, Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data 202 Mining and Knowledge Discovery 1(5): 431-443 (2011). 1
  4. Tài nguyên KPDL: Công cụ TM Data mining suites BI packages Mathematical packages Integration packages Specialties RES 4 July 12, Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data 202 Mining and Knowledge Discovery 1(5): 431-443 (2011). 1
  5. Tài nguyên KPDL: Công cụ TM 5 BI packages Mathematical packages Integration packages Specialties July RES Data mining suites 12, Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data 202 Mining and Knowledge Discovery 1(5): 431-443 (2011). 1
  6. Tài nguyên KPDL: Công cụ nguồn mở Data mining suites BI packages Mathematical packages 6 Integration packages Specialties RES July 12, Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data 202 Mining and Knowledge Discovery 1(5): 431-443 (2011). 1
  7. Tài nguyên KPDL: Công cụ nguồn mở Data mining suites BI packages Mathematical packages Integration packages Specialties RES 7 July 12, Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data 202 Mining and Knowledge Discovery 1(5): 431-443 (2011). 1
  8. Tài nguyên KPDL: Dữ liệu mẫu 8 July 12, Kho chứa dữ liệu của nhóm học máy tại University of California, Irvine – UCI (UC 202 Irvine Machine Learning Repository). http://archive.ics.uci.edu/ml/ (11/2015) 1
  9. http://kdd.org/ : Trang web công đồng DM 9 July 12, 202 1
  10. http://kdd.org/awards/sigkdd-dissertation-award 10 Winner: Mining Latent Entity Structures From Massive Unstructured and Interconnected Data. Chi Wang (student) and Jiawei Han (advisor) at University of Illinois at Urbana-Champaign Runner-up: Modeling Large Social Networks in Context. Qirong Ho (student) and Eric Xing (advisor) at Carnegie Mellon University July Runner-up: Computing Distrust in Social Media. Jiliang Tang (Student) 12, and Huan Liu (Advisor) at Arizona State University. Định hướng Khóa 202 luận đại học K56: Thái Thị Hoài, Nguyễn Quỳnh Nga, Mai Công Đạt 1
  11. 2. Tại sao KPQT: Chỉ số cạnh tranh quốc tế ⚫ Giới thiệu khả năng cạnh tranh ▪ Diễn đàn Kinh tế Thế giới (World Economic Forum), 2005 ▪ khả năng cạnh tranh: tập chỉ số về thể chế, chính sách, và các yếu tố xác định mức năng suất của một quốc gia ▪ Mức năng suất: tập các mức thành công thu được từ nền kinh tế ▪ Đo lường bằng tập chỉ số 11 ⚫ Tập chỉ số cạnh tranh quốc gia ▪ Index, còn được gọi là cột trụ (pillar) ▪ 12 cột trụ: thể chế, hạ tầng, môi trường kinh tế vĩ mô, sức khỏe và giáo dục tiểu học, giáo dục và đào tạo đại học, thị trường hàng hóa hiệu quả, thị trường lao động hiệu quả, phát triển thị trường tài chính, sẵn sàng công nghệ, kích cỡ thị trường, kinh doanh tinh vi (tinh xảo), đổi mới. ▪ Có tương quan nhau, tác động lẫn nhau: cột trụ 12  cột trụ 4&5, cột trụ 8&9 liên quan cột trụ 6… [WEF13] World Economic Forum (2013). The Global Competitiveness Report 2013– 2014. http://www3.weforum.org/docs/WEF_GlobalCompetitivenessReport_2013- 14.pdf
  12. Trình độ nền kinh tế: 3 mức ⚫ Nền kinh tế định hướng yếu tố cơ bản ▪ factor-driven economy ▪ lợi thế cạnh tranh: xuất khẩu yếu tố giá trị thấp như tài nguyên thiên nhiên và lao động chưa qua chế biến ▪ rất nhạy cảm :chu kỳ KT thế giới, giá hàng hóa, biến động tỷ giá ⚫ Nền kinh tế định hướng hiệu quả 12 ▪ Efficiency - Driven Economy ▪ Lợi thế cạnh tranh: sản phẩm và dịch vụ tiên tiến hơn rất hiệu quả (i) Đầu tư mạnh cơ sở hạ tầng hiệu quả; (ii) quản lý chính quyền thân thiện với doanh nghiệp; (iii) ưu đãi đầu tư mạnh; (iv) nâng cao kỹ năng; (v) tiếp cận tốt với nguồn vốn đầu tư nhằm cải thiện lớn về năng suất ⚫ Nền kinh tế định hướng đổi mới ▪ innovation-driven economy ▪ Lợi thế cạnh tranh: sản phẩm, dịch vụ mới và/hoặc độc đáo ▪ dựa trên công nghệ mới nhất và/hoặc quy trình sản xuất/mô hình kinh doanh tinh vi nhất ▪ Khu vực dịch vụ có tỷ trọng cao trong nền kinh tế ▪ kiên cường trước những cú sốc từ bên ngoài
  13. Mối quan hệ các cột trụ với nền kinh tế 13 Việt Nam [WEF13] World Economic Forum (2013). The Global Competitiveness Report 2013–2014. Nghị quyết 19/2014/NQ-CP ngày 18/3/2014 của Chính phủ về những nhiệm vụ, giải pháp chủ yếu cải thiện môi trường kinh doanh, nâng cao năng lực cạnh tranh quốc gia
  14. Giới thiệu Khai phá quy trình - Wil van der Aalst ▪ ĐHCN Eindhoven (Eindhoven Univ. of Technology (TU/e)) ▪ Khởi xướng và duy trì phát triển khai phá quá trình ▪ http://wwwis.win.tue.nl/~wvdaalst/ ▪ Master's thesis “Specificatie en Simulatie met behulp van ExSpect” Đặc tả và mô phỏng bởi ExSpect, 1988 ▪ PhD thesis “Timed coloured Petri nets and their application to logistics”, 1992 14 ▪ Nhà khoa học Tin học ngoài Mỹ có chỉ số h-index cao thứ nhất: 112 (9/2015; 101: 9/2013, 94: 5/2013) http://www.cs.ucla.edu/~palsberg/h- number.html - Tổ chức nghề nghiệp về khai phá quy trình ▪ http://www.processmining.org/: Cho tài nguyên phong phú: ▪ các bài báo, ▪ luận án Tiến sỹ [Http] http://www.processmining.org/publications/phd July ▪ bộ công cụ PRoM và các công cụ khác 12, ▪ các tập dữ liệu nhật ký sự kiện: một phần từ hơn 100 tổ chức 202 1
  15. Mối quan hệ giữa một số khái niệm 15
  16. Khái niệm và triết lý khai phá quy trình - Khái niệm khai phá quy trình ▪ Process Mining: chiết xuất thông tin có giá trị, liên quan đến quy trình từ các nhật ký ghi sự kiện, bổ sung vào các tiếp cận hiện có để quản lý quy trình tác nghiệp (Business Process Management : BPM). ▪ Kết hợp giữa khai phá dữ liệu và quản lý quy trình tác nghiệp 16 - Triết lý “đường mòn” của khai phá quy trình ▪ Đường mòn (desire line) / đường xã hội (the social trail) ▪ Là con đường được hình thành do sự xói mòn bởi bước chân của con người hoặc động vật ▪ Chiều rộng và độ xói mòn thể hiện độ thường xuyên sử dụng ▪ “Đường mòn là ngắn nhất/thuận tiện nhất giữa hai điểm ▪ Xói mòn càng cao  Sử dụng càng thường xuyên ▪ Hành động trong kinh doanh hình thành đường mòn kinh doanh ~ nhật ký sự kiện phản ánh quy trình tốt/thuận tiện July 12, [Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance 202 and Enhancement of Business Processes, Springer, 2011. 1
  17. Ví dụ triết lý đường mòn - Xây dựng lối đi trong ĐH Columbia ▪ Tác giả: Dwight Eisenhower, Chủ tịch ĐH Columbia (sau này là Tổng thống Mỹ đời thứ 34) ▪ Bài toán: xây lối đi tốt nhất nối các nhà trong khu trường ▪ Lời giải: ▪ Cho cỏ mọc giữa các tòa nhà và trì hoãn tạo vỉa hè ▪ Mọi người đi: Hình thành dần lối mòn giữa các nhà ▪ Xây vỉa hè theo các lối mòn đó 17
  18. Cơ bản về Khai phá quy trình - Khái niệm ⚫ KPQT: phát hiện, theo dõi, cải thiện quy trình kinh doanh dựa trên trích xuất tri thức từ nhật ký sự kiện NKSK (event log) ⚫ NKSK={trường hợp (case) “thể hiện” quy trình}: “xuất phát điểm của KPQT” ⚫ Case: dãy có thứ từ các hành động (activity), hành động được “xác định tốt” ⚫ NKSK = {hành vi quan sát được}  {hành vi} - Cộng đồng KPQT ⚫ Quan tâm KPQT: Tuyên ngôn KPQT (Process Mining Manifesto) do the IEEE Task Force on Process Mining công bố ⚫ 53 tổ chức, 77 chuyên gia KPQT (người dùng, cung cấp công cụ, tư vấn, phân tích, nghiên cứu): KPDL  KPQT  mô hình hóa BM (quy trình kinh doanh) [Aalst13] Wil M. P. van der Aalst (2013). Decomposing Petri nets for process mining: A generic approach. Distributed and Parallel Databases 31(4): 471-507 18
  19. Khai phá quy trình: cầu nối Triết lý “đường mòn” [Aalst11] khai phá dữ liệu với khoa học quy trình 19
  20. Vai trò của khai phá quy trình ▪ Quản lý quy trình nghiệp vụ (tự động hóa): Vòng đời hở (pha chẩn đoán: Diagnosis) theo tiếp cận truyền thống (trái), vòng đời khép kín theo tiếp cận khai phá quy trình (phải) [Mans11] Ronny Mans. Workflow Support for the Healthcare Domain. PhD Thesis, Eindhoven University of Technology, 2011 20
nguon tai.lieu . vn