Xem mẫu

  1. BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ KHAI PHÁ DỮ LIỆU PGS. TS. Hà Quang Thụy HÀ NỘI, 09-2020 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/ 1
  2. Nội dung 1. Tại sao khai phá dữ liệu (KPDL)? 2. Khái niệm KPDL và phát hiện tri thức trong CSDL 3. KPDL và xử lý CSDL truyền thống 4. Kiểu dữ liệu trong KPDL 5. Kiểu mẫu được khai phá 6. Công nghệ KPDL điển hình 7. Một số ứng dụng điển hình 8. Các vấn đề chính trong KPDL 2
  3. 1. Tại sao khai phá dữ liệu ⚫ Một ví dụ: Donal Trump Thắng cử Tổng thống Mỹ ⚫ Bùng nổ dữ liệu và dữ liệu lớn (Big Data) ▪ Lý do công nghệ ▪ Lý do xã hội ▪ Thể hiện ⚫ Ngành kinh tế tri thức, dữ liệu và thông tin (Infonomics) ▪ Kinh tế tri thức ▪ Phát hiện tri thức từ dữ liệu ⚫ Nhu cầu khai phá dữ liệu tại Việt Nam ▪ Trường hè KHDL 2016 3
  4. Ví dụ: Tại sao khai phá dữ liệu ? ⚫ Phân tích dữ liệu giúp ứng viên Tổng thống Mỹ 1. Đào Trung Thành. Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ. http://vietnamnet.vn/vn/cong-nghe/ung-dung/big-data-giup-donald-trump-chien-thang- trong-cuoc-bau-cu-my-big-data-nguy-hiem-den-muc-nao-346181.html.(13/12/2016, 15:02 GMT+7). Big Data nguy hiểm tới mức nào? http://vietnamnet.vn/vn/cong- nghe/ung-dung/big-data-da-giup-trump-chien-thang-trong-cuoc-bau-cu-my-the-nao- 346184.html (10/02/2017 21:55:30 (GMT+7)) TÍNH MỚI LẠ TỪ DỮ LIỆU LỚN 2. TRẦN THẮNG (kỹ sư hàng không ở Mỹ). Mạng xã hội giúp ông Trump đắc cử tổng thống Mỹ như thế nào? http://tuoitre.vn/tin/the-gioi/bau-cu-tong-thong-my- 2016/20161110/it-phieu-hon-vi-sao-ong-trum-dac-cu-tong-thong-my/1216150.html (10/11/2016 19:15 GMT+7) TÍNH KHÁC BIỆT: TWITER  TRUYỀN THÔNG TT 3. Von Hannes Grassegger und Mikael Krogerus. Ich habe nur gezeigt, dass es die Bombe gibt. Das Magazin N°48 – 3. Dezember 2016. https://www.dasmagazin.ch/2016/12/03/ich-habe-nur-gezeigt-dass-es-die-bombe-gibt/. Nhà tâm lý học Michal Kosinski phát triển một phương pháp phân tích tinh tế mọi người dựa trên hành vi của họ trên Facebook. Và như thế giúp Donald Trump chiến thắng. PHƯƠNG PHÁP, KỸ THUẬT MIỀN ỨNG DỤNG: PHÂN TÍCH DỮ LIỆU TÂM LÝ 4. http://www.michalkosinski.com/: an Assistant Professor in Organizational Behavior at Stanford Graduate School of Business 5. Leonid Bershidsky. No, Big Data Didn't Win the U.S. Election. https://www.bloomberg.com/view/articles/2016-12-08/no-big-data-didn-t-win-the-u-s- election (DEC 8, 2016 2:56 PM EST). "Obviously, it is not big data analytics that wins the election," he (Michal Kosinski) wrote back. "Candidates do. We don't know how much his victory was helped by big data analytics.“ KINH DOANH MÀ KHÔNG LÀ 4 CÔNG NGHỆ
  5. Công nghệ: Bùng nổ dữ liệu: Luật Moore [APEC18] [42Year] ⚫ Xu thế từ Định luật Moore ▪ Gordon E. Moore (1965). Cramming more components onto integrated circuits, Electronics, 38 (8), April 19, 1965. Một quan sát và dự báo ▪ Lượng bóng bán dẫn (giá) của mạch tích hợp tăng (rẻ) gần gấp đôi sau mỗi chu kỳ hai năm ▪ Máy tính (điện thoại, v.v.) mạnh hơn, gọn hơn, giá cả phù hợp [APEC18] APEC Policy Support Unit. APEC Regional Trends Analysis - The Digital Productivity Paradox. Asia-Pacific Economic Cooperation Policy Support Unit, November 2018. [42Year] https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ 5
  6. Bùng nổ dữ liệu: Giá thành và thể hiện https://www.seagate.com/as/en/our-story/data-age-2025/ ⚫ Nguồn: IDC Digital Universe Study, Seagate Technology, 2018 ⚫ Giá tạo dữ liệu ngày càng rẻ hơn ▪ Chiều hướng giá tạo mới dữ liệu giảm dần ▪ 0,5 xu Mỹ/1 GB vào năm 2009 giảm tới 0,02 xu Mỹ /1 GB vào năm 2020 ⚫ Dung lượng tổng thể tăng ▪ Độ dốc tăng càng cao ▪ Đã đạt 33ZB năm 2018 (năm 2011 dự kiến đạt 35 ZB vào năm 2020) 6
  7. Phân bổ lượng dữ liệu theo khu vực https://www.seagate.com/as/en/our-story/data-age-2025/ Rest of World US Asia-Pacific, including Japan, except China The Europe, the Middle East, and Africa EMEA China Nguồn: IDC Digital Universe Study, Seagate Technology, 2018 7
  8. Nhu cầu nắm bắt dữ liệu ⚫ Bùng nổ dữ liệu với tăng trưởng nhận lực CNTT ▪ Dung lượng thông tin tăng 67 lần, đối tượng dữ liệu tăng 67 lần ▪ Lực lượng nhân lực CNTT tăng 1,4 lần ▪ Nguồn: IDC Digital Universe Study, sponsored by EMC, May 2010. 8
  9. Nhu cầu thu nhận tri thức từ dữ liệu ⚫ Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998 ▪ “Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học, dữ liệu tài chính, và các dữ liệu tiếp thị. Con người không có đủ thời gian để xem xét dữ liệu như vậy. Sự chú ý của con người đã trở thành nguồn tài nguyên quý giá. Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tự động tóm tắt nó, tự động phát hiện và mô tả các xu hướng trong nó, và tự động chỉ dẫn các dị thường. Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng đồng nghiên cứu cơ sở dữ liệu. Các nhà nghiên cứu trong lĩnh vực bao gồm thống kê, trực quan hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh vực này. Bề rộng của lĩnh vực làm cho nó trở nên khó khăn để nắm bắt những tiến bộ phi thường trong vài thập kỷ gần đây” [HK0106]. ⚫ Kenneth Cukier, ▪ “Thông tin từ khan hiếm tới dư dật. Điều đó mang lại lợi ích mới to lớn… tạo nên khả năng làm được nhiều việc mà trước đây không thể thực hiện được: nhận ra các xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm … Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các nguồn mới có giá trị kinh tế, cung cấp những hiểu biết mới vào khoa học và tạo ra lợi ích từ quản lý”. http://www.economist.com/node/15557443?story_id=15557443 9
  10. Kinh tế tri thức ⚫ Kinh tế tri thức ▪ Tri thức là tài nguyên cơ bản ▪ Sử dụng tri thức là động lực chủ chốt cho tăng trưởng kinh tế ⚫ Hình vẽ: Năm 2003, đóng góp của tri thức cho tăng GDP/đầu người của Hàn Quốc gấp đôi so với đóng góp của lao động và vốn. TFP: Total Factor Productivity (The World Bank. Korea as a Knowledge Economy, 2006) 10
  11. Kinh tế dịch vụ: Từ dữ liệu tới giá trị ⚫ Kinh tế dịch vụ ▪ Xã hội loài người chuyển dịch từ kinh tế hàng hóa sang kinh tế dịch vụ. Lao động dịch vụ vượt lao động nông nghiệp (2006). ▪ Mọi nền kinh tế là kinh tế dịch vụ. ▪ Đơn vị trao đổi trong kinh tế và xã hội là dịch vụ ⚫ Dịch vụ: dữ liệu & thông tin  tri thức  giá trị mới ▪ Khoa học: dữ liệu & thông tin  tri thức ▪ Kỹ nghệ: tri thức  dịch vụ ▪ Quản lý: tác động tới toàn bộ quy trình thi hành dịch vụ Jim Spohrer (2006). A Next Frontier in Education, Employment, Innovation, and Economic Growth, IBM Corporation, 2006 11
  12. Quá trình tiến hóa dữ liệu tới trí tuệ ⚫ Từ dữ liệu tới trí tuệ ▪ Dữ liệu (data): dữ kiện không ngữ cảnh. Trình bày dữ kiện. ▪ Thông tin (information): dữ kiện với ngữ cảnh và khía cạnh nào đó. Dữ liệu có ý nghĩa, dữ liệu trong ngữ cảnh. Hiểu được quan hệ ▪ Tri thức (knowledge): Thông tin được dung để phát hiện và hiểu được mẫu trong dữ liệu. Hiểu được mẫu ▪ Trí tuệ (wisdom): Tri thức nảy sinh khi hiểu được lý do mẫu xuất hiện trong dữ liệu. Hiểu được nguyên lý ▪ http://www.systems-thinking.org/kmgmt/kmgmt.htm 12
  13. Dữ liệu lớn không ngừng gia tăng và giá trị ▪ (i) Mỹ: tiết kiệm 300 tỷ US$ ngành y tế, (ii) Châu Âu: chỉnh phủ tiết kiệm 100 tỷ Euro (giảm gian lận, sai sót, chênh lệch thuế), v.v. [Chen14] Min Chen, Shiwen Mao, Yunhao Liu. Big Data: A Survey. MONET 19(2): 171-209, 2014. 13
  14. Giá trị dữ liệu: Ví dụ 1 (Capital One) ⚫ -1980’s: Mô hình xác suất mặc định với thẻ tín dụng đồng mức ▪ Người q/lý NH tin khách hàng chưa ưa mức khác nhau; ▪ HTTT chưa thể đáp ứng quản lý mức tín dụng khác nhau ⚫ Richard Fairbanks và Nigel Morris ▪ CNTT cho mô hình dự báo tinh vi hơn (mô hình lợi nhuận), đủ năng lực các mức tín dụng ▪ Thuyết phục nhà QL NH lớn: thất bại. ▪ Thuyết phục được người QL ngân hàng nhỏ Signet Bank: tin một tỷ lệ nhỏ khách hàng thực sự tạo ra hơn 100% lợi nhuận của NH từ hoạt động thẻ tín dụng ▪ MHLN: tốt hơn → KH tốt nhất + thu hút KH tốt nhất từ NH lớn http://www.fundinguniverse.com/company-histories/capital-one-financial-corporation- history/ và https://www.capitalone.com/ 14
  15. Giá trị dữ liệu: Ví dụ 1 (Capital One) ⚫ Thiếu dữ liệu và giải pháp ▪ Không có dữ liệu với mức thẻ tín dụng khác nhau. ▪ Tạo DL cho mô hình (MHLN): cung cấp ngẫu nhiên mức tín dụng khác nhau tới KH khác nhau. DL là tài nguyên thì phải đầu tư ▪ Tốn kém: tỷ lệ "khoanh nợ“: 2,9% đầu ngành, do cung cấp ngẫu nhiên giảm sút tới gần 6% dư chưa thanh toán ⚫ Kết quả ▪ 4 năm: vừa thu thập dữ liệu vừa hoàn thiện mô hình. 1994. (Học máy tăng cường). 1994 tách thành Capital One ▪ Nhanh chóng thành có lợi nhuận lớn nhất. Nhà phát hành thể tín dụng thứ sáu nước Mỹ: mở 48,6 triệu tài khoản 53,2 tỷ US$, 12% gia đình Mỹ. ▪ Bền vững sau khủng khoảng 9/11 ▪ Chiến lược dựa trên thông tin Information-Based Strategy (IBS) là lợi thế lớn http://www.fundinguniverse.com/company-histories/capital-one-financial-corporation- history/ và https://www.capitalone.com/ 15
  16. Giá trị dữ liệu: Ví dụ 2 (Microsoft-LinkedIn) ⚫ Sự kiện và vấn đề ▪ Microsoft mua lại LinkedIn với giá 26,2 tỷ đô-la Mỹ ▪ Định giá kế toán của LinkedIn là 3,2 tỷ đô-la Mỹ ▪ Độ chênh lệch 23 tỷ đô-la Mỹ là một con số rất lớn ? ⚫ Giá trị dữ liệu Linkedln mang lại cho Microsoft ▪ 23 tỷ đô-la Mỹ chủ yếu từ giá trị dữ liệu ▪ Đo lường giá trị dữ liệu ? ▪ Infonomics (Chương 2) ⚫ Với Google và Facebook ▪ Ban đầu: Dữ liệu phục vụ quảng cáo tốt hơn ▪ Hiện tại: Dữ liệu là một dịch vụ trí tuệ nhân tạo. Công nghiệp 4.0 ⚫ Liên hệ với Grab Việt Nam ▪ Họ thu thập được các dữ liệu gì ? ▪ Dữ liệu đó có thể được sử dụng (kinh doanh) như thế nào ? https://www.forbes.com/sites/bernardmarr/2017/05/31/why-every-business-needs- infonomics-in-a-big-data-world-and-what-it-is/#1e290da64c69 https://www.economist.com/news/briefing/21721634-how-it-shaping-up-data-giving- rise-new-economy 16
  17. Ví dụ 3: Chi tiêu dữ liệu 2016-18, 2019-21 2019-21 2019-21 2016-18 2019-21 2016-18 2016-18 2016-18 2019-21 2016-18 2019-21 2016-18 2019-21 ⚫ McKinsey & Company ▪ Chi tiêu dữ liệu hàng năm: hàng trăm triệu đô la/công ty loại vừa đến hàng tỷ đô la/công ty lớn nhất. COVID-19 tăng chi phí. https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/reducing- data-costs-without-jeopardizing-growth. July 31, 2020 17
  18. Ví dụ 3: Phân bố chi phí theo công đoạn 2019-21 2019-21 2016-18 2019-21 2016-18 2016-18 2016-18 2019-21 2016-18 2019-21 2016-18 2019-21 ⚫ McKinsey & Company, 2020 ▪ (1). Không bao gồm quy trình thu thập dữ liệu nội bộ; (2). Các ngành công nghiệp không trực tiếp chạm vào người tiêu dùng (ví dụ: hàng hóa đóng gói của người tiêu dùng) dành phần cao hơn (> 20%) cho việc tìm nguồn cung ứng dữ liệu; (3) Đối với công ty loại vừa có doanh thu từ 5 tỷ đến 10 tỷ đô la và chi phí hoạt động từ 4 tỷ đến 6 tỷ đô la. ▪ Giá trị tuyệt đối khác nhau tùy theo ngành và quy mô công ty; ví dụ, chi tiêu tuyệt đối (trung bình) của ngành viễn thông là cao hơn. 18
  19. Giá trị dữ liệu: Thị trường dữ liệu châu Âu Tăng trường hàng năm 14,1% Tăng trường hàng năm 8,9% € 247 billion in 2013 2,0% GDP châu Âu 4,0% GDP châu Âu https://ec.europa.eu/digital-single-market/en/news/final-results-european-data- market-study-measuring-size-and-trends-eu-data-economy 19
  20. Việt nam:Trường hè Khai phá dữ liệu 2016 ⚫ Chuỗi trường hè của Trường ĐHCN ▪ 26/11/2014: Hội thảo “Machine Learning and Its Application in Vietnam (MLAVN)” thuộc ACML 2014 tại NhaTrang (Ảnh). ▪ 10-13/8/2015: Trường hè “Học máy thống kê” tại Nhà G3, ĐHCN ▪ 16-19/8/2016: Trường hè “Khai phá dữ liệu” tại Nhà G3, ĐHCN. http://fit.uet.vnu.edu.vn/dmss2016/ ▪ 2017 (dự kiến): Trường hè “Khoa học dữ liệu”? Trao đổi 19/8/2016 20
nguon tai.lieu . vn