Xem mẫu

  1. CÁC HỆ THỐNG THÔNG MINH NHÂN TẠO & ỨNG DỤNG Máy Học THS. BÙI THỊ DANH BM.KHMT, KHOA CNTT, ĐH.KHTN TP.HCM
  2. Nội dung chính Máy học là gì? Phương pháp Naïve Bayes Phương pháp ID3 Phương pháp ILA 2
  3. Máy học là gì? Arthur Samuel (1959): Máy học là một lĩnh vực nghiên cứu mang lại cho máy tính khả năng học mà không phải lập trình một cách tường minh. 3
  4. Máy học là gì? Tom Mitchell (1998): Một chương trình máy tính được nói là “học” từ 𝑘𝑖𝑛ℎ 𝑛𝑔ℎ𝑖ệ𝑚 𝐸 tương ứng với 𝑐ô𝑛𝑔 𝑣𝑖ệ𝑐 𝑇 và độ đo ℎ𝑖ệ𝑢 𝑠𝑢ấ𝑡 𝑃 nếu hiệu suất trên 𝑇, được đo bởi 𝑃, cải thiện nhờ kinh nghiệm 𝐸 Ví dụ: một chương trình máy tính xem xét các emails mà chúng ta đã đánh dấu và không đánh dấu là “spam”, từ đó học được cách để lọc các email spam. ◦ 𝐶ô𝑛𝑔 𝑣𝑖ệ𝑐 𝑇: phân loại email là spam hay không phải spam ◦ 𝐾𝑖𝑛ℎ 𝑛𝑔ℎ𝑖ệ𝑚 𝐸: xem xét việc đánh dấu và không đánh dấu spam của chúng ta ◦ 𝐻𝑖ệ𝑢 𝑠𝑢ấ𝑡 𝑃: số lượng email phân loại đúng là spam/không phải spam 4
  5. Máy học là gì? Máy học có thể được dùng để: ◦ Khai thác dữ liệu: nhiều tập dữ liệu lớn đến từ sự phát triển của tự động hóa/web ◦ Dữ liệu click web, hồ sơ bệnh án, mạng xã hội … ◦ Xây dựng các ứng dụng không thể lập trình thủ công ◦ Xe hơi tự lái, nhận dạng chữ viết tay, xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính… ◦ Các chương trình tự điều chỉnh ◦ Hệ thống đề cử sản phẩm của Amazon, Netflix… ◦ Hiểu về việc học của con người (bộ não) 5
  6. Máy học là gì? Các thuật toán máy học có thể chia thể các nhóm: ◦ Supervised learning (học có giám sát) ◦ Unsupervised learning (học không có giám sát) ◦ Reinforcement learning (học tăng cường) ◦… 6
  7. Học có giám sát Dữ liệu dùng để “học” (hay huấn luyện) cần có “câu trả lời đúng” đi kèm. Ví dụ - Phát hiện và lọc email spam ◦ Dữ liệu học: các email đã được đánh dấu là spam và không được đánh dấu là spam. ◦ Dựa trên các thuộc tính(đặc trưng): chiều dài email, tỉ lệ kí tự, số lượng url… ◦ Phân loại cho các email mới. Ví dụ - Dự đoán giá nhà ◦ Dữ liệu học: các căn nhà và giá tương ứng ◦ Dựa trên các thuộc tính (đặc trưng): vị trí, diện tích, năm xây dựng ◦ Dự đoán giá cho các ngôi nhà không có trong dữ liệu học 7
  8. Học có giám sát Ví dụ - Chẩn đoán y khoa ◦ Học từ dữ liệu là những bệnh án của các bệnh nhân. ◦ Các thuộc tính: Sốt, nôn, tiêu chảy, rét run, … ◦ Dự đoán cho các ca mới Mẫu Sốt Nôn Tiêu chảy Rét run Phân loại d1 không không không không khỏe mạnh d2 trung bình không không không cúm d3 cao không không có cúm d4 cao có có không ngộ độc salmonella d5 trung bình không có không ngộ độc salmonella d6 không có có không viêm ruột d7 trung bình có có không viêm ruột d8 không không có có ? 8
  9. Học không giám sát Dữ liệu dùng để học không có “câu trả lời đúng” đi kèm Cố gắng hiểu dữ liệu và phát hiện ra các cấu trúc hay các mẫu trong dữ liệu 9
  10. Học không có giám sát 10
  11. Học tăng cường Tương tác với môi trường, nhận phản hồi và từ đó rút ra mô hình mà môi trường đang vận hành. Thực hiện tương tác agent Môi trường Nhận phản hồi (phần thưởng r) 11
  12. Học tăng cường 12
  13. Nội dung chính Máy học là gì? Phương pháp Naïve Bayes Phương pháp ID3 Phương pháp ILA 13
  14. Chẩn đoán y khoa Tính xác suất cho từng khả Mẫu Sốt Nôn Tiêu chảy Rét run Phân loại năng: d1 không không không không khỏe mạnh ◦ 𝑃 𝑘ℎỏ𝑒 𝑚ạ𝑛ℎ 𝑑8 d2 trung bình không không không cúm ◦ 𝑃(𝑐ú𝑚|𝑑8 ) d3 cao không không có cúm ◦ 𝑃 𝑛𝑔ộ độ𝑐 𝑑8 d4 cao có có không ngộ độc salmonella ◦ 𝑃(𝑣𝑖ê𝑚 𝑟𝑢ộ𝑡|𝑑8 ) d5 trung bình không có không ngộ độc salmonella d6 không có có không viêm ruột Chọn ra xác suất lớn nhất để quyết định nhóm bệnh của 𝑑8 d7 trung bình có có không viêm ruột d8 không không có có ? Tính như thế nào? 14
  15. Phương pháp Naïve Bayes Gọi 𝑋1, 𝑋2, … , 𝑋𝑛 là các thuộc tính trong tập dữ liệu, 𝑌 là thuộc tính phân lớp. Giả sử 𝑋1, 𝑋2, … , 𝑋𝑛 độc lập điều kiện với nhau khi cho 𝑌 Phương pháp dựa trên luật suy diễn xác suất Bayes: 𝑃 𝑋 𝑌 . 𝑃(𝑌) 𝑃 𝑌𝑋 = 𝑃(𝑋) 𝑃 𝑋 = 𝑑8 𝑌 = 𝑐ú𝑚 .𝑃(𝑌=𝑐ú𝑚) Ví dụ: 𝑃 𝑌 = 𝑐ú𝑚 𝑋 = 𝑑8 = 𝑃(𝑋=𝑑8 ) Mẫu Sốt Nôn Tiêu chảy Rét run Phân loại d1 không không không không khỏe mạnh d2 trung bình không không không cúm 15
  16. Phương pháp Naïve Bayes Ước lượng giá trị của 𝑃 𝑌 = 𝑐 : 𝑪𝒐𝒖𝒏𝒕(𝒄) 𝐏(𝐘 = 𝐜) = 𝑪𝒐𝒖𝒏𝒕(𝑫) ◦ 𝐶𝑜𝑢𝑛𝑡 𝑐 : số mẫu có 𝑌 = 𝑐 ◦ 𝐶𝑜𝑢𝑛𝑡(𝐷): tổng số mẫu có trong dữ liệu học. Ước lượng giá trị của 𝑃 𝑋 = d 𝑌 = 𝑐): ◦ 𝑋 được xác định bởi các thuộc tính 𝑋1, 𝑋2, … , 𝑋𝑛 và chúng độc lập nhau nên: 𝒏 𝑷 𝑿 = 𝒅 𝒀 = 𝒄 = 𝑷 𝑿𝟏 = 𝒙𝟏 , … , 𝑿𝒏 = 𝒙𝒏 𝒀 = 𝒄 = ෑ 𝑷(𝑿𝒊 = 𝒙𝒊 |𝒀 = 𝒄) 𝒊=𝟏 ◦ Theo đó, chúng ta cần ước lượng 𝑃(𝑋𝑖 = 𝑥𝑖 |𝑌 = 𝑐): 𝑪𝒐𝒖𝒏𝒕(𝒙𝒊 , 𝒄) 𝑷 𝑿𝒊 = 𝒙𝒊 𝒀 = 𝒄 = 𝑪𝒐𝒖𝒏𝒕(𝒄) ◦ C𝑜𝑢𝑛𝑡(𝑥𝑖 , 𝑐): số mẫu có 𝑌 = 𝑐 và thuộc tính thứ 𝑖 có giá trị là 𝑥𝑖 ◦ 𝐶𝑜𝑢𝑛𝑡(𝑐): số mẫu có 𝑌 = 𝑐 16
  17. Ví dụ 1 Mẫu Tuyết Thời tiết Mùa Sức khỏe Trượt tuyết? 1 ẩm sương mù vắng tốt không 2 khô nắng vắng bị thương không 3 khô nắng vắng tốt có 4 khô nắng cao điểm tốt có 5 khô nắng vừa phải tốt có 6 băng gió cao điểm mệt mỏi không 7 ẩm nắng vắng tốt có 8 băng sương mù vừa phải tốt không 9 khô gió vắng tốt có 10 khô gió vắng tốt có 11 khô sương mù vắng tốt có 12 khô sương mù vắng tốt có 13 ẩm nắng vừa phải tốt có 14 băng sương mù vắng bị thương không 17
  18. Ví dụ 1 Ước lượng 𝑃(𝑌 = 𝑐): ◦ 𝑃(𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑐ó) = 9/14 ◦ 𝑃(𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑘ℎô𝑛𝑔) = 5/14 Ước lượng 𝑃 𝑋1 = 𝑥𝑖 𝑌 = 𝑐 , với 𝑋1 ≡ 𝑇𝑢𝑦ế𝑡 ◦ 𝑃(𝑇𝑢𝑦ế𝑡 = ẩ𝑚 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑐ó) = 2/9 ◦ 𝑃(𝑇𝑢𝑦ế𝑡 = 𝑘ℎô | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑐ó) = 7/9 ◦ 𝑃(𝑇𝑢𝑦ế𝑡 = 𝑏ă𝑛𝑔 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑐ó) = 0/9 ◦ 𝑃(𝑇𝑢𝑦ế𝑡 = 𝑏ă𝑛𝑔 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑘ℎô𝑛𝑔) = 3/5 ◦ 𝑃(𝑇𝑢𝑦ế𝑡 = ẩ𝑚 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑘ℎô𝑛𝑔) = 1/5 ◦ 𝑃(𝑇𝑢𝑦ế𝑡 = 𝑘ℎô | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑘ℎô𝑛𝑔) = 1/5 18
  19. Ví dụ 1 Ước lượng 𝑃 𝑋2 = 𝑥𝑖 𝑌 = 𝑐 , với 𝑋2 ≡ 𝑇ℎờ𝑖 𝑡𝑖ế𝑡 ◦ 𝑃(𝑇ℎờ𝑖 𝑡𝑖ế𝑡 = 𝑔𝑖ó | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑐ó) = 2/9 ◦ 𝑃(𝑇ℎờ𝑖 𝑡𝑖ế𝑡 = 𝑛ắ𝑛𝑔 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑐ó) = 5/9 ◦ 𝑃(𝑇ℎờ𝑖 𝑡𝑖ế𝑡 = 𝑠ươ𝑛𝑔 𝑚ù | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑐ó) = 2/9 ◦ 𝑃(𝑇ℎờ𝑖 𝑡𝑖ế𝑡 = 𝑔𝑖ó | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑘ℎô𝑛𝑔) = 1/5 ◦ 𝑃(𝑇ℎờ𝑖 𝑡𝑖ế𝑡 = 𝑛ắ𝑛𝑔 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑘ℎô𝑛𝑔) = 1/5 ◦ 𝑃(𝑇ℎờ𝑖 𝑡𝑖ế𝑡 = 𝑠ươ𝑛𝑔 𝑚ù | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑘ℎô𝑛𝑔) = 3/5 19
  20. Ví dụ 1 Ước lượng 𝑃 𝑋3 = 𝑥𝑖 𝑌 = 𝑐 , với 𝑋3 ≡ 𝑀ù𝑎 ◦ 𝑃(𝑀ù𝑎 = 𝑐𝑎𝑜 đ𝑖ể𝑚 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑐ó) = 1/9 ◦ 𝑃(𝑀ù𝑎 = 𝑣ắ𝑛𝑔 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑐ó) = 6/9 ◦ 𝑃(𝑀ù𝑎 = 𝑣ừ𝑎 𝑝ℎả𝑖 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑐ó) = 2/9 ◦ 𝑃(𝑀ù𝑎 = 𝑐𝑎𝑜 đ𝑖ể𝑚 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑘ℎô𝑛𝑔) = 1/5 ◦ 𝑃(𝑀ù𝑎 = 𝑣ắ𝑛𝑔 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑘ℎô𝑛𝑔) = 3/5 ◦ 𝑃(𝑀ù𝑎 = 𝑣ừ𝑎 𝑝ℎả𝑖 | 𝑇𝑟ượ𝑡 𝑡𝑢𝑦ế𝑡 = 𝑘ℎô𝑛𝑔) = 1/5 20
nguon tai.lieu . vn