Dự báo dịch tả dựa trên mô hình học máy phân lớp

Việc nghiên cứu các phương pháp xây dựng mô hình dự báo mới có khả năng khắc phục các điểm yếu của các phương pháp dựa trên thống kê xác suất là cần thiết. Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá ảnh hưởng của các tham số, đồng thời lựa chọn thuật toán phân lớp tối ưu cho mô hình dự báo dịch tả ở thành phố Hà Nội. Mời các bạn cùng tham khảo! HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền Tru

Thể loại Tài liệu miễn phí Điện - Điện tử

Số trang 5

Ngày tạo 4/8/2023 4:01:49 AM +00:00

Loại tệp PDF

Kích thước 0.69 M

Tên tệp

Tải Dự báo dịch tả dựa trên mô hình học máy phân lớp (.pdf)

Xem mẫu

HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) Dự Báo Dịch Tả Dựa Trên Mô Hình Học Máy Phân Lớp Lê Thị Ngọc Anh và Hoàng Xuân Dậu Học Viện Công Nghệ Bưu Chính Viễn Thông Email: lengocanh@hmu.edu.vn, dauhx@ptit.edu.vn Abstract—Dự báo bệnh dịch nói chung và dự báo dịch tả nói dụng để phân tích và giải nghĩa dữ liệu. Tuy nhiên, nó khác riêng là một trong các nội dung quan trọng của công tác y tế dự thống kê ở chỗ phương pháp học máy có thể triển khai được phòng. Trong việc xây dựng mô hình dự báo bệnh dịch, phương với các toán tử logic (AND, OR, NOT), các toán tử điều kiện pháp được áp dụng nhiều nhất hiện nay là dịch tễ học toán học (IF, THEN, ELSE), các toán tử xác xuất, hoặc tối ưu hóa mô dựa trên thống kê hồi quy đa biến hoặc phân tích mối tương hình dữ liệu hay phân lớp. Học máy vẫn dựa chủ yếu vào thống quan. Các phương pháp dựa trên thống kê xác suất này cho kết kê và xác suất, nhưng nó hiệu quả hơn khi cho phép suy luận quả tốt với giả định rằng các biến là độc lập và dữ liệu có thể mô hoặc quyết định mà ở các phương pháp thống kê khác không hình hóa bằng cách tổ hợp tuyến tính giữa các biến. Tuy nhiên, thực hiện được [11,12]. khi mối quan hệ của các biến là phi tuyến tính và các biến có điều kiện phụ thuộc thì các phương pháp dựa trên thống kê thuần túy Trong học máy, phân lớp dữ liệu (classification) là một không còn phù hợp. Do vậy, việc nghiên cứu các phương pháp trong những hướng chính được nghiên cứu và ứng dụng rộng xây dựng mô hình dự báo mới có khả năng khắc phục các điểm rãi. Phân lớp dự đoán giá trị của những nhãn xác định yếu của các phương pháp dựa trên thống kê xác suất là cần thiết. (categorical label) hay những giá trị rời rạc (discrete value), có Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá bộ giá trị là biết trước. Trong khi đó, dự đoán lại xây dựng mô ảnh hưởng của các tham số, đồng thời lựa chọn thuật toán phân hình với các hàm nhận giá trị liên tục. Không phải lúc nào lớp tối ưu cho mô hình dự báo dịch tả ở thành phố Hà Nội. phương pháp học máy cũng đảm bảo thành công. Cũng giống như các phương pháp khác, việc thấu hiểu được vấn đề và đánh Keywords- Học máy, phân lớp, dự báo dịch bệnh, dự báo dịch tả. giá được những giới hạn của dữ liệu là rất quan trọng. Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá ảnh I. GIỚI THIỆU hưởng của các tham số mô hình cũng như các biến số khí hậu, Trong các loại dịch bệnh, dịch tả là một bệnh dịch nguy đồng thời lựa chọn thuật toán phân lớp tối ưu cho mô hình dự hiểm có khả năng lây lan nhanh, ảnh hưởng lớn đến sức khỏe báo dịch tả ở thành phố Hà Nội. của cộng đồng, thậm chí còn gây ra thiệt hại không nhỏ về Phần còn lại của bài báo được bố cục như sau: Phần 2 trình người. Việc nghiên cứu dự báo sớm nguy cơ xảy ra dịch tả, bày về việc lựa chọn thuật toán phân lớp cho các thử nghiệm giúp cho công tác chuẩn bị phòng chống dịch hiệu quả, giảm và phương pháp đánh giá; Phần 3 giới thiệu chi tiết mô hình dự thiểu các thiệt hại khi dịch bùng phát là rất cần thiết. Đã có báo dịch tả đề xuất; Phần 4 giới thiệu tập dữ liệu sử dụng cho nhiều mô hình dự báo tả được công bố [14-20]. Các phương thử nghiệm, nội dung và các kết quả thử nghiệm; Phần 5 phân pháp được áp dụng nhiều nhất là dịch tễ học toán học dựa trên tích các kết quả thử nghiệm thu được và Phần 6 là Kết luận và thống kê hồi quy đa biến hoặc phân tích mối tương quan. Các hướng phát triển. phương pháp dựa trên thống kê xác suất này cho kết quả tốt với giả định rằng các biến là độc lập và dữ liệu có thể mô hình hóa II. LỰA CHỌN THUẬT TOÁN VÀ ĐÁNH GIÁ ĐỘ bằng cách tổ hợp tuyến tính giữa các biến. Tuy nhiên, khi mối CHÍNH XÁC PHÂN LỚP quan hệ của các biến là phi tuyến tính và các biến có điều kiện Lựa chọn thuật toán phân lớp phụ thuộc thì các phương pháp dựa trên thống kê thuần túy Trong những thập niên gần đây, ứng dụng học máy nói không còn phù hợp. Do vậy, việc nghiên cứu các phương pháp xây dựng mô hình dự báo mới có khả năng khắc phục các điểm chung và phân lớp nói riêng có xu hướng lan rộng trong rất yếu của các phương pháp dựa trên thống kê xác suất là cần nhiều ngành khoa học để dự đoán một số thông tin của dữ liệu thiết. dựa trên những đặc tính đã biết. Có nhiều thuật toán phân lớp Trong những năm gần đây, học máy nổi lên là một phương được sử dụng rộng rãi cho các ứng dụng nhận dạng mẫu với dữ pháp hiệu quả trong xây dựng các mô hình dự báo trong nhiều liệu đầu vào là chuỗi thời gian, như Cây quyết định (Decision lĩnh vực, như nhận dạng mẫu, xử lý ngôn ngữ, tiếng nói, tin sinh,… Trong học máy, một loạt các kỹ thuật thống kê, xác Tree), Rừng ngẫu nhiên (Random Forests, RF) [3], Mạng nơ- xuất, tối ưu hóa,… được sử dụng cho phép máy tính “học” từ ron, các phương pháp Bayes [4], các mô hình Markov [4], k các ví dụ trong quá khứ và phát hiện ra các mô hình từ những hàng xóm gần nhất (k-nearest neighbor, k-NN) [11], hay Máy tập dữ liệu lớn và phức tạp. Học máy giống thống kê vì sử vector hỗ trợ (Support Vector Machines, SVM) [2, 6]. Các ISBN: 978-604-67-0635-9 348 348
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) thuật toán phân lớp/phân cụm kể trên đã được chứng minh là phố Hà Nội. Chuỗi dữ liệu đầu vào được biến đổi thành các đặc hiệu quả trong việc phân lớp dữ liệu trong nhiều ứng dụng và trưng trước khi áp dụng kỹ thuật học máy thống kê. lĩnh vực khác nhau [4]. Trong nghiên cứu này, chúng tôi trước hết áp dụng thuật toán Random Forests để huấn luyện xây dựng mô hình dự báo dịch tả ở Hà Nội, sau đó sử dụng kết quả này làm cơ sở để so sánh với một số thuật toán phân lớp học máy phổ biến khác nhằm tìm kiếm được thuật toán tối ưu cho Hình 1. Các nước xử lý của mô hình dự báo bài toán dự báo. Mô hình sử dụng thuật toán được lựa chọn sau đó sẽ được dùng để dự báo tình trạng dịch tả với các vector đặc Do dữ liệu đầu vào là chuỗi biến thiên liên tục theo thời gian, trưng đầu vào. nên để xác định khoảng thời gian nào có khả năng xảy ra dịch Lựa chọn phương pháp đánh giá độ chính xác của thuật hay bùng phát dịch, cần thực hiện phân chia dữ liệu thành các toán phân lớp đoạn dữ liệu gọi là frame, sử dụng một khung cửa sổ trượt (sliding window) với kích cỡ w ngày. Các frame có thể tách Ước lượng độ chính xác của bộ phân lớp rất quan trọng bởi rời, hoặc chồng lấn lên nhau với một khoảng cố định. Trong nó cho phép dự đoán được độ chính xác của các kết quả phân thực nghiệm xây dựng mô hình, chúng tôi sử dụng các khung lớp những dữ liệu tương lai. Độ chính xác còn là cơ sở để so cửa sổ trượt với các kích cỡ là 7 ngày, 14 ngày, 22 ngày và 30 sánh các mô hình phân lớp khác nhau. Có hai phương pháp ngày. Kích cỡ cửa sổ trượt được lựa chọn dựa trên các đặc đánh giá độ chính xác phổ biến là holdout và k-fold cross- điểm dịch tễ học của bệnh tả và phân bố dữ liệu tả. validation [10, 14]. Cả hai phương pháp này đều dựa trên các Trong dịch tễ học, để xác định mức độ bùng phát dịch, giá trị phân hoạch ngẫu nhiên tập dữ liệu ban đầu. số ca bệnh trung bình tháng khu vực, tính trên 0.000 dân được  Trong phương pháp holdout, dữ liệu dưa ra được phân chia sử dụng. Gọi giá trị này là a, trạng thái dịch tả có thể được chia ngẫu nhiên thành 2 phần là: tập dữ liệu huấn luyện và tập dữ thành 3 nhóm: liệu kiểm tra. Thông thường, 2/3 dữ liệu cấp cho tập dữ liệu •Nhóm không có dịch tả, hoặc nhóm “0” nếu a = 0; huấn luyện, phần còn lại cho tập dữ liệu kiểm tra [14]. •Nhóm dịch tả thấp, hoặc nhóm “ ” nếu 0 < a ≤ 1;  Trong phương pháp k-fold cross validation, tập dữ liệu ban •Nhóm dịch tả cao, hoặc nhóm “2” nếu a > . đầu được chia ngẫu nhiên thành k tập con (fold) có kích Mô hình sử dụng các đặc trưng thống kê cơ bản bao gồm thước xấp xỉ nhau S1, S2, …, Sk. Quá trình học và kiểm tra mean, min, max, variance, standard deviation để tách các đặc được thực hiện k lần. Tại lần lặp thứ i, Si là tập dữ liệu kiểm trưng của chuỗi dữ liệu đầu vào như sau: tra, các tập còn lại hợp thành tập dữ liệu huấn luyện. Có nghĩa là, đầu tiên việc huấn luyện được thực hiện trên các 1. Mean:  S  1  N si , trong đó Si là các giá trị số tập S2, S3,…, Sk, sau đó kiểm tra trên tập S1; tiếp tục quá N i 1 trình huấn luyện được thực hiện trên tập S1, S3, S4,…, Sk, trong frame S.N là độ dài của S. sau đó kiểm tra trên tập S2; và tiếp tục cho đến khi tập Sk Standard deviation: 1 2  s  S  N   S i được sử dụng làm tập kiểm tra. Độ chính xác là toàn bộ số 2. N i 1 1  s  s  N phân lớp đúng từ k lần lặp chia cho tổng số mẫu của tập dữ Var ( S )  i 2 3. Variance: N i 1 liệu ban đầu [10]. Nghiên cứu này lựa chọn sử dụng phương pháp k-fold cross 4. Min: giá trị nhỏ nhất trong Si validation để đánh giá độ chính xác của các thuật toán phân lớp, với k = 4. 5. Max: giá trị lớn nhất trong Si III. ĐỀ XUẤT MÔ HÌNH DỰ BÁO DỊCH TẢ Mô hình đề xuất sử dụng bộ phân loại Rừng ngẫu nhiên đề Nghiên cứu này đề xuất mô hình phân lớp để dự đoán tỷ lệ xuất bởi L. Breiman và A. Cutler [5] với công cụ Weka phiên bệnh tả trong một khoảng thời gian định sẵn, sử dụng các số bản 3.7 [21] để phân loại và đánh giá mức độ ảnh hưởng của liệu về khí hậu, môi trường dựa trên học máy thống kê rời rạc. các tham số của mô hình, các biến số khí hậu, thời tiết đến hiệu Mô hình đề xuất gồm các bước xử lý như mô tả trong Hình 1. năng của mô hình. Các độ đo: độ chính xác (Precision), độ bao Dữ liệu đầu vào sử dụng cho mô hình dự báo là chuỗi dữ liệu phủ (Recall) và độ đo F được lấy trung bình trên các lớp, áp theo thời gian, gồm chuỗi các giá trị liên tục của các biến số dụng theo phương pháp kiểm tra chéo 4 lần (4-folds cross- (khí hậu, thời tiết, độ ẩm, số giờ nắng …) trong khu vực thành validation). 349 349
HộiHội ThảoThảo Quốc Quốc Gia Gia 2015vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) IV. THỰC NGHIỆM VÀ KẾT QUẢ Bảng 1: Ảnh hưởng của kích cỡ cửa sổ trượt tới các độ đo của mô hình Trong phần này, chúng tôi thực hiện thử nghiệm mô hình với các dữ liệu các dữ liệu về thời tiết, dân số được cung cấp bởi 2. Ảnh hưởng của độ chồng lấn frame các cơ quan, gồm Viện nghiên cứu khí tượng thủy văn, Tổng Để đánh giá ảnh hưởng của độ chồng lấn giữa các frame kế cục dân số và Viện khoa học và môi trường. Dữ liệu cụ thể bao tiếp nhau với hiệu năng hệ thống, nghiên cứu đã thực hiện gồm: số dân của 29 quận huyện trong thành phố Hà Nội, từ thực nghiệm với các độ chồng lấn khác nhau, với kích cỡ cửa năm 2007 đến năm 20 0; diện tích, mật độ dân số của từng sổ trượt là 4 ngày. Độ chồng lấn giữa hai frame liền nhau có quận huyện. Các thông số thời tiết bao gồm: nhiệt độ trung thể từ 0 đến 13 ngày/14 ngày. Hình 2 thể hiện mức độ ảnh bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng lượng mưa, độ hưởng của độ chồng lấn tới hiệu năng của mô hình theo độ đo ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất trong ngày, F1. trung bình số giờ nắng trong ngày, tốc độ gió và chỉ số biến đổi 1 khí hậu SOI (ENSO). Về số liệu thống kê bệnh nhân tả được 0.95 cung cấp bởi Trung tâm y tế dự phòng Hà Nội: năm 2007 có 0.9 79 ca, năm 2008 có 2057 ca, năm 2009 có 89 ca và năm 0.85 2010 có 251 ca. Với mục đích đánh giá ảnh hưởng của các 0.8 F1 tham số (kích cỡ cửa số trượt, độ chồng lấn cửa sổ, các tham số 0.75 khí hậu, trễ thời gian) lên mô hình dự báo đề xuất và tìm ra 0.7 thuật toán cho kết quả phân lớp chính xác cao nhất, chúng tôi 0.65 tiến hành các thực nghiệm sau: ( ) Đánh giá ảnh hưởng của 0.6 0 1 2 3 4 5 6 7 8 9 10 11 12 13 kích cỡ cửa sổ trượt, (2) Đánh giá ảnh hưởng của độ chồng lấn Overlap (Ngày) frame, (3) Đánh giá ảnh hưởng của tập các đặc trưng, (4) Đánh Hình 2. Ảnh hưởng của độ chồng lấn frame độ đo F1 giá ảnh hưởng của các biến số, (5) Đánh giá ảnh hưởng của độ 3. Ảnh hưởng của tập đặc trưng trễ thời gian và (6) Thử nghiệm mô hình dự báo với một số Tiến hành thực nghiệm với 2 trường hợp: có sử dụng tập thuật toán phân lớp. Với mỗi thử nghiệm độ đo F được tính đặc trưng thống kê (mean, variance, standard deviation, min, toán làm cơ sở cho các phân tích, so sánh. max) và chỉ sử dụng các giá trị thô ban đầu của các biến số về 1. Ảnh hưởng của kích cỡ cửa sổ trượt khí hậu. Đối với trường hợp không sử dụng các đặc trưng Thực nghiệm được thực hiện với các kích cỡ cửa sổ trượt thống kê mà chỉ sử dụng các giá trị thô (số giá trị của từng khác nhau (7, 14, 22 và 30 ngày) và tham số độ chồng lấn là frame), thu được giá trị độ đo F là 0.902, còn khi sử dụng các 50%. Ngoài ra, các biến số về khí hậu được xem xét bao gồm: đặc trưng thống kê nêu trên, giá trị F thu được cao hơn là nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng 0.973. lượng mưa, độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất, 4. Ảnh hưởng của các biến số trung bình số giờ nắng trong ngày, tốc độ gió và ENSO. Dữ Để xác định mức độ ảnh hưởng của từng biến số, chúng tôi liệu tả đầu vào được gán nhãn gồm 3 loại: không có dịch, mức loại dần các biến số ra khỏi tập dữ liệu ban đầu và đánh giá sự dịch tả thấp và mức dịch tả cao, tương ứng với các giá trị a = 0; thay đổi của giá trị độ đo F so với tập đầy đủ các biến số. Kết 0 < a ≤ 1; a > 1. Sử dụng phương pháp kiểm tra chéo 4 lần, các quả thu được cho ở Bảng 2. dữ liệu huấn luyện đầu vào được dùng để tách đặc trưng, sau Biến số bị loại trừ F1 đó các vector đặc trưng được sử dụng để huấn luyện sử dụng Không loại biến số nào 0.973 bộ phân loại Random Forests. Kết quả thu được cho trên Bảng Nhiệt độ trung bình 0.970 1. Từ kết quả thử nghiệm cho ở Bảng 1 ta thấy, với kích cỡ cửa Nhiệt độ cao nhất 0.973 Nhiệt độ thấp nhất 0.971 sổ trượt 14 ngày, mô hình cho kết quả các độ đo tốt nhất. Trên Tổng lượng mưa 0.972 cơ sở này, chúng tôi lựa chọn cửa sổ trượt là 14 ngày cho các Độ ẩm trung bình 0.973 thử nghiệm tiếp theo. Độ ẩm cao nhất 0.971 Kích cỡ cửa sổ trượt Độ chính xác Độ bao phủ F1 Độ ẩm thấp nhất 0.973 Trung bình số giờ nắng 0.969 7 ngày 0.730 0.785 0.736 Tốc độ gió 0.972 14 ngày 0.747 0.796 0.751 Nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp 0.966 nhất 22 ngày 0.709 0.754 0.714 Độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất 0.972 ENSO 0.972 30 ngày 0.626 0.684 0.628 Bảng 2: Ảnh hưởng của các biến số đến độ đo F1 350 350
HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) 5. Thử nghiệm mô hình với biến số khí hậu hiện tại và mô Khi sử dụng tập đặc trưng thống kê thì độ dài vector đặc hình với các biến số khí hậu có độ trễ trưng ngắn hơn (gồm 5 đặc trưng tương đương mỗi vector có Để đánh giá khả năng xuất hiện ca bệnh tả sau một khoảng độ dài là 5) giúp cho thời gian huấn luyện cũng như thời gian dự đoán của bộ phân loại nhanh hơn, làm tăng tính hiệu quả thời gian có tác động của các yếu tố thời tiết, khí hậu trong quá của tập đặc trưng thống kê khi thử nghiệm với mô hình đề xuất. khứ, chúng tôi tiến hành thử nghiệm mô hình với biến số khí Giá trị độ đo F khi sử dụng tập đặc trưng thống kê cao hơn hậu khác nhau, từ đó đánh giá được ảnh hưởng yếu tố khí hậu, đáng kể so với khi không sử dụng tập đặc trưng này (0.973 so thời tiết tới khả năng gây ra dịch tả sau các khoảng thời gian với 0.902). tính theo tuần. Kết quả thử nghiệm cho trên Bảng 3. Các kết quả ở Bảng 2 cho thấy các biến số khí hậu có ảnh Trễ (tuần) 0 2 4 6 8 10 12 hưởng đáng kể đến độ đo F . Giá trị F1 thấp nhất là 0,966 và F1 0.973 0.973 0.974 0.978 0.979 0.979 0.976 0,969 khi loại bỏ cùng lúc cả 3 biến số về nhiệt độ và biến Bảng 3: Ảnh hưởng của các yếu tố khí hậu các tuần trước đó tới độ trung bình số giờ nắng. Giá trị F1 cao nhất là 0,973 khi không loại bỏ biến nào. đo F1 Kết quả ở Bảng 3 cho thấy khi sử dụng độ trễ thời gian là 8 6. Thử nghiệm với một số bộ phân loại khác với mô hình tuần hoặc 10 tuần thì F1 có giá trị lớn nhất là 0.979. Khi không biến số khí hậu có độ trễ sử dụng độ trễ hoặc sử dụng độ trễ 2 tuần thì F1 có giá trị nhỏ Trong các thực nghiệm trên đã thực hiện, chúng tôi sử dụng bộ nhất là 0.973. Như vậy, yếu tố khí hậu, thời tiết trong quá khứ phân loại là Random Forest [3] và đã đạt được độ chính xác có ảnh hưởng đến tỷ lệ mắc bệnh tả ở thành phố Hà Nội, và các yếu thời tiết từ 8 tuần hoặc 10 tuần trước đó ảnh hưởng nhiều khá cao (giá trị cao nhất của F1 = 0.979 như cho trên Bảng 3). nhất. Kết quả này là tương đồng với những nghiên cứu được Để có thêm căn cứ lựa chọn mô hình dự báo tối ưu cho bệnh tả thực hiện ở Đông Phi, Tazania khi nghiên cứu thời gian bùng ở Hà Nội, chúng tôi tiến hành bổ sung một số thực nghiệm với phát và các yếu tố khí hậu ảnh hưởng đến sự xuất hiện của các bộ phân loại học máy phổ biến khác, nhằm so sánh khả bệnh tả [14-20]. năng phân lớp của chúng. Kết quả thực nghiệm so sánh giữa Kết quả trong Bảng 4 cho thấy khả năng phân lớp tốt nhất các bộ phân lớp được trình bày trong Bảng 4. trong tất cả các trường hợp là của thuật toán Random Forests Trễ (tuần) trong trường hợp trễ 6 tuần, và 1-NN trong trường hợp trễ 10 0 2 4 6 8 10 12 tuần, cùng với giá trị F1=0.981. 1-NN là bộ phân lớp đơn giản, Random 0.979 0.980 0.978 0.981 0.979 0.980 0.976 tốc độ nhanh và không phụ thuộc vào tham số. Ưu điểm của Forest thuật toán Random Forests so với các thuật toán phân lớp khác J48 0.947 0.957 0.949 0.943 0.947 0.950 0.955 là tốc độ cao, độ chính xác cao, chống nhiễu tốt và đặc biệt là NaiveBayes 0.545 0.631 0.641 0.640 0.636 0.655 0.633 hiếm khi rơi vào tình trạng “quá vừa” (overfit) [7, 8, 9]. Như F Random 0.943 0.930 0.938 0.962 0.936 0.958 0.951 vậy, cả 2 thuật toán Random Forests và 1-NN đều có thể được Tree 1 chấp nhận cho xây dựng mô hình dự báo tả tại Hà Nội. 1-NN 0.979 0.978 0.978 0.976 0.976 0.981 0.974 Logistic 0.826 0.895 0.902 0.907 0.902 0.908 0.901 VI. KẾT LUẬN Multilayer Perceptron 0.961 0.968 0.964 0.960 0.975 0.975 0.975 Nghiên cứu đã đề xuất mô hình sử dụng học máy phân lớp (SVM) SMO 0.773 0.851 0.870 0.859 0.864 0.870 0.853 thống kê để dự báo dịch tả tại Hà Nội dựa trên việc phân tích Bảng 4. Bảng so sánh khả năng phân lớp của các bộ phân lớp phổ dữ liệu về các ca bệnh trong nhiều năm liên tiếp và các mối biến liên hệ với các yếu tố thời tiết, khí hậu. Các thực nghiệm đã được thực hiện để xem xét ảnh hưởng của các tham số như V. BÀN LUẬN kích cỡ cửa sổ trượt, mức độ chồng lấn giữa các khung dữ liệu Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm liên tiếp nhau, các loại đặc trưng thống kê, các yếu tố thời tiết, trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay khí hậu và ENSO với kết quả giá trị phân lớp a = 0; 0 < a 1. Kết quả thu nhận được cho thấy các tham số này đều của nghiên cứu này là một minh chứng cho sự phù hợp của có ảnh hưởng đối với hiệu năng của mô hình. Các yếu tố thời phương pháp phân lớp ứng dụng trong dự báo bệnh dịch trong tiết có ảnh hưởng quan trọng nhất tới việc dự báo là các biến lĩnh vực y tế. Trong mô hình dự đoán bệnh dịch tả dựa trên số về nhiệt độ trung bình, trung bình số giờ nắng và ENSO. phương pháp phân lớp, các thử nghiệm đã được thực hiện Ngược lại, các yếu tố hầu như không ảnh hưởng tới kết quả dự nhằm đánh giá độ chính xác của mô hình và ảnh hưởng của các báo là độ ẩm. Các kết quả thực nghiệm cũng chỉ ra rằng các tham số. yếu tố khí hậu trong quá khứ có ảnh hưởng quan trọng tới mô Các kết quả ở Bảng 1 và Hình 2 cho thấy kích cỡ cửa số hình ở các thời điểm 4, 8 và 10 tuần. Dựa trên các kết quả thực trượt và độ chồng lấn có ảnh hưởng đáng kể đến độ chính xác nghiệm thu được, có thể khẳng định hai thuật toán tối ưu nhất phân lớp. Cửa sổ trượt dài 4 ngày cho độ chính xác cao nhất. được đề xuất để sử dụng cho mô hình dự báo trên thực tế là 1- Khi độ chồng lấn nhỏ hơn 50% thì giá trị F có xu hướng tăng NN và Random Forests, với độ chính xác dự báo tỷ lệ mắc dần, tuy có một số thời điểm giảm, nhưng khi độ chồng lấn bệnh tả đạt khoảng 98%. càng tăng thì giá trị F tăng ổn định, đạt giá trị lớn nhất là gần Để tăng độ tin cậy của kết quả thực nghiệm trước khi có thể 0.973 với độ chồng lấn là 13 ngày. triển khai ứng dụng trong công tác dự báo bệnh dịch tả, nhóm 351 351
HộiHội Thảo Quốc Thảo Gia Quốc 2015 Gia 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông và Công Thông và CôngNghệ NghệThông ThôngTinTin (ECIT (ECIT 2015) 2015) nghiên cứu dự kiến sẽ tiếp tục thử nghiệm mô hình với các dữ 13. Fred Brauer, Pouline Van de Driessche and Jianhoo Wu, liệu ca bệnh trong một thời gian dài hơn nữa và bổ sung thêm Mathematical Epidemiology, Springer, 2008. các yếu tố khác, như môi trường, điều kiện sống và dân trí 14. J. Wang and S. Liao, A generalized cholera model and trong khu vực nghiên cứu. epidemic- endemic analysis, Hournal of Biological Dynamics, p.568-589, 2012. TÀI LIỆU THAM KHẢO 15. Y. Yue, J. Gong, D. Way, B. Kan, B. Li and C. Ke, Influence of 1. X. Wu (2008) “Top 10 algorithms in data mining,” Knowl. Inf. Climate factors on Vibro cholera dynamics in the Pearl River Syst., vol. 14, no. 1, pp. 1–37, 2008. estuary, South China, World J. Microliol Biotechnol, 2014. 2. C. J. C. Burges, “A tutorial on support vector machines for 16. R.C. Rainer, A. King, M. Emch, M. Yunus, S.G. Faruque and pattern recognition,” Data Min. Knowl. Discov., vol. 2, no. 2, M. Paucula, Highly localized sensitivity to climate forcing pp. 121–167, 1998. drives endemic cholera in a megacity, Proc.Nalt. Âcd. Sci. 3. L. Breiman, “Random forests,” Mach. Learn., vol. 45, no. , pp. U.S.S, 109,2033-2036, 2012. 5–32, 2001. 4. C. M. Bishop, Pattern recognition and machine learning. 17. Z. Mukandavire, S. Liao, J. Wang, H. Gaff, D.L. Smith, and Springer, 2006. J.G. Morris, Estimating the reproductive numbers for the 2008– 5. N. S. Altman, “An introduction to kernel and nearest-neighbor 2009 cholera outbreaks in Zimbabwe, Proc. Natl Acad. Sci. 108 nonparametric regression,” Am. Stat., vol. 46, no. 3, pp. 175– (2011), pp. 8767–8772. 185, 1992. 6. C.-W. Hsu, C.-C. Chang, C.-J. Lin, and others, “A practical 18. R. Reyburn, D. R. Kim, M. Emch và các cộng sự. (2011), guide to support vector classification.” 2003. "Climate variability and the outbreaks of cholera in Zanzibar, 7. L. Breiman, J. Friedman, C. J. Stone, and R. A. Olshen, East Africa: a time series analysis", Am J Trop Med Hyg, 84(6), Classification and regression trees. CRC press, 1984. tr. 862-9. 8. Caruana, R.; Niculescu-Mizil, A. (2006). An empirical 19. Sara L. M. Trærup;Ramon A. Ortiza;Anil Markandya (2011), comparison of supervised learning algorithms. Proc. 23rd "The Costs of Climate Change: A Study of Cholera in International Conference on Machine Learning . Cite SeerX: Tanzania", International Journal of Environmental Research 10.1.1.122.5901 and Public Health, 8, tr. 4386-4405. 9. Russell, Stuart; Norvig, Peter (2003). Artificial Intelligence: A Modern Approach (2nd ed.). Prentice Hall. ISBN 978- 20. Michael Emch et al (2008), "Seasonality of cholera from 1974 0137903955. to 2005: a review of global patterns", International Journal of 10. J. Gray, Data mining – Concepts and Techniques, Chapter 7 – Health Geographics, 7(31). Classification and Prediction series, Morgan Kaufmann 21. Bộ công cụ học máy Weka, www.cs.waikato.ac.nz/ml/weka/, Publishers, August 2000. University of Waikato, truy nhập tháng 8.2015. 11. T. Michell, Machine Learning, McGraw Hill, 1997. 12. Duda RO, Hart PE, Stork DG (2001) Pattern classification (2nd edition). New York: Wiley. 352 352

nguon tai.lieu . vn

Kiến trúc - Xây dựng Tự động hoá Điện - Điện tử Kĩ thuật Viễn thông Cơ khí - Chế tạo máy Năng lượng Hoá dầu Hoá học Sinh học