Xem mẫu
- HộiHội
Thảo Quốc
Thảo Gia
Quốc 2015
Gia 2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông và Công
Thông và CôngNghệ
NghệThông
ThôngTinTin (ECIT
(ECIT 2015)
2015)
Dự Báo Dịch Tả Dựa Trên Mô Hình
Học Máy Phân Lớp
Lê Thị Ngọc Anh và Hoàng Xuân Dậu
Học Viện Công Nghệ Bưu Chính Viễn Thông
Email: lengocanh@hmu.edu.vn, dauhx@ptit.edu.vn
Abstract—Dự báo bệnh dịch nói chung và dự báo dịch tả nói dụng để phân tích và giải nghĩa dữ liệu. Tuy nhiên, nó khác
riêng là một trong các nội dung quan trọng của công tác y tế dự thống kê ở chỗ phương pháp học máy có thể triển khai được
phòng. Trong việc xây dựng mô hình dự báo bệnh dịch, phương với các toán tử logic (AND, OR, NOT), các toán tử điều kiện
pháp được áp dụng nhiều nhất hiện nay là dịch tễ học toán học (IF, THEN, ELSE), các toán tử xác xuất, hoặc tối ưu hóa mô
dựa trên thống kê hồi quy đa biến hoặc phân tích mối tương hình dữ liệu hay phân lớp. Học máy vẫn dựa chủ yếu vào thống
quan. Các phương pháp dựa trên thống kê xác suất này cho kết kê và xác suất, nhưng nó hiệu quả hơn khi cho phép suy luận
quả tốt với giả định rằng các biến là độc lập và dữ liệu có thể mô hoặc quyết định mà ở các phương pháp thống kê khác không
hình hóa bằng cách tổ hợp tuyến tính giữa các biến. Tuy nhiên, thực hiện được [11,12].
khi mối quan hệ của các biến là phi tuyến tính và các biến có điều
kiện phụ thuộc thì các phương pháp dựa trên thống kê thuần túy Trong học máy, phân lớp dữ liệu (classification) là một
không còn phù hợp. Do vậy, việc nghiên cứu các phương pháp trong những hướng chính được nghiên cứu và ứng dụng rộng
xây dựng mô hình dự báo mới có khả năng khắc phục các điểm rãi. Phân lớp dự đoán giá trị của những nhãn xác định
yếu của các phương pháp dựa trên thống kê xác suất là cần thiết. (categorical label) hay những giá trị rời rạc (discrete value), có
Trong nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có
tả dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá bộ giá trị là biết trước. Trong khi đó, dự đoán lại xây dựng mô
ảnh hưởng của các tham số, đồng thời lựa chọn thuật toán phân hình với các hàm nhận giá trị liên tục. Không phải lúc nào
lớp tối ưu cho mô hình dự báo dịch tả ở thành phố Hà Nội. phương pháp học máy cũng đảm bảo thành công. Cũng giống
như các phương pháp khác, việc thấu hiểu được vấn đề và đánh
Keywords- Học máy, phân lớp, dự báo dịch bệnh, dự báo dịch
tả. giá được những giới hạn của dữ liệu là rất quan trọng. Trong
nghiên cứu này, chúng tôi xây dựng mô hình dự báo dịch tả
dựa trên học máy, từ đó tiến hành thực nghiệm để đánh giá ảnh
I. GIỚI THIỆU hưởng của các tham số mô hình cũng như các biến số khí hậu,
Trong các loại dịch bệnh, dịch tả là một bệnh dịch nguy đồng thời lựa chọn thuật toán phân lớp tối ưu cho mô hình dự
hiểm có khả năng lây lan nhanh, ảnh hưởng lớn đến sức khỏe báo dịch tả ở thành phố Hà Nội.
của cộng đồng, thậm chí còn gây ra thiệt hại không nhỏ về Phần còn lại của bài báo được bố cục như sau: Phần 2 trình
người. Việc nghiên cứu dự báo sớm nguy cơ xảy ra dịch tả, bày về việc lựa chọn thuật toán phân lớp cho các thử nghiệm
giúp cho công tác chuẩn bị phòng chống dịch hiệu quả, giảm và phương pháp đánh giá; Phần 3 giới thiệu chi tiết mô hình dự
thiểu các thiệt hại khi dịch bùng phát là rất cần thiết. Đã có báo dịch tả đề xuất; Phần 4 giới thiệu tập dữ liệu sử dụng cho
nhiều mô hình dự báo tả được công bố [14-20]. Các phương thử nghiệm, nội dung và các kết quả thử nghiệm; Phần 5 phân
pháp được áp dụng nhiều nhất là dịch tễ học toán học dựa trên tích các kết quả thử nghiệm thu được và Phần 6 là Kết luận và
thống kê hồi quy đa biến hoặc phân tích mối tương quan. Các hướng phát triển.
phương pháp dựa trên thống kê xác suất này cho kết quả tốt với
giả định rằng các biến là độc lập và dữ liệu có thể mô hình hóa II. LỰA CHỌN THUẬT TOÁN VÀ ĐÁNH GIÁ ĐỘ
bằng cách tổ hợp tuyến tính giữa các biến. Tuy nhiên, khi mối CHÍNH XÁC PHÂN LỚP
quan hệ của các biến là phi tuyến tính và các biến có điều kiện
Lựa chọn thuật toán phân lớp
phụ thuộc thì các phương pháp dựa trên thống kê thuần túy
Trong những thập niên gần đây, ứng dụng học máy nói
không còn phù hợp. Do vậy, việc nghiên cứu các phương pháp
xây dựng mô hình dự báo mới có khả năng khắc phục các điểm chung và phân lớp nói riêng có xu hướng lan rộng trong rất
yếu của các phương pháp dựa trên thống kê xác suất là cần nhiều ngành khoa học để dự đoán một số thông tin của dữ liệu
thiết. dựa trên những đặc tính đã biết. Có nhiều thuật toán phân lớp
Trong những năm gần đây, học máy nổi lên là một phương được sử dụng rộng rãi cho các ứng dụng nhận dạng mẫu với dữ
pháp hiệu quả trong xây dựng các mô hình dự báo trong nhiều liệu đầu vào là chuỗi thời gian, như Cây quyết định (Decision
lĩnh vực, như nhận dạng mẫu, xử lý ngôn ngữ, tiếng nói, tin
sinh,… Trong học máy, một loạt các kỹ thuật thống kê, xác Tree), Rừng ngẫu nhiên (Random Forests, RF) [3], Mạng nơ-
xuất, tối ưu hóa,… được sử dụng cho phép máy tính “học” từ ron, các phương pháp Bayes [4], các mô hình Markov [4], k
các ví dụ trong quá khứ và phát hiện ra các mô hình từ những hàng xóm gần nhất (k-nearest neighbor, k-NN) [11], hay Máy
tập dữ liệu lớn và phức tạp. Học máy giống thống kê vì sử vector hỗ trợ (Support Vector Machines, SVM) [2, 6]. Các
ISBN: 978-604-67-0635-9 348
348
- Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
thuật toán phân lớp/phân cụm kể trên đã được chứng minh là phố Hà Nội. Chuỗi dữ liệu đầu vào được biến đổi thành các đặc
hiệu quả trong việc phân lớp dữ liệu trong nhiều ứng dụng và trưng trước khi áp dụng kỹ thuật học máy thống kê.
lĩnh vực khác nhau [4]. Trong nghiên cứu này, chúng tôi trước
hết áp dụng thuật toán Random Forests để huấn luyện xây
dựng mô hình dự báo dịch tả ở Hà Nội, sau đó sử dụng kết quả
này làm cơ sở để so sánh với một số thuật toán phân lớp học
máy phổ biến khác nhằm tìm kiếm được thuật toán tối ưu cho
Hình 1. Các nước xử lý của mô hình dự báo
bài toán dự báo. Mô hình sử dụng thuật toán được lựa chọn sau
đó sẽ được dùng để dự báo tình trạng dịch tả với các vector đặc Do dữ liệu đầu vào là chuỗi biến thiên liên tục theo thời gian,
trưng đầu vào. nên để xác định khoảng thời gian nào có khả năng xảy ra dịch
Lựa chọn phương pháp đánh giá độ chính xác của thuật hay bùng phát dịch, cần thực hiện phân chia dữ liệu thành các
toán phân lớp đoạn dữ liệu gọi là frame, sử dụng một khung cửa sổ trượt
(sliding window) với kích cỡ w ngày. Các frame có thể tách
Ước lượng độ chính xác của bộ phân lớp rất quan trọng bởi
rời, hoặc chồng lấn lên nhau với một khoảng cố định. Trong
nó cho phép dự đoán được độ chính xác của các kết quả phân
thực nghiệm xây dựng mô hình, chúng tôi sử dụng các khung
lớp những dữ liệu tương lai. Độ chính xác còn là cơ sở để so
cửa sổ trượt với các kích cỡ là 7 ngày, 14 ngày, 22 ngày và 30
sánh các mô hình phân lớp khác nhau. Có hai phương pháp
ngày. Kích cỡ cửa sổ trượt được lựa chọn dựa trên các đặc
đánh giá độ chính xác phổ biến là holdout và k-fold cross-
điểm dịch tễ học của bệnh tả và phân bố dữ liệu tả.
validation [10, 14]. Cả hai phương pháp này đều dựa trên các
Trong dịch tễ học, để xác định mức độ bùng phát dịch, giá trị
phân hoạch ngẫu nhiên tập dữ liệu ban đầu.
số ca bệnh trung bình tháng khu vực, tính trên 0.000 dân được
Trong phương pháp holdout, dữ liệu dưa ra được phân chia sử dụng. Gọi giá trị này là a, trạng thái dịch tả có thể được chia
ngẫu nhiên thành 2 phần là: tập dữ liệu huấn luyện và tập dữ thành 3 nhóm:
liệu kiểm tra. Thông thường, 2/3 dữ liệu cấp cho tập dữ liệu •Nhóm không có dịch tả, hoặc nhóm “0” nếu a = 0;
huấn luyện, phần còn lại cho tập dữ liệu kiểm tra [14]. •Nhóm dịch tả thấp, hoặc nhóm “ ” nếu 0 < a ≤ 1;
Trong phương pháp k-fold cross validation, tập dữ liệu ban •Nhóm dịch tả cao, hoặc nhóm “2” nếu a > .
đầu được chia ngẫu nhiên thành k tập con (fold) có kích Mô hình sử dụng các đặc trưng thống kê cơ bản bao gồm
thước xấp xỉ nhau S1, S2, …, Sk. Quá trình học và kiểm tra mean, min, max, variance, standard deviation để tách các đặc
được thực hiện k lần. Tại lần lặp thứ i, Si là tập dữ liệu kiểm trưng của chuỗi dữ liệu đầu vào như sau:
tra, các tập còn lại hợp thành tập dữ liệu huấn luyện. Có
nghĩa là, đầu tiên việc huấn luyện được thực hiện trên các 1. Mean: S 1 N si , trong đó Si là các giá trị số
tập S2, S3,…, Sk, sau đó kiểm tra trên tập S1; tiếp tục quá N i 1
trình huấn luyện được thực hiện trên tập S1, S3, S4,…, Sk, trong frame S.N là độ dài của S.
sau đó kiểm tra trên tập S2; và tiếp tục cho đến khi tập Sk Standard deviation: 1 2
s S
N
S i
được sử dụng làm tập kiểm tra. Độ chính xác là toàn bộ số 2. N i 1
1
s s
N
phân lớp đúng từ k lần lặp chia cho tổng số mẫu của tập dữ Var ( S )
i
2
3. Variance: N i 1
liệu ban đầu [10].
Nghiên cứu này lựa chọn sử dụng phương pháp k-fold cross 4. Min: giá trị nhỏ nhất trong Si
validation để đánh giá độ chính xác của các thuật toán phân
lớp, với k = 4. 5. Max: giá trị lớn nhất trong Si
III. ĐỀ XUẤT MÔ HÌNH DỰ BÁO DỊCH TẢ Mô hình đề xuất sử dụng bộ phân loại Rừng ngẫu nhiên đề
Nghiên cứu này đề xuất mô hình phân lớp để dự đoán tỷ lệ xuất bởi L. Breiman và A. Cutler [5] với công cụ Weka phiên
bệnh tả trong một khoảng thời gian định sẵn, sử dụng các số bản 3.7 [21] để phân loại và đánh giá mức độ ảnh hưởng của
liệu về khí hậu, môi trường dựa trên học máy thống kê rời rạc. các tham số của mô hình, các biến số khí hậu, thời tiết đến hiệu
Mô hình đề xuất gồm các bước xử lý như mô tả trong Hình 1. năng của mô hình. Các độ đo: độ chính xác (Precision), độ bao
Dữ liệu đầu vào sử dụng cho mô hình dự báo là chuỗi dữ liệu phủ (Recall) và độ đo F được lấy trung bình trên các lớp, áp
theo thời gian, gồm chuỗi các giá trị liên tục của các biến số dụng theo phương pháp kiểm tra chéo 4 lần (4-folds cross-
(khí hậu, thời tiết, độ ẩm, số giờ nắng …) trong khu vực thành validation).
349
349
- HộiHội
ThảoThảo Quốc
Quốc Gia
Gia 2015vềvềĐiện
2015 ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
và Công
CôngNghệ
NghệThông
ThôngTinTin
(ECIT 2015)
(ECIT 2015)
IV. THỰC NGHIỆM VÀ KẾT QUẢ Bảng 1: Ảnh hưởng của kích cỡ cửa sổ trượt tới các độ đo của mô
hình
Trong phần này, chúng tôi thực hiện thử nghiệm mô hình với
các dữ liệu các dữ liệu về thời tiết, dân số được cung cấp bởi
2. Ảnh hưởng của độ chồng lấn frame
các cơ quan, gồm Viện nghiên cứu khí tượng thủy văn, Tổng
Để đánh giá ảnh hưởng của độ chồng lấn giữa các frame kế
cục dân số và Viện khoa học và môi trường. Dữ liệu cụ thể bao
tiếp nhau với hiệu năng hệ thống, nghiên cứu đã thực hiện
gồm: số dân của 29 quận huyện trong thành phố Hà Nội, từ
thực nghiệm với các độ chồng lấn khác nhau, với kích cỡ cửa
năm 2007 đến năm 20 0; diện tích, mật độ dân số của từng
sổ trượt là 4 ngày. Độ chồng lấn giữa hai frame liền nhau có
quận huyện. Các thông số thời tiết bao gồm: nhiệt độ trung
thể từ 0 đến 13 ngày/14 ngày. Hình 2 thể hiện mức độ ảnh
bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng lượng mưa, độ
hưởng của độ chồng lấn tới hiệu năng của mô hình theo độ đo
ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất trong ngày,
F1.
trung bình số giờ nắng trong ngày, tốc độ gió và chỉ số biến đổi
1
khí hậu SOI (ENSO). Về số liệu thống kê bệnh nhân tả được
0.95
cung cấp bởi Trung tâm y tế dự phòng Hà Nội: năm 2007 có
0.9
79 ca, năm 2008 có 2057 ca, năm 2009 có 89 ca và năm 0.85
2010 có 251 ca. Với mục đích đánh giá ảnh hưởng của các 0.8
F1
tham số (kích cỡ cửa số trượt, độ chồng lấn cửa sổ, các tham số 0.75
khí hậu, trễ thời gian) lên mô hình dự báo đề xuất và tìm ra 0.7
thuật toán cho kết quả phân lớp chính xác cao nhất, chúng tôi 0.65
tiến hành các thực nghiệm sau: ( ) Đánh giá ảnh hưởng của 0.6
0 1 2 3 4 5 6 7 8 9 10 11 12 13
kích cỡ cửa sổ trượt, (2) Đánh giá ảnh hưởng của độ chồng lấn Overlap (Ngày)
frame, (3) Đánh giá ảnh hưởng của tập các đặc trưng, (4) Đánh Hình 2. Ảnh hưởng của độ chồng lấn frame độ đo F1
giá ảnh hưởng của các biến số, (5) Đánh giá ảnh hưởng của độ 3. Ảnh hưởng của tập đặc trưng
trễ thời gian và (6) Thử nghiệm mô hình dự báo với một số Tiến hành thực nghiệm với 2 trường hợp: có sử dụng tập
thuật toán phân lớp. Với mỗi thử nghiệm độ đo F được tính đặc trưng thống kê (mean, variance, standard deviation, min,
toán làm cơ sở cho các phân tích, so sánh. max) và chỉ sử dụng các giá trị thô ban đầu của các biến số về
1. Ảnh hưởng của kích cỡ cửa sổ trượt khí hậu. Đối với trường hợp không sử dụng các đặc trưng
Thực nghiệm được thực hiện với các kích cỡ cửa sổ trượt thống kê mà chỉ sử dụng các giá trị thô (số giá trị của từng
khác nhau (7, 14, 22 và 30 ngày) và tham số độ chồng lấn là frame), thu được giá trị độ đo F là 0.902, còn khi sử dụng các
50%. Ngoài ra, các biến số về khí hậu được xem xét bao gồm: đặc trưng thống kê nêu trên, giá trị F thu được cao hơn là
nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp nhất, tổng 0.973.
lượng mưa, độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất, 4. Ảnh hưởng của các biến số
trung bình số giờ nắng trong ngày, tốc độ gió và ENSO. Dữ Để xác định mức độ ảnh hưởng của từng biến số, chúng tôi
liệu tả đầu vào được gán nhãn gồm 3 loại: không có dịch, mức loại dần các biến số ra khỏi tập dữ liệu ban đầu và đánh giá sự
dịch tả thấp và mức dịch tả cao, tương ứng với các giá trị a = 0; thay đổi của giá trị độ đo F so với tập đầy đủ các biến số. Kết
0 < a ≤ 1; a > 1. Sử dụng phương pháp kiểm tra chéo 4 lần, các quả thu được cho ở Bảng 2.
dữ liệu huấn luyện đầu vào được dùng để tách đặc trưng, sau Biến số bị loại trừ F1
đó các vector đặc trưng được sử dụng để huấn luyện sử dụng Không loại biến số nào 0.973
bộ phân loại Random Forests. Kết quả thu được cho trên Bảng Nhiệt độ trung bình 0.970
1. Từ kết quả thử nghiệm cho ở Bảng 1 ta thấy, với kích cỡ cửa Nhiệt độ cao nhất 0.973
Nhiệt độ thấp nhất 0.971
sổ trượt 14 ngày, mô hình cho kết quả các độ đo tốt nhất. Trên
Tổng lượng mưa 0.972
cơ sở này, chúng tôi lựa chọn cửa sổ trượt là 14 ngày cho các Độ ẩm trung bình 0.973
thử nghiệm tiếp theo. Độ ẩm cao nhất 0.971
Kích cỡ cửa sổ trượt Độ chính xác Độ bao phủ F1 Độ ẩm thấp nhất 0.973
Trung bình số giờ nắng 0.969
7 ngày 0.730 0.785 0.736 Tốc độ gió 0.972
14 ngày 0.747 0.796 0.751 Nhiệt độ trung bình, nhiệt độ cao nhất, nhiệt độ thấp
0.966
nhất
22 ngày 0.709 0.754 0.714 Độ ẩm trung bình, độ ẩm cao nhất, độ ẩm thấp nhất 0.972
ENSO 0.972
30 ngày 0.626 0.684 0.628
Bảng 2: Ảnh hưởng của các biến số đến độ đo F1
350
350
- HộiHội
Thảo Quốc
Thảo Gia
Quốc 2015
Gia 2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông và Công
Thông và CôngNghệ
NghệThông
ThôngTinTin (ECIT
(ECIT 2015)
2015)
5. Thử nghiệm mô hình với biến số khí hậu hiện tại và mô Khi sử dụng tập đặc trưng thống kê thì độ dài vector đặc
hình với các biến số khí hậu có độ trễ trưng ngắn hơn (gồm 5 đặc trưng tương đương mỗi vector có
Để đánh giá khả năng xuất hiện ca bệnh tả sau một khoảng độ dài là 5) giúp cho thời gian huấn luyện cũng như thời gian
dự đoán của bộ phân loại nhanh hơn, làm tăng tính hiệu quả
thời gian có tác động của các yếu tố thời tiết, khí hậu trong quá
của tập đặc trưng thống kê khi thử nghiệm với mô hình đề xuất.
khứ, chúng tôi tiến hành thử nghiệm mô hình với biến số khí Giá trị độ đo F khi sử dụng tập đặc trưng thống kê cao hơn
hậu khác nhau, từ đó đánh giá được ảnh hưởng yếu tố khí hậu, đáng kể so với khi không sử dụng tập đặc trưng này (0.973 so
thời tiết tới khả năng gây ra dịch tả sau các khoảng thời gian với 0.902).
tính theo tuần. Kết quả thử nghiệm cho trên Bảng 3. Các kết quả ở Bảng 2 cho thấy các biến số khí hậu có ảnh
Trễ (tuần) 0 2 4 6 8 10 12 hưởng đáng kể đến độ đo F . Giá trị F1 thấp nhất là 0,966 và
F1 0.973 0.973 0.974 0.978 0.979 0.979 0.976 0,969 khi loại bỏ cùng lúc cả 3 biến số về nhiệt độ và biến
Bảng 3: Ảnh hưởng của các yếu tố khí hậu các tuần trước đó tới độ trung bình số giờ nắng. Giá trị F1 cao nhất là 0,973 khi không
loại bỏ biến nào.
đo F1 Kết quả ở Bảng 3 cho thấy khi sử dụng độ trễ thời gian là 8
6. Thử nghiệm với một số bộ phân loại khác với mô hình tuần hoặc 10 tuần thì F1 có giá trị lớn nhất là 0.979. Khi không
biến số khí hậu có độ trễ sử dụng độ trễ hoặc sử dụng độ trễ 2 tuần thì F1 có giá trị nhỏ
Trong các thực nghiệm trên đã thực hiện, chúng tôi sử dụng bộ nhất là 0.973. Như vậy, yếu tố khí hậu, thời tiết trong quá khứ
phân loại là Random Forest [3] và đã đạt được độ chính xác có ảnh hưởng đến tỷ lệ mắc bệnh tả ở thành phố Hà Nội, và các
yếu thời tiết từ 8 tuần hoặc 10 tuần trước đó ảnh hưởng nhiều
khá cao (giá trị cao nhất của F1 = 0.979 như cho trên Bảng 3).
nhất. Kết quả này là tương đồng với những nghiên cứu được
Để có thêm căn cứ lựa chọn mô hình dự báo tối ưu cho bệnh tả thực hiện ở Đông Phi, Tazania khi nghiên cứu thời gian bùng
ở Hà Nội, chúng tôi tiến hành bổ sung một số thực nghiệm với phát và các yếu tố khí hậu ảnh hưởng đến sự xuất hiện của
các bộ phân loại học máy phổ biến khác, nhằm so sánh khả bệnh tả [14-20].
năng phân lớp của chúng. Kết quả thực nghiệm so sánh giữa Kết quả trong Bảng 4 cho thấy khả năng phân lớp tốt nhất
các bộ phân lớp được trình bày trong Bảng 4. trong tất cả các trường hợp là của thuật toán Random Forests
Trễ (tuần) trong trường hợp trễ 6 tuần, và 1-NN trong trường hợp trễ 10
0 2 4 6 8 10 12 tuần, cùng với giá trị F1=0.981. 1-NN là bộ phân lớp đơn giản,
Random
0.979 0.980 0.978 0.981 0.979 0.980 0.976
tốc độ nhanh và không phụ thuộc vào tham số. Ưu điểm của
Forest thuật toán Random Forests so với các thuật toán phân lớp khác
J48 0.947 0.957 0.949 0.943 0.947 0.950 0.955 là tốc độ cao, độ chính xác cao, chống nhiễu tốt và đặc biệt là
NaiveBayes 0.545 0.631 0.641 0.640 0.636 0.655 0.633
hiếm khi rơi vào tình trạng “quá vừa” (overfit) [7, 8, 9]. Như
F
Random
0.943 0.930 0.938 0.962 0.936 0.958 0.951 vậy, cả 2 thuật toán Random Forests và 1-NN đều có thể được
Tree
1 chấp nhận cho xây dựng mô hình dự báo tả tại Hà Nội.
1-NN 0.979 0.978 0.978 0.976 0.976 0.981 0.974
Logistic 0.826 0.895 0.902 0.907 0.902 0.908 0.901 VI. KẾT LUẬN
Multilayer
Perceptron
0.961 0.968 0.964 0.960 0.975 0.975 0.975 Nghiên cứu đã đề xuất mô hình sử dụng học máy phân lớp
(SVM) SMO 0.773 0.851 0.870 0.859 0.864 0.870 0.853 thống kê để dự báo dịch tả tại Hà Nội dựa trên việc phân tích
Bảng 4. Bảng so sánh khả năng phân lớp của các bộ phân lớp phổ dữ liệu về các ca bệnh trong nhiều năm liên tiếp và các mối
biến
liên hệ với các yếu tố thời tiết, khí hậu. Các thực nghiệm đã
được thực hiện để xem xét ảnh hưởng của các tham số như
V. BÀN LUẬN
kích cỡ cửa sổ trượt, mức độ chồng lấn giữa các khung dữ liệu
Phân lớp và dự đoán là hai dạng của phân tích dữ liệu nhằm liên tiếp nhau, các loại đặc trưng thống kê, các yếu tố thời tiết,
trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay khí hậu và ENSO với kết quả giá trị phân lớp a = 0; 0 < a 1. Kết quả thu nhận được cho thấy các tham số này đều
của nghiên cứu này là một minh chứng cho sự phù hợp của có ảnh hưởng đối với hiệu năng của mô hình. Các yếu tố thời
phương pháp phân lớp ứng dụng trong dự báo bệnh dịch trong tiết có ảnh hưởng quan trọng nhất tới việc dự báo là các biến
lĩnh vực y tế. Trong mô hình dự đoán bệnh dịch tả dựa trên số về nhiệt độ trung bình, trung bình số giờ nắng và ENSO.
phương pháp phân lớp, các thử nghiệm đã được thực hiện Ngược lại, các yếu tố hầu như không ảnh hưởng tới kết quả dự
nhằm đánh giá độ chính xác của mô hình và ảnh hưởng của các báo là độ ẩm. Các kết quả thực nghiệm cũng chỉ ra rằng các
tham số. yếu tố khí hậu trong quá khứ có ảnh hưởng quan trọng tới mô
Các kết quả ở Bảng 1 và Hình 2 cho thấy kích cỡ cửa số hình ở các thời điểm 4, 8 và 10 tuần. Dựa trên các kết quả thực
trượt và độ chồng lấn có ảnh hưởng đáng kể đến độ chính xác nghiệm thu được, có thể khẳng định hai thuật toán tối ưu nhất
phân lớp. Cửa sổ trượt dài 4 ngày cho độ chính xác cao nhất. được đề xuất để sử dụng cho mô hình dự báo trên thực tế là 1-
Khi độ chồng lấn nhỏ hơn 50% thì giá trị F có xu hướng tăng NN và Random Forests, với độ chính xác dự báo tỷ lệ mắc
dần, tuy có một số thời điểm giảm, nhưng khi độ chồng lấn bệnh tả đạt khoảng 98%.
càng tăng thì giá trị F tăng ổn định, đạt giá trị lớn nhất là gần Để tăng độ tin cậy của kết quả thực nghiệm trước khi có thể
0.973 với độ chồng lấn là 13 ngày. triển khai ứng dụng trong công tác dự báo bệnh dịch tả, nhóm
351
351
- HộiHội
Thảo Quốc
Thảo Gia
Quốc 2015
Gia 2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông và Công
Thông và CôngNghệ
NghệThông
ThôngTinTin (ECIT
(ECIT 2015)
2015)
nghiên cứu dự kiến sẽ tiếp tục thử nghiệm mô hình với các dữ 13. Fred Brauer, Pouline Van de Driessche and Jianhoo Wu,
liệu ca bệnh trong một thời gian dài hơn nữa và bổ sung thêm Mathematical Epidemiology, Springer, 2008.
các yếu tố khác, như môi trường, điều kiện sống và dân trí 14. J. Wang and S. Liao, A generalized cholera model and
trong khu vực nghiên cứu. epidemic- endemic analysis, Hournal of Biological Dynamics,
p.568-589, 2012.
TÀI LIỆU THAM KHẢO
15. Y. Yue, J. Gong, D. Way, B. Kan, B. Li and C. Ke, Influence of
1. X. Wu (2008) “Top 10 algorithms in data mining,” Knowl. Inf. Climate factors on Vibro cholera dynamics in the Pearl River
Syst., vol. 14, no. 1, pp. 1–37, 2008. estuary, South China, World J. Microliol Biotechnol, 2014.
2. C. J. C. Burges, “A tutorial on support vector machines for
16. R.C. Rainer, A. King, M. Emch, M. Yunus, S.G. Faruque and
pattern recognition,” Data Min. Knowl. Discov., vol. 2, no. 2,
M. Paucula, Highly localized sensitivity to climate forcing
pp. 121–167, 1998.
drives endemic cholera in a megacity, Proc.Nalt. Âcd. Sci.
3. L. Breiman, “Random forests,” Mach. Learn., vol. 45, no. , pp.
U.S.S, 109,2033-2036, 2012.
5–32, 2001.
4. C. M. Bishop, Pattern recognition and machine learning. 17. Z. Mukandavire, S. Liao, J. Wang, H. Gaff, D.L. Smith, and
Springer, 2006. J.G. Morris, Estimating the reproductive numbers for the 2008–
5. N. S. Altman, “An introduction to kernel and nearest-neighbor 2009 cholera outbreaks in Zimbabwe, Proc. Natl Acad. Sci. 108
nonparametric regression,” Am. Stat., vol. 46, no. 3, pp. 175– (2011), pp. 8767–8772.
185, 1992.
6. C.-W. Hsu, C.-C. Chang, C.-J. Lin, and others, “A practical 18. R. Reyburn, D. R. Kim, M. Emch và các cộng sự. (2011),
guide to support vector classification.” 2003. "Climate variability and the outbreaks of cholera in Zanzibar,
7. L. Breiman, J. Friedman, C. J. Stone, and R. A. Olshen, East Africa: a time series analysis", Am J Trop Med Hyg, 84(6),
Classification and regression trees. CRC press, 1984. tr. 862-9.
8. Caruana, R.; Niculescu-Mizil, A. (2006). An empirical 19. Sara L. M. Trærup;Ramon A. Ortiza;Anil Markandya (2011),
comparison of supervised learning algorithms. Proc. 23rd "The Costs of Climate Change: A Study of Cholera in
International Conference on Machine Learning . Cite SeerX: Tanzania", International Journal of Environmental Research
10.1.1.122.5901 and Public Health, 8, tr. 4386-4405.
9. Russell, Stuart; Norvig, Peter (2003). Artificial Intelligence: A
Modern Approach (2nd ed.). Prentice Hall. ISBN 978- 20. Michael Emch et al (2008), "Seasonality of cholera from 1974
0137903955. to 2005: a review of global patterns", International Journal of
10. J. Gray, Data mining – Concepts and Techniques, Chapter 7 – Health Geographics, 7(31).
Classification and Prediction series, Morgan Kaufmann 21. Bộ công cụ học máy Weka, www.cs.waikato.ac.nz/ml/weka/,
Publishers, August 2000. University of Waikato, truy nhập tháng 8.2015.
11. T. Michell, Machine Learning, McGraw Hill, 1997.
12. Duda RO, Hart PE, Stork DG (2001) Pattern classification (2nd
edition). New York: Wiley.
352
352
nguon tai.lieu . vn