- Trang Chủ
- Công nghệ thông tin
- Đề tài khoa học và công nghệ cấp cơ sở: Một số giải pháp tối ưu tập luật mờ TSK trích xuất từ máy học Véc-tơ hỗ trợ hồi quy
Xem mẫu
- ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP CƠ SỞ
MỘT SỐ GIẢI PHÁP TỐI ƯU TẬP LUẬT MỜ TSK
TRÍCH XUẤT TỪ MÁY HỌC VÉC-TƠ HỖ TRỢ
HỒI QUY
Mã số: T2018-………
Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài
Nguyễn Đức Hiển
Đà Nẵng, 12/2018
- i
MỤC LỤC
MỤC LỤC .............................................................................................................................. i
DANH MỤC HÌNH VẼ ....................................................................................................... iii
DANH MỤC BẢNG BIỂU .................................................................................................. iv
DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................................... v
THÔNG TIN KẾT QUẢ NGHIÊN CỨU ............................................................................ vi
MỞ ĐẦU ............................................................................................................................... 1
1. Tổng quan ...................................................................................................................... 1
2. Tính cấp thiết của đề tài ................................................................................................. 2
3. Mục tiêu đề tài ............................................................................................................... 2
4. Cách tiếp cận và phương pháp nghiên cứu .................................................................... 2
5. Đối tượng và phạm vi nghiên cứu ................................................................................. 3
6. Nội dung nghiên cứu ..................................................................................................... 3
Chương 1. TRÍCH XUẤT MÔ HÌNH MỜ HƯỚNG DỮ LIỆU DỰA TRÊN MÁY HỌC
VÉC-TƠ HỖ TRỢ ................................................................................................................. 5
1.1. Cơ bản về logic mờ ................................................................................................. 5
1.1.1. Lý thuyết tập mờ ................................................................................................. 5
1.1.2. Luật mờ “IF-THEN” ........................................................................................... 7
1.1.3. Mô hình mờ hướng dữ liệu.................................................................................. 9
1.1.4. Mô hình mờ Mamdani ....................................................................................... 10
1.1.5. Mô hình mờ TSK .............................................................................................. 12
1.2. Máy học véc-tơ hỗ trợ ........................................................................................... 15
1.2.1. Lý thuyết máy học Véc-tơ hỗ trợ ...................................................................... 15
1.2.2. Máy học Véc-tơ hỗ trợ cho vấn đề tối ưu hóa hồi qui ...................................... 17
1.3. Trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ trợ ........................................ 20
Chương 2. CÁC GIẢI PHÁP TỐI ƯU HÓA TẬP LUẬT MỜ TRÍCH XUẤT TỪ DỮ
LIỆU DỰA VÀO MÁY HỌC VÉC-TƠ HỖ TRỢ ............................................................ 26
2.1. Kỹ thuật gom cụm k-Means .................................................................................. 26
2.2. Rút gọn tập luật mờ TSK trích xuất được bằng kỹ thuật gom cụm ...................... 28
- ii
2.3. Tối ưu hóa tham số các hàm thành viên ............................................................... 28
2.4. Lựa chọn giá trị tham số epsilon ........................................................................... 28
2.5. Thuật toán đề xuất ................................................................................................. 29
2.6. Tổ chức thực nghiệm ............................................................................................ 32
2.6.1. Mô tả thực nghiệm ............................................................................................ 32
2.6.2. Bài toán hồi quy phi tuyến ................................................................................ 33
2.6.3. Bài toán dự báo dữ liệu chuỗi thời gian hỗn loạn Mackey-Glass ..................... 36
2.6.4. Hệ thống Lorenz ................................................................................................ 39
Chương 3. MÔ HÌNH TÍCH HỢP NHIỀU GIAI ĐOẠN CHO BÀI TOÁN DỰ BÁO DỮ
LIỆU CHUỐI THOÀI GIAN .............................................................................................. 43
3.1. Đề xuất mô hình mờ dự báo dữ liệu chuỗi thời gian ............................................ 43
3.1.1. Lựa chọn dữ liệu đầu vào .................................................................................. 44
3.1.2. Phân cụm dữ liệu đầu vào ................................................................................. 44
3.2. Mô hình thực nghiệm dự báo dữ liệu chuỗi thời gian tài chính ............................ 46
3.2.1. Mô hình thực nghiệm ........................................................................................ 46
3.2.2. Thông số đánh giá mô hình ............................................................................... 47
3.2.3. Lựa chọn nguồn dữ liệu..................................................................................... 48
3.2.4. Lựa chọn dữ liệu đầu vào .................................................................................. 49
3.2.5. Kết quả thực nghiệm mô hình dự báo giá cổ phiếu........................................... 50
KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 57
TÀI LIỆU THAM KHẢO ...................................................................................................... i
- iii
DANH MỤC HÌNH VẼ
Hình 1.1. Đồ thị của 3 hàm thành viên phổ biến: (a) tam giác, (b) hình thang, (c)
Gauss .......................................................................................................................... 6
Hình 1.2. Cấu trúc cơ bản của một mô hình mờ ........................................................ 9
Hình 1.3. Hình ảnh phân lớp với SVM .................................................................... 16
Hình 1.4. Sự tương đương giữa SVM và Mô hình mờ TSK ................................... 21
Hình 1.5. Sơ đồ khối của thuật toán trích xuất mô hình mờ TSK từ máy học véc-tơ
hỗ trợ ......................................................................................................................... 25
Hình 2.1. Mối quan hệ giữa số lượng véc-tơ hỗ trợ và tham số 𝜀 (giá trị của 𝜀 tương
ứng theo thứ tự các hình vẽ là 0.5, 0.2, 0.1 và 0.01) ................................................ 29
Hình 2.2. Thuật toán fm-SVM* trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ
trợ có lựa chọn giá trị tham số tối ưu........................................................................ 30
Hình 2.3. Phân bố các hàm thành viên mờ: (a) trường hợp 50 luật ứng với 𝜀 = 0.0
và (b) trường hợp 6 luật ứng với 𝜀 = 0.1 (chưa tối ưu hóa phân bố hàm thanh viên
bằng k-Means) .......................................................................................................... 34
Hình 2.4. Kết quả mô hình đã tối ưu hóa phân bố các hàm thành viên bằng cách kết
họp kỹ thuật phân cụm k-Means (RMSE = 0.0183)................................................. 35
Hình 2.5. Kết quả dự đoán trên 200 mẫu dữ liệu xác thực của thực nghiệm 2.5.3
(trường hợp RMSE = 0.0092) .................................................................................. 38
Hình 2.6. (a) Kết quả mô hình đã tối ưu hóa (RMSE = 0.0043), (b)(c)(d) Phân bố
các hàm thành viên tương ứng với x(t-1), y(t-1) và z(t-1) ....................................... 41
Hình 3.1. Mô hình nhiều giai đoạn cho bài toán dự báo dữ liệu chuỗi thời gian .... 43
Hình 3.2. Mô hình dự đoán giá cổ phiếu kết hợp SOM và fm-SVM* .................... 46
- iv
DANH MỤC BẢNG BIỂU
Bảng 2.1. Tập 6 luật trích xuất được từ mô hình đã tối ưu hóa ............................... 34
Bảng 2.2. So sánh kết quả các mô hình qua thông số RMSE ................................. 35
Bảng 2.3. Diễn dịch ngôn ngữ cho các luật ở Bảng 2.1 .......................................... 36
Bảng 2.4. Tập 9 luật trích xuất được từ 800 mẫu dữ liệu huấn luyện của thực
nghiệm 2.5.3 ............................................................................................................. 37
Bảng 2.5. So sánh kết quả các mô hình qua thông số RMSE ................................. 39
Bảng 2.6. Tập luật trích xuất được từ 1000 mẫu dữ liệu huấn luyện ...................... 40
Bảng 2.7. So sánh kết quả các mô hình qua thông số RMSE ................................. 42
Bảng 3.1. Các thông số đo lường ............................................................................. 47
Bảng 3.2. Nguồn dữ liệu thực nghiệm...................................................................... 49
Bảng 3.3. Thể hiện các thuộc tính lựa chọn và công thức tính của chúng. .............. 50
Bảng 3.4. Kết quả thử nghiệm trên mô hình SVM nguyên thủy .............................. 51
Bảng 3.5. Kết quả thử nghiệm trên mô hình RBN ................................................... 51
Bảng 3.6. Kết quả thử nghiệm trên mô hình SOM+SVM. ....................................... 52
Bảng 3.7. Kết quả thử nghiệm trên mô hình SOM+ANFIS ..................................... 52
Bảng 3.8. Kết quả thử nghiệm trên mô hình SOM+fm-SVM .................................. 53
Bảng 3.9. Kết quả thử nghiệm trên mô hình SOM+fm-SVM*. ............................... 54
Bảng 3.10. Tập 5 luật trong 1 phân cụm trích xuất từ dữ liệu huấn luyện của cổ
phiếu S&P500. .......................................................................................................... 55
- v
DANH MỤC CÁC TỪ VIẾT TẮT
SVM Support Vector Machine
fm-SVM SVM-Based fuzzy model
SOM Self Organizing Map
GA Genetic Algorithm
SV Support Vector
RMSE Root Mean Squared Error
MAE Mean Absolute Error
MNSE Nomalized Mean Squared Error
DS Directional Symmetry
- vi
ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thông tin chung:
- Tên đề tài: Một số giải pháp tối ưu tập luật mờ TSK trích xuất từ máy học
Véc-tơ hỗ trợ hồi quy
- Mã số: T2018-………….
- Chủ nhiệm: NGUYỄN ĐỨC HIỂN
- Thành viên tham gia: không có
- Cơ quan chủ trì: TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN
- Thời gian thực hiện: 04/2018 – 12/2018
2. Mục tiêu:
Trong nghiên cứu này, chúng tôi mong muốn tìm hiểu, tổng hợp, đề xuất và
thực nghiệm một số giải pháp nhằm rút gọn, tối ưu hóa tập luật mờ TSK trích xuất
được từ máy học véc- tơ hỗ trợ.
3. Tính mới và sáng tạo:
Đề xuất một mô hình xuyên suốt với mục tiêu tối ưu tập luật mờ TSK trích
xuất từ máy học véc-tơ hỗ trợ cho bài toán dự báo hồi quy.
4. Tóm tắt kết quả nghiên cứu:
• Đối với lý thuyết mô hình hóa mờ (fuzzy modelling) và máy học véc-tơ hỗ trợ,
đề tài đã nghiên cứu những lý thuyết toán học cơ bản của mô hình mờ TSK,
và của mô hình máy học SVM cho bài toán phân lớp và bài toán tối ưu hóa hồi
quy.
• Đối với giải pháp tối ưu hóa mô hình mờ hướng dữ liệu dựa trên máy học véc-
tơ hỗ trợ hồi quy, đề tài đã nghiên cứu những giải pháp tối ưu hóa tham số các
hàm thành viên mờ, rút gọn tập luật mờ trích xuất được bằng kỹ thuật phân
cụm k-Means.
- vii
• Đối với việc xây dựng mô hình mờ giải quyết bài toán dự báo hồi quy, đề tài
đã đề xuất một mô hình xuyên suốt từ việc phân cụm dữ liệu đầu cho đến việc
xác định giá trị tham số tối ưu và thử nghiệm dự báo dựa vào mô hình.
5. Tên sản phẩm:
• Bài báo khoa học đăng trên kỷ yếu Hội nghị khoa học Fair’11 năm 2018:
Nguyễn Đức Hiển, Lê Mạnh Thạnh, Một số giải pháp tối ưu tập luật mờ TSK
trích xuất từ máy học véc-tơ hỗ trợ hồi quy, Kỷ yếu Hội nghị koa học Fair’11
(Accepted).
• Thuật toán fm-SVM*, mô hình đề xuất cho bài toán dự báo dữ liệu chuỗi thời
gian và một số kết quả thực nghiệm trên bài toán dự báo dữ liệu chuỗi thời
gian tài chính.
• Một báo cáo tổng kết đề tài nghiên cứu khoa học
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp
dụng:
• Hiệu quả về mặt giáo dục - đào tạo: Kỹ thuật trích xuất luật mờ từ dữ liệu dựa
trên máy học véc-tơ hỗ trợ với thuật toán fm-SVM* và mô hình tích hợp nhiều
giai đoạn cho bài toán dự báo dữ liệu chuỗi thời gian là một hướng để sinh
viên ngành CNTT có thể phát triển các ứng dụng khai phá dữ liệu, hệ chuyên
gia dự báo, ...
• Hiệu quả về mặt khoa học: đóng góp của đề tài là đề xuất thuật toán – fm-
SVM* cho phép trích xuất mô hình mờ từ máy học véc-tơ hỗ trợ và mô hình
mờ hướng dữ liệu tích hợp nhiều giai đoạn cho bài toán dự báo dữ liệu chuỗi
thời gian.
• Về sản phẩm ứng dụng: Mô hình đề xuất là một thiết kế cho việc xây dựng mô
hình mờ hướng dữ liệu để giải quyết các bài toán phân tích dữ liệu tài chính,
hệ chuyên gia dự đoán, dự báo.
7. Hình ảnh, sơ đồ minh họa chính
- viii
Hình 1.4. Sự tương đương giữa SVM và Mô hình mờ TSK
- ix
Begin
Input: - Tập dữ liệu huấn luyện H
- Tham số lỗi ɛ
Khởi tạo các tham số của SVM: C, ɛ, σ
Huấn luyện SVM để trích xuất ra các véc-tơ hỗ trợ:
Centers: ci , i=1,2,..,m
Variances: σi , i=1,2,…,m
Trích xuất các luật mờ dựa vào các véc-tơ hỗ trợ:
IF x is Gaussmf(ci ,σi) THEN y is B
Tối ưu hóa tham số các hàm thành viên
Output: Mô hình mờ TSK
End
Hình 1.5. Sơ đồ khối của thuật toán trích xuất mô hình mờ TSK từ máy học véc-tơ
hỗ trợ (thuật toán fm-SVM)
- x
Begin
Input: - Tập dữ liệu huấn luyện H
- Tham số lỗi ɛ
- Ngưỡng sai số tol, k
Khởi tạo các tham số của SVM: C, ɛ, σ
Huấn luyện SVM để trích xuất ra các véc-tơ hỗ trợ:
Centers: ci , i=1,2,..m
Variances: σi , i=1,2,...m
Phận cụm các (ci,σi) bằng k-Means với
số phân cụm k cho trước
Trích xuất k luật mờ dựa vào các véc-tơ hỗ trợ là
trung tâm của các phân cụm:
IF x is Gaussmf(ci ,σi) THEN y is B
Tối ưu hóa tham số các hàm thành viên
Dự đoán trên tập dữ liệu xác thực
và tính giá trị sai số error
Thay đổi giá trị tham số ɛ
True
error>tol
False
Output: Mô hình mờ TSK với các tham số tối ưu
End
Hình 2.2. Thuật toán fm-SVM* trích xuất mô hình mờ TSK từ máy học véc-tơ hỗ
trợ có lựa chọn giá trị tham số tối ưu
- xi
Trích xuất mô
Thu thập Lựa chọn Phân cụm hình mờ bằng Áp dụng
dữ liệu thuộc tính dữ liệu thuật toán dự báo
fm-SVM*
Hình 3.1. Mô hình nhiều giai đoạn cho bài toán dự báo dữ liệu chuỗi thời gian
Huấn luyện
Part 1
fm-SVM* 1
Part 2
fm-SVM* 2
Phân cụm
Dữ liệu Lựa chọn dữ liệu Các tập
thuộc tính dữ
vào bằng luật mờ
liệu vào Part n-1
SOM fm-SVM* n-1
Part n
fm-SVM* n
Dự đoán
Part 1
Phân cụm Suy luận trên Các Giá trị
dữ liệu tập luật mờ
bằng dự đoán
SOM
Part n
Hình 3.2. Mô hình dự đoán giá cổ phiếu kết hợp SOM và fm-SVM*
Bảng 3.6. Kết quả thử nghiệm trên mô hình SOM+SVM.
Mã cổ Số phân
SOM + SVM
phiếu cụm
Số SV NMSE MAE DS
IBM 6 1355 1.1028 0.0577 44.22
APPL 55 1287 1.1100 0.0445 52.76
SP500 6 965 1.1081 0.1217 52.76
DJI 35 1025 1.0676 0.1186 50.25
- xii
Bảng 3.9. Kết quả thử nghiệm trên mô hình SOM+fm-SVM*.
Mã cổ phiếu Số phân SOM + fm-SVM*
cụm
Số luật NMSE MAE DS
IBM 6 30 1.0530 0.0504 50.05
APPL 55 270 1.0466 0.0610 53.00
SP500 6 30 1.0906 0.1117 52.86
DJI 35 175 1.0550 0.1101 51.35
Bảng 3.10. Tập 5 luật trong 1 phân cụm trích xuất từ dữ liệu huấn luyện của cổ
phiếu S&P500.
Thứ
Luật
tự
R1 IF x1=Gaussmf(0.10,-0.02) and x2=Gaussmf(0.10,-0.08) and
x3=Gaussmf(0.10,0.02) and x4=Gaussmf(0.10,0.04) and
x5=Gaussmf(0.10,0.02) THEN z=-0.02
R2 IF x1=Gaussmf(0.10,0.02) and x2=Gaussmf(0.09,-0.00) and
x3=Gaussmf(0.10,0.06) and x4=Gaussmf(0.10,0.05) and
x5=Gaussmf(0.09,0.00) THEN z=0.04
R3 IF x1=Gaussmf(0.09,-0.04) and x2=Gaussmf(0.10,0.07) and
x3=Gaussmf(0.09,-0.16) and x4=Gaussmf(0.09,-0.14) and
x5=Gaussmf(0.11,-0.05) THEN z=0.16
R4 IF x1=Gaussmf(0.09,0.01) and x2=Gaussmf(0.10,0.08) and
x3=Gaussmf(0.09,-0.06) and x4=Gaussmf(0.09,-0.09) and
x5=Gaussmf(0.09,-0.04) THEN z=0.01
R5 IF x1=Gaussmf(0.09,-0.05) and x2=Gaussmf(0.09,0.04) and
x3=Gaussmf(0.10,-0.13) and x4=Gaussmf(0.10,-0.08) and
x5=Gaussmf(0.08,-0.04) THEN z=-0.18
Đà Nẵng, ngày 17 tháng 12 năm 2018
Cơ quan chủ trì Chủ nhiệm đề tài
NGUYỄN ĐỨC HIỂN
- 1
MỞ ĐẦU
1. Tổng quan
Vấn đề trích xuất mô hình mờ từ máy học Support-vector được nhóm tác giả J.-H
Chiang và P.-Y Hao nghiên cứu và công bố lần đầu tiên trong [3]. Theo hướng tiếp
cận này, nhiều tác giả đã nghiên cứu đề xuất và ứng dụng các kỹ thuật rút trích các
luật mờ từ SVM cho việc phát triển các mô hình mờ hướng dữ liệu cho các bài toán
phân lớp [1][4][6], dự báo hồi quy [7][6][7]. Có ý kiến cho rằng sự khác biệt chủ yếu
giữa hệ thống mờ dựa trên máy học Véc-tơ hỗ trợ và mô hình máy học Véc-tơ hỗ trợ
chính nguyên thủy chính là đặc tính “có thể diễn dịch được” [4][6]; đặc tính này cho
phép hệ thống mờ dễ hiểu hơn so với mô hình máy học Véc-tơ hỗ trợ. Hay nói theo
một cách khác là mô hình mờ dựa trên máy học Véc-tơ hỗ trợ đã khắc phục được đặc
tính “hộp đen” (black box) của mô hình máy học Véc-tơ hỗ trợ nguyên thủy. Bên
cạnh đó, do tập luật trích xuất tự động từ dữ liệu thông qua học máy sẽ có nhiều khiếm
khuyết do dữ liệu ngẫu nhiên có thể bị lỗi (nhiễu), thiếu tính đặc trưng, thiếu tính bao
phủ. Vì vậy, việc hiểu được tập luật để hiệu chỉnh, bổ sung, tối ưu hóa là thật sự cần
thiết. Các nghiên cứu nhằm tích hợp tri thức chuyên gia với mô hình mờ hướng dữ
liệu có thể tìm thấy trong [2][5][7][8]. Tuy nhiên với một tập luật có số lượng lớn thì
việc hiểu và diễn dịch được chúng, đồng thời có thể phân tích và tích hợp chúng với
các tri thức có tính chất tinh túy của chuyên gia, quả thật rất khó khăn.
Đối với mô hình máy học thống kê dựa trên dữ liệu thì độ tin cậy của kết quả học
sẽ tỷ lệ thuận với số lượng mẫu dữ liệu huấn luyện. Điều này đồng nghĩa với việc để
tăng độ tin cậy của tập luật mờ học được thì cần thiết phải tăng số lượng mẫu dữ liệu
huấn luyện. Và như thế thì số lượng luật trong tập luật học được cũng tăng lên, và
cùng với đó thì độ nhiễu của tập luật cũng đồng thời tăng lên. Bên cạnh đó, thời gian
huấn luyện và và thời gian suy diễn dựa trên tập luật tất yếu cũng tăng lên. Phân cụm
là một trong những giải pháp được áp dụng để giảm độ phức tạp của dữ liệu đầu vào
trong giai đoạn tiền xử lý dữ liệu trước khi đưa vào máy học [9][10][11].
Một đặc điểm đáng lưu ý của máy học Véc-tơ hỗ trợ là tính chính xác của mô hình
thu được tỷ lệ thuận với số lượng Support-vector sinh ra [7][4][6]. Nói cách khác là
- 2
khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể hiểu
được” (hay còn gọi là “có thể diễn dịch được” - interpretability) của mô hình. Như
vậy vấn đề đặt ra là làm thế nào có thể trích xuất được hệ thống mờ đảm bảo tính
chính xác trong dự đoán, đồng thời đảm bảo được đặc tính “có thể diễn dịch được”.
Nghiên cứu trong [12] là một trong những giải pháp cho phép tối ưu hóa tập luật mờ
trích xuất từ máy học SVM bằng cách tích hợp với tri thức tiên nghiệm.
2. Tính cấp thiết của đề tài
Việc trích xuất tập luật mờ tự động từ máy học véc-tơ hỗ trợ sẽ có nhiều khiếm
khuyết do tập dữ liệu huấn luyện phải lớn, tính ngẫu nhiên của dữ liệu có thể dẫn đến
tập luật nhiễu, thiếu tính đặc trưng, thiếu tính bao phủ. Vì vậy, việc hiểu được tập luật
để hiệu chỉnh, bổ sung, tối ưu hóa là thật sự cần thiết. Tuy nhiên với một tập luật có
số lượng lớn thì việc hiểu và diễn dịch được chúng, đồng thời có thể phân tích và tích
hợp chúng với các tri thức có tính chất tinh túy của chuyên gia, quả thật rất khó khăn.
Do vậy, một thách thức đặt ra là làm thế nào có thể trích xuất tự động được một
tập luật từ dữ liệu, có hiệu quả dự đoán cao mà vẫn đảm bảo đủ đơn giản để có thể
phân tích và qua đó có thể dần tối ưu hóa tập luật.
3. Mục tiêu đề tài
Trong nghiên cứu này, chúng tôi mong muốn tìm hiểu, tổng hợp, đề xuất và thực
nghiệm một số giải pháp nhằm rút gọn, tối ưu hóa tập luật mờ TSK trích xuất được
từ máy học véc- tơ hỗ trợ.
Các mục tiêu cụ thể:
• Mô hình mờ TSK hướng dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ.
• Một số giải pháp tối ưu tập luật mờ TSK trích xuất từ mày học Véc-tơ hỗ
trợ
• Các mô hình thực nghiệm.
4. Cách tiếp cận và phương pháp nghiên cứu
4.1. Cách tiếp cận:
• Tiếp cận theo hướng hàn lâm: dựa vào tài liệu và các công bố khoa học.
• Tiếp cận theo hướng mục tiêu: dựa vào mục tiêu đề tài.
- 3
Đề tài sẽ được thực hiện theo 4 giai đoạn:
• Giai đoạn 1: Nghiên cứu thuật toán trích xuất mô hình mờ TSK từ máy học
Véc-tơ hỗ trợ
• Giai đoạn 2: Nghiên cứu giải pháp tối ưu hóa tham số trong thuật toán học
mô hình mờ TSK
• Giai đoạn 3: Đề xuất một mô hình xuyên suốt với mục tiêu tối ưu tập luật
mờ TSK trích xuất từ mãy học Véc-tơ hỗ trợ cho bài toán dự báo hồi quy
và thực nghiệm mô hình
4.2. Phương pháp nghiên cứu:
Đề tài sử dụng phương pháp nghiên cứu lý thuyết, cơ sở toán học, kết hợp với
thực nghiệm. Cụ thể là: Từ kết quả thực tế trích xuất mô hình mờ TSK và kết quả
nghiên cứu lý thuyết về các giải pháp nhằm tối ưu hóa mô hình để tiến hành thực
nghiệm; sau đó dề xuất một mô hình xuyên suốt để tối ưu tập luật TSK.
5. Đối tượng và phạm vi nghiên cứu
5.1. Đối tượng nghiên cứu:
Đề tài tập trung vào các đối tượng nghiên cứu cơ bản sau:
• Mô hình mờ TSK hướng dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ
• Một số giải pháp tối ưu tập luật mờ TSK trích xuất từ mày học véc-tơ hỗ
trợ
• Mô hình xuyên suốt với mục tiêu tối ưu tập luật mờ TSK trích xuất từ máy
học Véc-tơ hỗ trợ cho bài toán dự báo hồi quy và một số thực nghiệm trên
mô hình
5.2. Phạm vi nghiên cứu:
Cải thiện hiệu quả học cũng như hiệu quả sử dụng tập luật mờ TSK trích xuất từ
máy học Véc-tơ hỗ trợ cho bài toán dự báo hồi quy.
6. Nội dung nghiên cứu
Đề tài được tiến hành thực hiện theo các nội dung và tiến độ cụ thể như sau:
- 4
ST Các nội dung, công việc Sản phẩm Thời gian
(bắt đầu-kết Người thực hiện
T thực hiện thúc)
Nghiên cứu thuật toán trích xuất Báo cáo 04/18 - Nguyễn Đức Hiển
1
mô hình mờ từ máy học Véc-tơ 05/18
hỗ trợ
Các giải pháp tối ưu hóa các tham Thuật toán 06/18 - Nguyễn Đức Hiển
2
số trong thuật toán học 07/18
Thực nghiệm thuật toán trích xuất Số liệu 08/18 - Nguyễn Đức Hiển
3
mô hình mờ TSK từ máy học thực 09/18
Véc-tơ hỗ trợ nghiệm
Đề xuất một mô hình xuyên suốt Mô hình 10/18 - Nguyễn Đức Hiển
4
với mục tiêu tối ưu tập luật mờ số liệu 12/18
TSK trích xuất từ mãy học Véc- thực
tơ hỗ trợ cho bài toán dự báo hồi nghiệm
quy
Trong các chương tiếp theo sau đây của báo cáo, chúng tôi sẽ trình bày những kết
quả nghiên cứu chính về lý thuyết và thực nghiệm đã thực hiện được. Chương 1 sẽ
trình bày sơ lượt về mô hình mờ TSK, mô hình máy học Véc-tơ hõ trợ hồi quy và giải
pháp trích xuất mô hình mò từ máy học véc-tơ hỗ trợ; Chương 2 sẽ trình bày về các
giải pháp tối ưu hóa tập luật mờ TSK trích xuất từ dữ liệu dựa trên máy học véc-tơ
hỗ trợ hồi quy; Chương 3 đề xuất một mô hình xuyên suốt giải quyết bài toán dự báo
hồi quy và một số kết quả thực nghiệm; và cuối cùng là kết luận và một số kiến nghị
rút ra từ kết quả của đề tài.
- 5
Chương 1. TRÍCH XUẤT MÔ HÌNH MỜ HƯỚNG DỮ LIỆU DỰA
TRÊN MÁY HỌC VÉC-TƠ HỖ TRỢ
Chương này trình bày kết quả xây dựng thuật toán fm-SVM và quy trình trích xuất
mô hình mờ TSK từ dữ liệu dựa trên máy học véc-tơ hỗ trợ. Để làm cơ sở cho việc
phân tích sự tương đương của máy học véc-tơ hỗ trợ hồi quy và mô hình mờ TSK,
một số vấn đề cơ bản về lý thuyết tập mờ, đặc biệt là mô hình mờ TSK và lý thuyết
cơ bản về máy học véc-tơ hỗ trợ phân lớp và hồi quy cũng được trình bày ở những
mục đầu Chương. Phần cuối chương là nội dung triển khai thực nghiệm cho thuật
toán đề xuất.
1.1. Cơ bản về logic mờ
1.1.1. Lý thuyết tập mờ
Như chúng ta đã biết, tập hợp thường là kết hợp của một số phần tử có cùng một
số tính chất chung nào đó. Ví dụ: tập các người giới tính nam. Ta có:
𝑇 = {𝑡/𝑡 𝑙à 𝑛𝑔ườ𝑖 𝑔𝑖ớ𝑖 𝑡í𝑛ℎ 𝑛𝑎𝑚} Vậy, nếu một người nào đó có giới tính nam thì
thuộc tập 𝑇, ngược lại là không thuộc tập 𝑇. Tuy nhiên, trong thực tế cuộc sống cũng
như trong khoa học kỹ thuật có nhiều khái niệm không được định nghĩa một cách rõ
ràng. Ví dụ, khi nói về một "nhóm những người già", thì thế nào là già? Khái niệm
về già không rõ ràng vì có thể người có tuổi bằng 70 là già, cũng có thể tuổi bằng 80
cũng là già (dải tuổi là già có thể từ 70 trở lên), ... Nói cách khác, "nhóm những người
già" không được định nghĩa một cách tách bạch rõ ràng như khái niệm thông thường
về tập hợp. Các phần tử của nhóm trên không có một tiêu chuẩn rõ ràng về tính "thuộc
về" (thuộc về một tập hợp nào đó). Đây chính là những khái niệm thuộc về tập mờ.
Lý thuyết tập mờ lần đầu tiên được Lotfi A. Zadeh, một giáo sư thuộc trường
Đại học Caliornia, Berkley, giới thiệu trong một công trình nghiên cứu vào năm 1965
[1][82]. Ý tưởng nổi bật của Zadeh là đề nghị đánh giá khả năng một phần tử 𝑥 là
thành viên của một tập 𝐴 trong tập vũ trụ 𝑋, bằng cách xây dựng một ánh xạ hàm gọi
là hàm thành viên (membership function) [1][5][82][83][84].
- 6
µ𝐴 : 𝑋 → [0,1]
Hàm thành viên µ𝐴 (𝑥) định nghĩa cho tập 𝐴 trên tập vũ trụ 𝑋 trong khái niệm
tập hợp kinh điển chỉ có hai giá trị là 1 nếu 𝑥 ∈ 𝐴 hoặc 0 nếu 𝑥 ∉ 𝐴. Tuy nhiên trong
khái niệm tập mờ thì giá trị hàm thành viên chỉ mức độ thuộc về (membership degree)
của phần tử 𝑥 vào tập mờ 𝐴. Khoảng xác định của hàm µ𝐴 (𝑥) là đoạn [0, 1], trong đó
giá trị 0 chỉ mức độ không thuộc về, còn giá trị 1 chỉ mức độ thuộc về hoàn toàn.
Theo đó, tập mờ được định nghĩa như sau [1][5][37]:
Định nghĩa 1.1. Cho một tập vũ trụ 𝑋 với các phần tử ký hiệu bởi 𝑥, 𝑋 = {𝑥}.
Một tập mờ 𝐴 trên 𝑋 là tập được đặc trưng bởi một hàm µ𝐴 (𝑥) mà nó liên kết mỗi
phần tử 𝑥 ∈ 𝑋 với một số thực trong đoạn [0,1], trong đó µ𝐴 (𝑥) là một ánh xạ từ 𝑋
vào [0,1] và được gọi là hàm thành viên của tập mờ 𝐴.
Kiểu của tập mờ phụ thuộc vào các kiểu hàm thành viên khác nhau. Đã có nhiều
kiểu hàm thành viên khác nhau được đề xuất. Một số kiểu hàm thành viên sử dụng
phổ biến trong logic mờ như sau (xem Hình 1.1) [37]:
Hình 1.1. Đồ thị của 3 hàm thành viên phổ biến:
(a) tam giác, (b) hình thang, (c) Gauss
Dạng tam giác (Triangles): Hàm thành viên này được xác định bởi 3 tham số
là cận dưới 𝑎, cận trên 𝑐 và giá trị 𝑏 (ứng với đỉnh tam giác), với 𝑎 < 𝑏 < 𝑐. Hàm
thành viên này được gọi là đối xứng nếu nếu giá trị 𝑏 – 𝑎 bằng giá trị 𝑐 – 𝑏, hay
𝑏 = (𝑎 + 𝑏)/2. Công thức xác định hàm thành viên tam giác như sau:
- 7
0 𝑥𝑏
Dạng hình thang (Trapezoids): Hàm thành viên này được xác định bới bộ 4
giá trị 𝑎, 𝑏, 𝑐, 𝑑, với 𝑎 < 𝑏 < 𝑐 < 𝑑, theo công thức sau:
0 𝑥
nguon tai.lieu . vn