- Trang Chủ
- Công nghệ thông tin
- Đề tài khoa học và công nghệ cấp cơ sở: Mô hình dự báo giá cổ phiếu dựa trên việc tích hợp mô hình mờ TSK và tri thức tiên nghiệm
Xem mẫu
- ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ
CẤP CƠ SỞ
MÔ HÌNH DỰ BÁO GIÁ CỔ PHIẾU
DỰA TRÊN VIỆC TÍCH HỢP MÔ HÌNH MỜ TSK
VÀ TRI THỨC TIÊN NGHIỆM
Mã số: T2017-07-02
Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài
Nguyễn Đức Hiển
Đà Nẵng, 12/2017
- i
MỤC LỤC
MỤC LỤC .............................................................................................................................. i
DANH MỤC HÌNH VẼ ....................................................................................................... iii
DANH MỤC BẢNG BIỂU .................................................................................................. iv
DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................................... v
THÔNG TIN KẾT QUẢ NGHIÊN CỨU ............................................................................ vi
MỞ ĐẦU ............................................................................................................................... 1
1. Tổng quan ................................................................................................................... 1
2. Tính cấp thiết của đề tài .............................................................................................. 2
3. Mục tiêu đề tài ............................................................................................................ 2
4. Cách tiếp cận và phương pháp nghiên cứu ................................................................. 3
5. Đối tượng và phạm vi nghiên cứu .............................................................................. 4
6. Nội dung nghiên cứu .................................................................................................. 4
Chương 1. CƠ SỞ LÝ THUYẾT MÔ HÌNH MỜ TSK VÀ MÁY HỌC VÉC-TƠ.............. 6
1.1. Mô hình mờ............................................................................................................. 6
1.1.1. Mô hình mờ Mamdani ....................................................................................... 13
1.1.2. Mô hình mờ Takagi-Sugeno.............................................................................. 14
1.2. Cơ sở lý thuyết Máy học Véc-tơ hỗ trợ ................................................................ 15
1.2.1. Máy học Véc-tơ hỗ trợ ...................................................................................... 15
1.2.2. Máy học Véc-tơ hỗ trợ cho vấn đề tối ưu hóa hồi qui ...................................... 17
1.3. Sự tương tự giữa máy học Véc-tơ hỗ trợ và mô hình mờ ..................................... 18
1.4. Trích xuất luật mờ từ dữ liệu dựa trên sự kết hợp máy học SVM và mô hình ..... 20
Chương 2. VIỆC HỌC MÔ HÌNH MỜ VỚI TRI THỨC TIÊN NGHIỆM ................. Error!
Bookmark not defined.
2.1. Vai trò của tri thức tiên nghiệm .................................Error! Bookmark not defined.
2.2. Học dựa trên sự giải thích (EBL) ..............................Error! Bookmark not defined.
2.3. Học dựa trên sự thích hợp (RBL) ..............................Error! Bookmark not defined.
2.4. Học quy nạp dựa trên tri thức (KBIL) .......................Error! Bookmark not defined.
Chương 3. TÍCH HỢP TRI THỨC TIÊN NGHIỆM VÀO QUÁ TRÌNH HỌC ................ 22
3.1. Điều kiện đảm bảo tính “có thể diễn dịch được” của mô hình mờ ........................... 22
- ii
3.2. Tích hợp tri thức tiên nghiệm trong mô hình mờ dựa trên máy học véc-tơ hỗ trợ ... 24
Chương 4. MỘT SỐ KẾT QUẢ THỰC NGHỆM .............................................................. 27
4.1. Ví dụ hồi quy phi tuyến tính ......................................Error! Bookmark not defined.
4.2. Chuỗi thời gian hỗn loạn Mackey-Glass ...................Error! Bookmark not defined.
4.3. Hệ thống Lorenz ........................................................Error! Bookmark not defined.
KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 33
TÀI LIỆU THAM KHẢO ...................................................................................................... i
- iii
DANH MỤC HÌNH VẼ
Hình 1. Cấu trúc của một mô hình mờ .......................................................................... 6
Hình 2. Hình ảnh phân lớp với SVM ........................................................................... 11
Hình 3. Sự tương đương giữa SVM và Mô hình mờ .................................................. 14
Hình 4. Sơ đồ khối thuật toán f-SVM .............................................................................. .16
Hình 5. Mô hình học EBL.............................................................................................. 18
Hình 6. Mô hình học RBL.............................................................................................. 19
Hình 7. Mô hình học KBIL ............................................................................................ 20
Hình 8. Thuật toán SVM-IF ......................................................................................... 25
Hình 9. Kết quả mô hình đã tối ưu hóa (RMSE = 0.0183) ...................................... 28
Hình 10. Kết quả dự đoán trên 200 mẫu dữ liệu thử nghiệm (RMSE = 0.0092) .. 31
Hình 11. (a) Kết quả mô hình đã tối ưu hóa (RMSE = 0.0043), (b)(c)(d) Các hàm thành
viên tương ứng x(t-1), y(t-1) và x(t-1)............................................................................. 33
- iv
DANH MỤC BẢNG BIỂU
Bảng 1. Tập luật trích xuất được từ mô hình đã tối ưu hóa – 4.1 ........................... 28
Bảng 2. So sánh kết quả các mô hình qua thông số RMSE – 4.1 ............................ 28
Bảng 3. Diễn dịch ngôn ngữ cho các luật ở bảng 1 .................................................. 29
Bảng 4. Tập luật trích xuất được 800 mẫu dữ liệu huấn luyện – 4.2 ..................... 30
Bảng 5. So sánh kết quả các mô hình qua thông số RMSE – 4.2 ............................ 31
Bảng 6. Tập luật trích xuất được 500 mẫu dữ liệu huấn luyện – 4.3 ..................... 32
Bảng 7. So sánh kết quả các mô hình qua thông số RMSE – 4.3 ............................ 34
- v
DANH MỤC CÁC TỪ VIẾT TẮT
SVM Support Vector Machine
SOM Self Organizing Map
GA Genetic Algorithm
EBL explaination-based learning
RBL relevance-based learning
KBIL Knowledge-based inductive learning
SMO Sequential Minimal Optimization
SVs Support vectors
RMSE Root Mean Squared Error
- vi
ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thông tin chung:
- Tên đề tài: Mô hình dự báo giá cổ phiếu dựa trên việc tích hợp mô hình mờ TSK
và tri thức tiên nghiệm
- Mã số: T2017-07-02
- Chủ nhiệm: NGUYỄN ĐỨC HIỂN
- Thành viên tham gia: không có
- Cơ quan chủ trì: TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN
- Thời gian thực hiện: 01/2017 – 12/2017
2. Mục tiêu:
Nghiên cứu xây dựng mô hình dự báo gia cổ phiếu dựa trên sự tích hợp mô hình mờ
TSK hướng dữ liệu (data-driven models) trích xuất từ máy học véc-tơ hỗ trợ với tri thức tiên
nghiệm.
3. Tính mới và sáng tạo:
Đề xuất xây dựng một mô hình mờ TSK cho bài toán dự báo giá cổ phiếu dựa trên
việc tích hợp mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ hồi quy với tri thức tiên
nghiệm.
4. Tóm tắt kết quả nghiên cứu:
Đối với lý thuyết mô hình mờ (fuzzy modelling) và máy học Véc-tơ hỗ trợ, đề tài đã
nghiên cứu những lý thuyết toán học cơ bản của mô hình mờ TSK, và của mô hình
máy học SVM cho bài toán phân lớp và bài toán tối ưu hóa hồi quy.
Đối với vai trò của tri thức tiên nghiệm, đề tài đã nghiên cứu vai trò của tri thức tiên
nghiệm trong việc học mô hình mờ và các kịch bản tích hợp tri thức tiên nghiệm vào
quá trình học mô hình mờ để cải thiện hiệu quả mô hình.
Đối với pháp tích hợp tri thức tiên nghiệm vào mô hình mờ TSK trích xuát từ máy
học véc-tơ hỗ trợ hồi quy, đề tài đã phân tích và đề xuất thuật toán mới SVM-IF. Đề
tài cũng đã tiến hành thực nghiệm thuật toán đề xuất trên một số bài toán ví dụ và
phân tích, đánh giá kết quả kết hợp so sánh với một số mô hình có trước khác.
- vii
5. Tên sản phẩm:
Bài báo khoa học đăng trên kỷ yếu Hội thảo khoa học quốc tế: Hybrid Model of Self-
Organized Map and Integrated Fuzzy Rules with Support Vector Machine:
Application to Analysis Stock Price. Chapter in Springer AISC, Vol. 672, Proc. of
INDIA-2017.
Mô hình đề xuất và một số kết quả thực nghiệm với mô hình mờ trích xuất được
Một báo cáo tổng kết đề tài nghiên cứu khoa học
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
Hiệu quả về mặt giáo dục - đào tạo: Kỹ thuật trích xuất luật mờ từ dữ liệu dựa trên
máy học véc-tơ hỗ trợ với thuật toán SVM-IF và mô hình tích hợp nhiề giai đoạn cho
bài toán dự báo giá cổ phiếu là một hướng để sinh viên ngành CNTT có thể phát triển
các ứng dụng khai phá dữ liệu, hệ chuyên gia dự báo, ...
Hiệu quả về mặt khoa học: đóng góp của đề tài là đề xuất một thuật toán - SVM-IF
cho phép trích xuất mô hình mờ từ máy học véc-tơ hỗ trợ và mô hình mờ tích hợp
nhiều giai đoạn cho bài toán dự báo hồi quy.
Về sản phẩm ứng dụng: Mô hình đề xuất là một thiết kế cho việc xây dựng mô hình
mờ dạng luật để giải quyết các bài toán phân tích dữ liệu tài chính, hệ chuyên gia dự
đoán, dự báo.
7. Hình ảnh, sơ đồ minh họa chính
- viii
Hình 3. Sự tương đương giữa SVM và Mô hình mờ
Begin
Khởi tạo các tham số của SVMs
Centers : 𝑐𝑖 , 𝑖 = 1. . 𝑚
Variances : 𝜎𝑖 , 𝑖 = 1. . 𝑚
Trích xuất luật mờ từ SVMs
IF x is Gaussmf(𝑐𝑖 , 𝜎𝑖 ) THEN y is B
Tối ưu hóa
ሺ𝑥−𝑐ሻ2 ሺ𝑥−𝑐ሻ2
𝜎𝑖 ሺ𝑡 + 1ሻ = 𝜎𝑖 ሺ𝑡ሻ + 𝛿𝜀1,𝑖 ቂ 𝑒𝑥𝑝 ቀ− ቁቃ
𝜎3 2𝜎2
−ሺ𝑥−𝑐ሻ ሺ𝑥−𝑐ሻ2
𝑐𝑖 ሺ𝑡 + 1ሻ = 𝑐𝑖 ሺ𝑡ሻ + 𝛿𝜀1,𝑖 ቂ 𝑒𝑥𝑝 ቀ− ቁቃ
𝜎2 2𝜎2
End
Hình. 4. Sơ đồ khối thuật toán f-SVM.
- ix
1. Procedure ModelExtraction(ℋ, k, tol)
2. Khởi tạo các giá trị tham số: 𝐶, 𝜀, 𝜎, 𝑠𝑡𝑒𝑝
3. while error>tol do
4. fሺxሻ = ∑li=1ሺαi − αi∗ ሻ Kሺxi , xሻ + b
5. 𝑆𝑉 = {ሺ𝛼𝑖 − 𝛼𝑖∗ ሻ: ሺ𝛼𝑖 − 𝛼𝑖∗ ሻ ≠ 0, 𝑖 ∈ {0, … , 𝑙}}
6. InterpretabilityTest(SV, n, σ, k)
𝐷 ′ −𝐷 ′
7. Điều chỉnh ma trận kernel: 𝐻 ′ = ቂ ′ ቃ,
−𝐷 𝐷′
〈𝜑ሺ𝑥𝑖 ሻ, 𝜑(𝑥𝑗 )〉
𝑣ớ𝑖 𝐷𝑖𝑗′ =
∑𝑗〈𝜑ሺ𝑥𝑖 ሻ, 𝜑(𝑥𝑗 )〉
8. 𝑒𝑟𝑟𝑜𝑟 = 𝐸 [‖𝑓 ሺ𝑥ሻ − ℋ ‖2 ]
9. 𝜀 = 𝜀 + 𝑠𝑡𝑒𝑝
10. end while
ሺx−cሻ2 ሺx−cሻ2
11. σi ሺt + 1ሻ = σi ሺtሻ + δε1,i ቂ exp ቀ− ቁቃ
σ3 2σ2
−ሺx−cሻ ሺx−cሻ2
12. ci ሺt + 1ሻ = ci ሺtሻ + δε1,i ቂ exp ቀ− ቁቃ
σ2 2σ2
∑𝑙𝑖=1(𝛼𝑖 −𝛼𝑖∗ )𝐾ሺ𝑥𝑖 ,𝑥ሻ
13. return 𝑓ሺ𝑥ሻ = ∑𝑙𝑖=1(𝛼𝑖 −𝛼𝑖∗ )
14. end procedure
15. Procedure InterpretabilityTest(SV, n, σ, k)
16. repeat
𝑑2
−
σ𝑒 σ2
17. Tính độ sự tương tự giữa các cặp tập mờ: 𝑆 𝐺 (𝐴𝑖 , 𝐴𝑗 ) = 𝑑2
−
2σ−σ𝑒 σ2
18. Lựa chọn môt cặp tập mờ 𝐴∗𝑖 và 𝐴𝑗∗ sao cho
𝑆 𝐺 (𝐴∗𝑖 , 𝐴𝑗∗ ) = 𝑚𝑎𝑥𝑖,𝑗 {𝑆 𝐺 (𝐴𝑖 , 𝐴𝑗 )}
19. if 𝑆 𝐺 (𝐴∗𝑖 , 𝐴𝑗∗ ) > 𝑘 then
20. Gộp cặp tập mờ 𝐴∗𝑖 và 𝐴𝑗∗ thành một tập mờ mới 𝐴𝑘
21. end if
22. until không còn căp tập mờ nào có độ đo sự tương tự 𝑆 𝐺 (𝐴𝑖 , 𝐴𝑗 ) > 𝑘
23. end procedure
Hình 4. Thuật toán SVM-IF
- x
Huấn luyện
Part 1
SVM-IF 1
Part 2
SVM-IF 2
Phân cụm
Dữ liệu Lựa chọn Các tập
dữ liệu
thuộc tính dữ
vào bằng luật mờ
liệu vào Part n-1
SOM SVM-IF n-1
Part n
SVM-IF n
Dự đoán
Part 1
Phân cụm Suy luận trên Các Giá trị
dữ liệu tập luật mờ
bằng dự đoán
SOM
Part n
Hình 8. Mô hình dự đoán giá cổ phiếu kết hợp SOM và SVM-IF
Bảng IV. 5 luật trong 1 phân cụm trích xuất từ dữ liệu huấn luyện của cổ phiếu
S&P500.
Thứ tự Luật
R1 IF x1=Gaussmf(0.09,-0.11) and x2=Gaussmf(0.09,-0.12) and
x3=Gaussmf(0.09,-0.04) and x4=Gaussmf(0.09,-0.10) and
x5=Gaussmf(0.09,-0.09) THEN y=0.10
R2 IF x1=Gaussmf(0.10,-0.01) and x2=Gaussmf(0.09,-0.06) and
x3=Gaussmf(0.10,0.04) and x4=Gaussmf(0.10,-0.10) and
x5=Gaussmf(0.10,-0.12) THEN y=0.57
R3 IF x1=Gaussmf(0.09,0.02) and x2=Gaussmf(0.10,0.02) and
x3=Gaussmf(0.09,0.08) and x4=Gaussmf(0.10,-0.08) and
x5=Gaussmf(0.10,-0.13) THEN y=-0.02
R4 IF x1=Gaussmf(0.10,-0.04) and x2=Gaussmf(0.10,-0.08) and
x3=Gaussmf(0.10,0.02) and x4=Gaussmf(0.09,-0.08) and
x5=Gaussmf(0.09,-0.11) THEN y=-0.29
- xi
R5 IF x1=Gaussmf(0.10,-0.03) and x2=Gaussmf(0.09,-0.06) and
x3=Gaussmf(0.10,0.03) and x4=Gaussmf(0.09,-0.10) and
x5=Gaussmf(0.09,-0.13) THEN y=-0.38
Bảng Va. Kết quả thử nghiệm trên mô hình SOM+ANFIS và mô hình
SOM+SVM.
Mã Số SOM + ANFIS SOM + SVM
cổ phân
phiếu cụm Số luật NMSE MAE DS Số SVs NMSE MAE DS
IBM 6 1367 1.2203 0.0617 47.74 1157 1.1054 0.0564 48.05
APPL 55 1898 2.8274 0.0650 49.75 1423 1.0877 0.0474 52.27
SP500 6 # 1.7836 0.1421 48.24 1356 1.1100 0.1200 51.25
DJI 35 # 1.7602 0.1614 49.75 1144 1.0660 0.1104 50.86
Bảng Vb. Kết quả thử nghiệm trên mô hình SOM+f-SVM và mô hình
SOM+SVM-IF đề xuất.
Mã Số SOM + f-SVM SOM + SVM-IF
cổ phân
phiếu cụm Số luật NMSE MAE DS Số luật NMSE MAE DS
IBM 6 1157 1.1028 0.0577 44.22 5*6 1.0324 0.0554 50.75
APPL 55 1323 1.1100 0.0445 52.76 5*55 1.0467 0.0435 53.27
SP500 6 1356 1.1081 0.1217 52.76 5*6 1.0836 0.1207 53.27
DJI 35 1144 1.0676 0.1186 50.25 5*35 1.0459 0.1181 51.76
Đà Nẵng, ngày 26 tháng 12 năm 2017
Cơ quan chủ trì Chủ nhiệm đề tài
NGUYỄN ĐỨC HIỂN
- 1
MỞ ĐẦU
1. Tổng quan
Mô hình dự báo chuỗi thời gian sẽ giúp dự báo các giá trị tương lai về một đối
tượng dự báo nào đó trên nền tảng xu hướng vận động của chính chuỗi dữ liệu đó
trong quá khứ và hiện tại [22]. Vấn đề dự báo theo chuỗi thời gian, mà đặc biệt là vấn
đề dự báo giá cổ phiếu đã và đang thu hút được nhiều sự quan tâm nghiên cứu của
các nhà khoa học, với nhiều mô hình và giải pháp đề xuất, như mạng nơ-ron nhân tạo
(ANN) [7][16], máy học Véc-tơ hỗ trợ (SVM) [4][8][16][19], mô hình chuỗi Markov
ẩn (HMN) [17],…. Đồng thời cũng có nhiều giải pháp đề xuất cải tiến và tích hợp các
mô hình, với mục tiêu cuối cùng là nâng cao tính chính xác của kết quả dự báo
[4][9][11][21]. Vấn đề dự báo dữ liệu chuỗi thời gian tài chính, mà cụ thể là dự báo
giá cổ phiếu hiện nay chủ yếu được tiếp cận dưới hai dạng, đó là dự báo giá cổ phiếu
hoặc xu hướng của giá cổ phiếu sau n-ngày [6], [15].
Một trong những hướng tiếp cận phổ biến hiện nay để giải quyết bài toán dự đoán
giá cổ phiếu là trích xuất mô hình mờ dự đoán giá cổ phiếu từ dữ liệu giao dịch lịch
sử, gọi là mô hình mờ hướng dữ liệu (data-driven model). Một trong những kỹ thuật
trích xuất luật mờ tự động từ dữ liệu khá hiệu quả đó là dựa vào máy học véc-tơ hỗ
trợ (Support vector machines - SVM) được nhóm tác giả J.-H Chiang và P.-Y Hao
nghiên cứu và công bố lần đầu tiên trong [8]. Theo hướng tiếp cận này, nhiều tác giả
đã nghiên cứu đề xuất và ứng dụng các kỹ thuật rút trích các luật mờ từ SVM cho
việc phát triển các mô hình mờ hướng dữ liệu cho các bài toán phân lớp [4][9], dự
báo hồi quy [12][14].
Một đặc điểm đáng lưu ý của máy học Véc-tơ hỗ trợ là đối với một tập dữ liệu
học nhất định, nếu điều chỉnh các tham số để tăng tính chính xác của mô hình dự đoán
thì số lượng véc-tơ hỗ trợ (Support Vector - SVs) cũng tăng lên [4][5][12]. Nói cách
khác là khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể
diễn dịch được” (intepretability) của mô hình. Như vậy vấn đề đặt ra là làm thế nào
- 2
có thể trích xuất được hệ thống mờ đảm bảo tính chính xác trong dự đoán, đồng thời
đảm bảo được đặc tính “có thể diễn dịch được”.
Bên cạnh đó, lý thuyết học dựa trên tri thức cho thấy các kiểu khác nhau của tri
thức có thể sử dụng để cải thiện hiệu quả của mô hình máy học nói chung và mô hình
mờ nói riêng. Tùy thuộc vào vai trò của tri thức, việc học dựa trên tri thức có thể phân
thành các kịch bản như sau: học dựa trên giải thích (explaination-based learning) hay
còn gọi là EBL, học dựa trên sự phù hợp (relevance-based learning) hay còn gọi là
RBL, và học qui nạp dựa trên tri thức (knowledge-based learning) hay còn gọi là
KBIL [17]. Như vậy hướng nghiên cứu tich hợp tri thưc tiên nghiệm với mô hình mờ
hướng dữ liệu TSK được chọn như là một trong những giải đề xuất để cải thiện hiệu
quả mô hình dự báo giá chứng khoán dự trên mô hình mờ hướng dữ liệu.
2. Tính cấp thiết của đề tài
Sự khác biệt chủ yếu giữa hệ thống mờ dựa trên máy học Véc-tơ hỗ trợ và mô
hình máy học Véc-tơ hỗ trợ nguyên thủy chính là đặc tính “có thể diễn dịch được”
(interpretability); đặc tính này cho phép hệ thống mờ dễ hiểu hơn so với mô hình máy
học Véc-tơ hỗ trợ. Tuy nhiên, đối với mô hình máy học Véc-tơ hỗ trợ, tính chính xác
của mô hình thu được tỷ lệ thuận với số lượng SVs (Support vectors) sinh ra, và điều
đó đồng nghĩa với việc số lượng luật mờ cũng tăng lên. Nói cách khác, khi tăng hiệu
suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể diễn dịch được” của
mô hình mờ trích xuất được. Giải pháp tích hợp tri thức tiên nghiệm vào mô hình mờ
dựa trên F-SVM sẽ giúp đảm bảo được tính “có thể diễn dịch được” của mô hình mờ
trích xuất được. Mô hình mờ dự báo giá cổ phiếu dựa trên việc tích hợp với tri thức
tiên nghiệm với quá trình học mô hình mờ từ dữ liệu sẽ khác với mô hình dự báo dựa
trên phương pháp thống kế thông thường, đó là tập luật mờ học được sau khi huấn
luyện mô hình có thể diễn dịch ngôn ngữ được; đây là cơ sở để chuyên gia có thể
đánh giá các luật và có giải pháp tối ưu hóa hợp lý.
3. Mục tiêu đề tài
- 3
Nghiên cứu xây dựng mô hình dự báo gia cổ phiếu dựa trên sự tích hợp mô hình
mờ TSK hướng dữ liệu (data-driven models) trích xuất từ máy học véc-tơ hỗ trợ với
tri thức tiên nghiệm.
Các mục tiêu cụ thể:
Mô hình hồi quy và bài toán dự báo giá cổ phiếu.
Xây dựng mô hình mờ TSK từ máy học véc-tơ hỗ trợ hồi quy.
Giải pháp tích hợp tri thức tiên nghiệm vào mô hình mờ TSK trích xuất từ
máy học Véc-tơ hỗ trợ;
Đề xuất một mô hình dự báo giá cổ phiếu dựa trên mô hình mờ TSK trích
xuất từ máy học véc-tơ hỗ trợ.
4. Cách tiếp cận và phương pháp nghiên cứu
4.1. Cách tiếp cận:
Tiếp cận theo hướng hàn lâm: dựa vào tài liệu và các công bố khoa học.
Tiếp cận theo hướng mục tiêu: dựa vào mục tiêu đề tài.
Đề tài sẽ được thực hiện theo 4 giai đoạn:
Giai đoạn 1: Nghiên cứu mô hình hồi quy và bài toán dự báo giá cổ phiếu
Giai đoạn 2: Nghiên cứu thuật toán trích xuất mô hình mờ từ máy học Véc-
tơ hỗ trợ
Giai đoạn 3: Giải pháp tích hợp tri thức tiên nghiệm vào mô hình mờ hướng
dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ
Giai đoạn 4: Xây dựng một mô hình tích hợp nhiều giai đoạn cho bài toán
dự báo giá cổ phiếu dưa trên Giải pháp tích hợp Tri thức tiên nghiệm với
mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ
4.2. Phương pháp nghiên cứu:
Đề tài sử dụng phương pháp nghiên cứu lý thuyết, cơ sở toán học, kết hợp với
thực nghiệm. Cụ thể là: trên cơ sở nghiên cứu các tài liệu và công bố khoa học mới
nhất về vấn đề trích xuất mô hình mờ từ máy học SVM, kết hợp với việc phân tích
lựa chọn các kiểu của tri thức tiên nghiệm để từ đó xây dựng thuật toán cho phép tích
- 4
hợp tri thức tiên nghiệm vào việc học mô hình mờ TSK từ máy học SVM hồi quy;
cuối cùng là thực nghiệm mô hình và đánh giá kết quả.
5. Đối tượng và phạm vi nghiên cứu
5.1. Đối tượng nghiên cứu:
Đề tài tập trung vào các đối tượng nghiên cứu cơ bản sau:
Mô hình hồi quy và bài toán dự báo giá cổ phiếu
Mô hình mờ TSK hướng dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ
Mô hình tích hợp Tri thức tiên nghiệm với mô hình mờ trích xuất từ máy
học Véc-tơ hỗ trợ
Mô hình tích hợp nhiều giai đoạn cho bài toán dự báo giá cổ phiếu
5.2. Phạm vi nghiên cứu:
Nâng cao hiệu quả dự báo giá cổ phiếu dựa trên mô hình mờ dự báo hồi quy dựa
trên việc tích hợp tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ
hỗ trợ.
6. Nội dung nghiên cứu
Đề tài được tiến hành thực hiện theo các nội dung và tiến độ cụ thể như sau:
ST Các nội dung, công việc Sản phẩm Thời gian
(bắt đầu-kết Người thực hiện
T thực hiện thúc)
Nghiên cứu mô hình hồi quy và Báo cáo 02/17 - Nguyễn Đức Hiển
1
bài toán dự báo giá cổ phiếu 03/17
Nghiên cứu giải pháp trích xuất Báo cáo 04/17 - Nguyễn Đức Hiển
2
mô hình mờ từ máy học Véc-tơ 05/17
hỗ trợ
Giải pháp tích hợp Tri thức tiên Thuật toán 06/17 - Nguyễn Đức Hiển
3
nghiệm với mô hình mờ trích và số liệu 07/17
xuất từ máy học Véc-tơ hỗ trợ thực
nghiệm
Mô hình tích hợp nhiều giai đoạn Mô hình 08/16 - Nguyễn Đức Hiển
4
cho bài toán dự báo giá cổ phiếu 09/16
- 5
Thực nghiệm cho một số mã cổ Số liệu 10/16 – Nguyễn Đức Hiển
5
phiếu thực 12/16
nghiệm
Trong các chương tiếp theo sau đây của báo cáo, chúng tôi sẽ trình bày những kết
quả nghiên cứu chính về lý thuyết và thực nghiệm đã thực hiện được. Chương 1 sẽ
giới thiệu tóm lược về mô hình hồi quy, bài toán dự báo chõi thời gian và bài toán dự
báo giá cổ phiếu, chương 2 sẽ trình bày sơ lượt về mô hình mờ TSK, mô hình máy
học Véc-tơ hõ trợ hồi quy và giải pháp trích xuất mô hình mò từ máy học véc-tơ hỗ
trợ, chương 3 sẽ trình bày về giải pháp tích hợp tri thức tiên nghiệm vào việc học mô
hình mờ TSK dựa trên máy học véc-tơ hỗ trợ hồi quy, chương 4 trình bày mô hình
tích hợp đề xuất và các kết quả thực nghiệm; và cuối cùng là kết luận và một số kiến
nghị rút ra từ kết quả của đề tài.
- 6
Chương 1. MÔ HÌNH HỒI QUY VÀ BÀI TOÁN DỰ BÁO GIÁ CỔ PHIẾU
1. Mô hình hồi quy
1.1. Mô hình hồi quy tuyến tính cổ điển
Mô hình hồi quy tuyến tính cổ điển là một cách xem xét bản chất và hình thức của
mối quan hệ giữa hai hay nhiều biến số. Ở đây chúng tôi chỉ chỉ xem xét trường hợp
mô hình hai biến. Trong đó Y là biến phụ thuộc và X là biến độc lập (hay còn gọi là
biến giải thích). Như vậy, chúng ta muốn giải thích/dự báo giá trị của Y theo các giá
trị khác nhau của X.
Giả sử, X và Y có mối quan hệ tuyến tính như sau:
𝐸 ሺ𝑌𝑡 ሻ = 𝛽0 + 𝛽1 𝑋𝑡 ሺ1.1ሻ
Trong đó, 𝐸 𝑌𝑡 là giá trị trung bình có điều kiện của 𝑌𝑡 theo 𝑋𝑡 , và 𝛽0 , 𝛽1 là các
ሺ ሻ
tham số chưa biết của tổng thể (t ký hiệu theo thông lệ dữ liệu chuỗi thời gian cho
quan sát vào thời điểm t của biến quan sát). Phương trình (1.1) được gọi là phương
trình hồi quy tổng thể. Giá trị thực 𝑌𝑡 sẽ không phải luôn luôn bằng giá trị kỳ vọng
𝐸 ሺ𝑌𝑡 ሻ, vì vậy 𝑌𝑡 có thể được thể hiện như sau:
𝑌𝑡 = 𝐸 ሺ𝑌𝑡 ሻ + 𝑢𝑡
𝑌𝑡 = 𝛽0 + 𝛽1 𝑋𝑡 + 𝑢𝑡 ሺ1.2ሻ
Trong đó, 𝑢𝑡 được gọi là hạng nhiễu ngẫu nhiên. Và 𝑢𝑡 luôn tồn tại do các nguyên
nhân như bỏ sót biết giải thích, sai dạng mô hình do bỏ qua các tác động trễ, sai dạng
hàm, lỗi đo lường, hoặc do đơn giản hóa mô hình bằng cách tổng hợp một số biến
khác nhau thành một biến giải thích duy nhất. Các tham số hồi quy 𝛽0 , 𝛽1 được ước
lượng bằng phương pháp bình phương tối thiểu:
∑(𝑌𝑡 − 𝑌̂𝑡 ) = min ሺ1.3ሻ
Từ đó ta có hệ phương trình sau:
̂0 + 𝛽
∑ 𝑌𝑡 = 𝑛𝛽 ̂1 ∑ 𝑋𝑡
{ ሺ1.4ሻ
̂0 ∑ 𝑋𝑡 + ̂
∑ 𝑋𝑡 𝑌𝑡 = 𝛽 𝛽1 ∑ 𝑋𝑡2
Trong đó n là số quan sát trong mẫu. Giải hệ phương trình này chúng ta xác định
được các tham số hồi quy β0 , β1 ước lượng.
- 7
1.2. Mô hình hồi quy phi tuyến
Là các dạng mô hình hồi quy phi tuyến nói lên mức phụ thuộc của một biến phụ
thuộc với một hay nhiều biến độc lập mà phương trình của mô hình hồi quy có dạng
phi tuyến tính đối với các hệ số. Xét mô hình hồi quy tương quan giữa hai biến X và
Y. Trong đó Y là biến phụ thuộc và X là biến độc lập.
Mô hình Parabol:
Hàm hồi quy có dạng như sau:
Yt = β0 + β1 X t + β2 X t2 ሺ1.5ሻ
Áp dụng phương pháp bình phương cực tiểu sẽ có hệ phương trình sau để các định
các tham số hồi quy ước lượng 𝛽0 , 𝛽1 , 𝛽2 :
̂+ 𝛽
∑ 𝑌𝑡 = 𝑛𝛽 ̂ ∑ 𝑋2𝑡
̂ ∑ 𝑋𝑡 + 𝛽
0 1 2
∑ 𝑋 𝑡 𝑌𝑡 = 𝛽0
𝛽1 ∑ 𝑋2𝑡 + 𝛽
̂ ∑ 𝑋𝑡 + ̂ ̂ ∑ 𝑋3𝑡
2
ሺ1.6ሻ
2 ̂ 2 ̂ 3 ̂ 4
{∑ 𝑋𝑡 𝑌𝑡 = 𝛽0 ∑ 𝑋𝑡 + 𝛽1 ∑ 𝑋𝑡 + 𝛽2 ∑ 𝑋𝑡
Phương trình Parabol bậc 2 được dùng trong trường hợp khi biến độc lập X tăng
(giảm) với lượng đều nhau thì biến phụ thuộc Y biến động với lượng không đều.
Mô hình Hypebol:
Hàm hồi quy có dạng như sau:
𝛽1
Yt = β0 + ሺ1.7ሻ
𝑋𝑡
Áp dụng phương pháp bình phương cực tiểu sẽ có hệ phương trình sau để các định
các tham số hồi quy ước lượng β0 , β1 :
1
̂0 + 𝛽
∑ 𝑌𝑡 = 𝑛𝛽 ̂1 ∑
𝑋𝑡
ሺ1.8ሻ
1 1 1
̂
∑ 𝑌𝑡 = 𝛽0 ∑ + 𝛽1 ∑ 2 ̂
{ 𝑋𝑡 𝑋𝑡 𝑋𝑡
Phương trình hypebol được dùng trong trường hợp trị số của biến độc lập X tăng
thì trị số của biến phụ thuộc Y giảm với tốc độ không đều.
Mô hình hàm mũ:
Hàm hồi quy có dạng như sau:
Yt = β0 𝛽1𝑋 ሺ1.9ሻ
- 8
Áp dụng phương pháp bình phương cực tiểu sẽ có hệ phương trình sau để các định
các tham số hồi quy ước lượng β0 , β1 :
̂0 + 𝑙𝑛 𝛽
∑ 𝑙𝑛 𝑌𝑡 = 𝑛 𝑙𝑛 𝛽 ̂1 ∑ 𝑋𝑡
{ ሺ1.10ሻ
̂0 ∑ 𝑋𝑡 + ln ̂
∑ 𝑋𝑡 𝑙𝑛 𝑌𝑡 = ln 𝛽 𝛽1 ∑ 𝑋𝑡2
1.3. Mô hình hồi quy tuyến tính đa bội
Thông thường trong các mối quan hệ trong bài toán thực tế, biến phụ thuộc, Y,
phụ thuộc vào nhiều biến giải thích khác nhau. Do đó, chúng ta cần phải mở rộng
phân tích hồi quy cho trường hợp tổng quát hơn. Hàm hồi quy tổng thể ngẫu nhiên
với k biến có thể được biểu diễn như sau:
𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝑢𝑡 𝑣ớ𝑖 𝑡 = 1, 2, 3, … , 𝑛 (1.11)
Trong đó, 𝛽1 là hệ số cắt, 𝛽2 , …, 𝛽𝑘 là các hệ số hồi quy riêng, 𝑢𝑡 là hạng nhiễu
ngẫu nhiên, và 𝑡 là quan sát thứ 𝑡, 𝑛 được xem là quy mô toàn bộ của tổng thể. Phương
trình (2.11) cũng được chia thành hai thành phần: (1) Thành phần xác định E(𝑌𝑡 /𝑋2𝑡 ,,
𝑋3𝑡 , … , 𝑋𝑘𝑡 ሻ, nghĩa là giá trị trung bình có điều kiện của Y theo các giá trị cho trước
của các X, và (2) Thành phần ngẫu nhiên 𝑢𝑡 đại diện cho tất cả các yếu tố khác ngoài
các biến 𝑋2𝑡 ,, 𝑋3𝑡 , … , 𝑋𝑘𝑡 có ảnh hưởng lên 𝑌𝑡 .
2. Bài toán dự báo chuỗi thời gian
Về cơ bản, mục tiêu của dự báo chuỗi thời gian là để ước tính một số giá trị trong
tương lai dựa vào mẫu dữ liệu hiện tại và trong quá khứ. Về mặt toán học có thể biểu
diễn như sau [22]:
x̂ሺt + ∆t ሻ = fሺxሺt − aሻ, xሺt − bሻ, xሺt − cሻ, … ሻ, ሺ1.12ሻ
trong đó, với ví dụ cụ thể này, x̂ là giá trị dự đoán của một chuỗi thời gian rời rạc x.
Mục tiêu của dự báo chuỗi thời gian là tìm một hàm fሺxሻ sao cho giá trị dự đoán
x̂ của chuỗi thời gian tại một thời điểm trong tương lai là không thiên lệch (unbiased)
và nhất quán (consistent). Lưu ý rằng thước đo độ tốt của mô hình dự báo chính là
hiệu quả và độ sai lệch (bias). Giới hạn Cramér-Rao cho biết giới hạn dưới cho
phương sai của ước lượng độ không thiên lệch. Nếu ước lượng độ không thiên lệch
đạt đến giới hạn này thì có thể nói mô hình dự đoán là hiệu quả [19].
nguon tai.lieu . vn