Xem mẫu

  1. ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ MÔ HÌNH DỰ BÁO GIÁ CỔ PHIẾU DỰA TRÊN VIỆC TÍCH HỢP MÔ HÌNH MỜ TSK VÀ TRI THỨC TIÊN NGHIỆM Mã số: T2017-07-02 Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Nguyễn Đức Hiển Đà Nẵng, 12/2017
  2. i MỤC LỤC MỤC LỤC .............................................................................................................................. i DANH MỤC HÌNH VẼ ....................................................................................................... iii DANH MỤC BẢNG BIỂU .................................................................................................. iv DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................................... v THÔNG TIN KẾT QUẢ NGHIÊN CỨU ............................................................................ vi MỞ ĐẦU ............................................................................................................................... 1 1. Tổng quan ................................................................................................................... 1 2. Tính cấp thiết của đề tài .............................................................................................. 2 3. Mục tiêu đề tài ............................................................................................................ 2 4. Cách tiếp cận và phương pháp nghiên cứu ................................................................. 3 5. Đối tượng và phạm vi nghiên cứu .............................................................................. 4 6. Nội dung nghiên cứu .................................................................................................. 4 Chương 1. CƠ SỞ LÝ THUYẾT MÔ HÌNH MỜ TSK VÀ MÁY HỌC VÉC-TƠ.............. 6 1.1. Mô hình mờ............................................................................................................. 6 1.1.1. Mô hình mờ Mamdani ....................................................................................... 13 1.1.2. Mô hình mờ Takagi-Sugeno.............................................................................. 14 1.2. Cơ sở lý thuyết Máy học Véc-tơ hỗ trợ ................................................................ 15 1.2.1. Máy học Véc-tơ hỗ trợ ...................................................................................... 15 1.2.2. Máy học Véc-tơ hỗ trợ cho vấn đề tối ưu hóa hồi qui ...................................... 17 1.3. Sự tương tự giữa máy học Véc-tơ hỗ trợ và mô hình mờ ..................................... 18 1.4. Trích xuất luật mờ từ dữ liệu dựa trên sự kết hợp máy học SVM và mô hình ..... 20 Chương 2. VIỆC HỌC MÔ HÌNH MỜ VỚI TRI THỨC TIÊN NGHIỆM ................. Error! Bookmark not defined. 2.1. Vai trò của tri thức tiên nghiệm .................................Error! Bookmark not defined. 2.2. Học dựa trên sự giải thích (EBL) ..............................Error! Bookmark not defined. 2.3. Học dựa trên sự thích hợp (RBL) ..............................Error! Bookmark not defined. 2.4. Học quy nạp dựa trên tri thức (KBIL) .......................Error! Bookmark not defined. Chương 3. TÍCH HỢP TRI THỨC TIÊN NGHIỆM VÀO QUÁ TRÌNH HỌC ................ 22 3.1. Điều kiện đảm bảo tính “có thể diễn dịch được” của mô hình mờ ........................... 22
  3. ii 3.2. Tích hợp tri thức tiên nghiệm trong mô hình mờ dựa trên máy học véc-tơ hỗ trợ ... 24 Chương 4. MỘT SỐ KẾT QUẢ THỰC NGHỆM .............................................................. 27 4.1. Ví dụ hồi quy phi tuyến tính ......................................Error! Bookmark not defined. 4.2. Chuỗi thời gian hỗn loạn Mackey-Glass ...................Error! Bookmark not defined. 4.3. Hệ thống Lorenz ........................................................Error! Bookmark not defined. KẾT LUẬN VÀ KIẾN NGHỊ ............................................................................................. 33 TÀI LIỆU THAM KHẢO ...................................................................................................... i
  4. iii DANH MỤC HÌNH VẼ Hình 1. Cấu trúc của một mô hình mờ .......................................................................... 6 Hình 2. Hình ảnh phân lớp với SVM ........................................................................... 11 Hình 3. Sự tương đương giữa SVM và Mô hình mờ .................................................. 14 Hình 4. Sơ đồ khối thuật toán f-SVM .............................................................................. .16 Hình 5. Mô hình học EBL.............................................................................................. 18 Hình 6. Mô hình học RBL.............................................................................................. 19 Hình 7. Mô hình học KBIL ............................................................................................ 20 Hình 8. Thuật toán SVM-IF ......................................................................................... 25 Hình 9. Kết quả mô hình đã tối ưu hóa (RMSE = 0.0183) ...................................... 28 Hình 10. Kết quả dự đoán trên 200 mẫu dữ liệu thử nghiệm (RMSE = 0.0092) .. 31 Hình 11. (a) Kết quả mô hình đã tối ưu hóa (RMSE = 0.0043), (b)(c)(d) Các hàm thành viên tương ứng x(t-1), y(t-1) và x(t-1)............................................................................. 33
  5. iv DANH MỤC BẢNG BIỂU Bảng 1. Tập luật trích xuất được từ mô hình đã tối ưu hóa – 4.1 ........................... 28 Bảng 2. So sánh kết quả các mô hình qua thông số RMSE – 4.1 ............................ 28 Bảng 3. Diễn dịch ngôn ngữ cho các luật ở bảng 1 .................................................. 29 Bảng 4. Tập luật trích xuất được 800 mẫu dữ liệu huấn luyện – 4.2 ..................... 30 Bảng 5. So sánh kết quả các mô hình qua thông số RMSE – 4.2 ............................ 31 Bảng 6. Tập luật trích xuất được 500 mẫu dữ liệu huấn luyện – 4.3 ..................... 32 Bảng 7. So sánh kết quả các mô hình qua thông số RMSE – 4.3 ............................ 34
  6. v DANH MỤC CÁC TỪ VIẾT TẮT SVM Support Vector Machine SOM Self Organizing Map GA Genetic Algorithm EBL explaination-based learning RBL relevance-based learning KBIL Knowledge-based inductive learning SMO Sequential Minimal Optimization SVs Support vectors RMSE Root Mean Squared Error
  7. vi ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: - Tên đề tài: Mô hình dự báo giá cổ phiếu dựa trên việc tích hợp mô hình mờ TSK và tri thức tiên nghiệm - Mã số: T2017-07-02 - Chủ nhiệm: NGUYỄN ĐỨC HIỂN - Thành viên tham gia: không có - Cơ quan chủ trì: TRƯỜNG CAO ĐẲNG CÔNG NGHỆ THÔNG TIN - Thời gian thực hiện: 01/2017 – 12/2017 2. Mục tiêu: Nghiên cứu xây dựng mô hình dự báo gia cổ phiếu dựa trên sự tích hợp mô hình mờ TSK hướng dữ liệu (data-driven models) trích xuất từ máy học véc-tơ hỗ trợ với tri thức tiên nghiệm. 3. Tính mới và sáng tạo: Đề xuất xây dựng một mô hình mờ TSK cho bài toán dự báo giá cổ phiếu dựa trên việc tích hợp mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ hồi quy với tri thức tiên nghiệm. 4. Tóm tắt kết quả nghiên cứu:  Đối với lý thuyết mô hình mờ (fuzzy modelling) và máy học Véc-tơ hỗ trợ, đề tài đã nghiên cứu những lý thuyết toán học cơ bản của mô hình mờ TSK, và của mô hình máy học SVM cho bài toán phân lớp và bài toán tối ưu hóa hồi quy.  Đối với vai trò của tri thức tiên nghiệm, đề tài đã nghiên cứu vai trò của tri thức tiên nghiệm trong việc học mô hình mờ và các kịch bản tích hợp tri thức tiên nghiệm vào quá trình học mô hình mờ để cải thiện hiệu quả mô hình.  Đối với pháp tích hợp tri thức tiên nghiệm vào mô hình mờ TSK trích xuát từ máy học véc-tơ hỗ trợ hồi quy, đề tài đã phân tích và đề xuất thuật toán mới SVM-IF. Đề tài cũng đã tiến hành thực nghiệm thuật toán đề xuất trên một số bài toán ví dụ và phân tích, đánh giá kết quả kết hợp so sánh với một số mô hình có trước khác.
  8. vii 5. Tên sản phẩm:  Bài báo khoa học đăng trên kỷ yếu Hội thảo khoa học quốc tế: Hybrid Model of Self- Organized Map and Integrated Fuzzy Rules with Support Vector Machine: Application to Analysis Stock Price. Chapter in Springer AISC, Vol. 672, Proc. of INDIA-2017.  Mô hình đề xuất và một số kết quả thực nghiệm với mô hình mờ trích xuất được  Một báo cáo tổng kết đề tài nghiên cứu khoa học 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:  Hiệu quả về mặt giáo dục - đào tạo: Kỹ thuật trích xuất luật mờ từ dữ liệu dựa trên máy học véc-tơ hỗ trợ với thuật toán SVM-IF và mô hình tích hợp nhiề giai đoạn cho bài toán dự báo giá cổ phiếu là một hướng để sinh viên ngành CNTT có thể phát triển các ứng dụng khai phá dữ liệu, hệ chuyên gia dự báo, ...  Hiệu quả về mặt khoa học: đóng góp của đề tài là đề xuất một thuật toán - SVM-IF cho phép trích xuất mô hình mờ từ máy học véc-tơ hỗ trợ và mô hình mờ tích hợp nhiều giai đoạn cho bài toán dự báo hồi quy.  Về sản phẩm ứng dụng: Mô hình đề xuất là một thiết kế cho việc xây dựng mô hình mờ dạng luật để giải quyết các bài toán phân tích dữ liệu tài chính, hệ chuyên gia dự đoán, dự báo. 7. Hình ảnh, sơ đồ minh họa chính
  9. viii Hình 3. Sự tương đương giữa SVM và Mô hình mờ Begin Khởi tạo các tham số của SVMs Centers : 𝑐𝑖 , 𝑖 = 1. . 𝑚 Variances : 𝜎𝑖 , 𝑖 = 1. . 𝑚 Trích xuất luật mờ từ SVMs IF x is Gaussmf(𝑐𝑖 , 𝜎𝑖 ) THEN y is B Tối ưu hóa ሺ𝑥−𝑐ሻ2 ሺ𝑥−𝑐ሻ2 𝜎𝑖 ሺ𝑡 + 1ሻ = 𝜎𝑖 ሺ𝑡ሻ + 𝛿𝜀1,𝑖 ቂ 𝑒𝑥𝑝 ቀ− ቁቃ 𝜎3 2𝜎2 −ሺ𝑥−𝑐ሻ ሺ𝑥−𝑐ሻ2 𝑐𝑖 ሺ𝑡 + 1ሻ = 𝑐𝑖 ሺ𝑡ሻ + 𝛿𝜀1,𝑖 ቂ 𝑒𝑥𝑝 ቀ− ቁቃ 𝜎2 2𝜎2 End Hình. 4. Sơ đồ khối thuật toán f-SVM.
  10. ix 1. Procedure ModelExtraction(ℋ, k, tol) 2. Khởi tạo các giá trị tham số: 𝐶, 𝜀, 𝜎, 𝑠𝑡𝑒𝑝 3. while error>tol do 4. fሺxሻ = ∑li=1ሺαi − αi∗ ሻ Kሺxi , xሻ + b 5. 𝑆𝑉 = {ሺ𝛼𝑖 − 𝛼𝑖∗ ሻ: ሺ𝛼𝑖 − 𝛼𝑖∗ ሻ ≠ 0, 𝑖 ∈ {0, … , 𝑙}} 6. InterpretabilityTest(SV, n, σ, k) 𝐷 ′ −𝐷 ′ 7. Điều chỉnh ma trận kernel: 𝐻 ′ = ቂ ′ ቃ, −𝐷 𝐷′ 〈𝜑ሺ𝑥𝑖 ሻ, 𝜑(𝑥𝑗 )〉 𝑣ớ𝑖 𝐷𝑖𝑗′ = ∑𝑗〈𝜑ሺ𝑥𝑖 ሻ, 𝜑(𝑥𝑗 )〉 8. 𝑒𝑟𝑟𝑜𝑟 = 𝐸 [‖𝑓 ሺ𝑥ሻ − ℋ ‖2 ] 9. 𝜀 = 𝜀 + 𝑠𝑡𝑒𝑝 10. end while ሺx−cሻ2 ሺx−cሻ2 11. σi ሺt + 1ሻ = σi ሺtሻ + δε1,i ቂ exp ቀ− ቁቃ σ3 2σ2 −ሺx−cሻ ሺx−cሻ2 12. ci ሺt + 1ሻ = ci ሺtሻ + δε1,i ቂ exp ቀ− ቁቃ σ2 2σ2 ∑𝑙𝑖=1(𝛼𝑖 −𝛼𝑖∗ )𝐾ሺ𝑥𝑖 ,𝑥ሻ 13. return 𝑓ሺ𝑥ሻ = ∑𝑙𝑖=1(𝛼𝑖 −𝛼𝑖∗ ) 14. end procedure 15. Procedure InterpretabilityTest(SV, n, σ, k) 16. repeat 𝑑2 − σ𝑒 σ2 17. Tính độ sự tương tự giữa các cặp tập mờ: 𝑆 𝐺 (𝐴𝑖 , 𝐴𝑗 ) = 𝑑2 − 2σ−σ𝑒 σ2 18. Lựa chọn môt cặp tập mờ 𝐴∗𝑖 và 𝐴𝑗∗ sao cho 𝑆 𝐺 (𝐴∗𝑖 , 𝐴𝑗∗ ) = 𝑚𝑎𝑥𝑖,𝑗 {𝑆 𝐺 (𝐴𝑖 , 𝐴𝑗 )} 19. if 𝑆 𝐺 (𝐴∗𝑖 , 𝐴𝑗∗ ) > 𝑘 then 20. Gộp cặp tập mờ 𝐴∗𝑖 và 𝐴𝑗∗ thành một tập mờ mới 𝐴𝑘 21. end if 22. until không còn căp tập mờ nào có độ đo sự tương tự 𝑆 𝐺 (𝐴𝑖 , 𝐴𝑗 ) > 𝑘 23. end procedure Hình 4. Thuật toán SVM-IF
  11. x Huấn luyện Part 1 SVM-IF 1 Part 2 SVM-IF 2 Phân cụm Dữ liệu Lựa chọn Các tập dữ liệu thuộc tính dữ vào bằng luật mờ liệu vào Part n-1 SOM SVM-IF n-1 Part n SVM-IF n Dự đoán Part 1 Phân cụm Suy luận trên Các Giá trị dữ liệu tập luật mờ bằng dự đoán SOM Part n Hình 8. Mô hình dự đoán giá cổ phiếu kết hợp SOM và SVM-IF Bảng IV. 5 luật trong 1 phân cụm trích xuất từ dữ liệu huấn luyện của cổ phiếu S&P500. Thứ tự Luật R1 IF x1=Gaussmf(0.09,-0.11) and x2=Gaussmf(0.09,-0.12) and x3=Gaussmf(0.09,-0.04) and x4=Gaussmf(0.09,-0.10) and x5=Gaussmf(0.09,-0.09) THEN y=0.10 R2 IF x1=Gaussmf(0.10,-0.01) and x2=Gaussmf(0.09,-0.06) and x3=Gaussmf(0.10,0.04) and x4=Gaussmf(0.10,-0.10) and x5=Gaussmf(0.10,-0.12) THEN y=0.57 R3 IF x1=Gaussmf(0.09,0.02) and x2=Gaussmf(0.10,0.02) and x3=Gaussmf(0.09,0.08) and x4=Gaussmf(0.10,-0.08) and x5=Gaussmf(0.10,-0.13) THEN y=-0.02 R4 IF x1=Gaussmf(0.10,-0.04) and x2=Gaussmf(0.10,-0.08) and x3=Gaussmf(0.10,0.02) and x4=Gaussmf(0.09,-0.08) and x5=Gaussmf(0.09,-0.11) THEN y=-0.29
  12. xi R5 IF x1=Gaussmf(0.10,-0.03) and x2=Gaussmf(0.09,-0.06) and x3=Gaussmf(0.10,0.03) and x4=Gaussmf(0.09,-0.10) and x5=Gaussmf(0.09,-0.13) THEN y=-0.38 Bảng Va. Kết quả thử nghiệm trên mô hình SOM+ANFIS và mô hình SOM+SVM. Mã Số SOM + ANFIS SOM + SVM cổ phân phiếu cụm Số luật NMSE MAE DS Số SVs NMSE MAE DS IBM 6 1367 1.2203 0.0617 47.74 1157 1.1054 0.0564 48.05 APPL 55 1898 2.8274 0.0650 49.75 1423 1.0877 0.0474 52.27 SP500 6 # 1.7836 0.1421 48.24 1356 1.1100 0.1200 51.25 DJI 35 # 1.7602 0.1614 49.75 1144 1.0660 0.1104 50.86 Bảng Vb. Kết quả thử nghiệm trên mô hình SOM+f-SVM và mô hình SOM+SVM-IF đề xuất. Mã Số SOM + f-SVM SOM + SVM-IF cổ phân phiếu cụm Số luật NMSE MAE DS Số luật NMSE MAE DS IBM 6 1157 1.1028 0.0577 44.22 5*6 1.0324 0.0554 50.75 APPL 55 1323 1.1100 0.0445 52.76 5*55 1.0467 0.0435 53.27 SP500 6 1356 1.1081 0.1217 52.76 5*6 1.0836 0.1207 53.27 DJI 35 1144 1.0676 0.1186 50.25 5*35 1.0459 0.1181 51.76 Đà Nẵng, ngày 26 tháng 12 năm 2017 Cơ quan chủ trì Chủ nhiệm đề tài NGUYỄN ĐỨC HIỂN
  13. 1 MỞ ĐẦU 1. Tổng quan Mô hình dự báo chuỗi thời gian sẽ giúp dự báo các giá trị tương lai về một đối tượng dự báo nào đó trên nền tảng xu hướng vận động của chính chuỗi dữ liệu đó trong quá khứ và hiện tại [22]. Vấn đề dự báo theo chuỗi thời gian, mà đặc biệt là vấn đề dự báo giá cổ phiếu đã và đang thu hút được nhiều sự quan tâm nghiên cứu của các nhà khoa học, với nhiều mô hình và giải pháp đề xuất, như mạng nơ-ron nhân tạo (ANN) [7][16], máy học Véc-tơ hỗ trợ (SVM) [4][8][16][19], mô hình chuỗi Markov ẩn (HMN) [17],…. Đồng thời cũng có nhiều giải pháp đề xuất cải tiến và tích hợp các mô hình, với mục tiêu cuối cùng là nâng cao tính chính xác của kết quả dự báo [4][9][11][21]. Vấn đề dự báo dữ liệu chuỗi thời gian tài chính, mà cụ thể là dự báo giá cổ phiếu hiện nay chủ yếu được tiếp cận dưới hai dạng, đó là dự báo giá cổ phiếu hoặc xu hướng của giá cổ phiếu sau n-ngày [6], [15]. Một trong những hướng tiếp cận phổ biến hiện nay để giải quyết bài toán dự đoán giá cổ phiếu là trích xuất mô hình mờ dự đoán giá cổ phiếu từ dữ liệu giao dịch lịch sử, gọi là mô hình mờ hướng dữ liệu (data-driven model). Một trong những kỹ thuật trích xuất luật mờ tự động từ dữ liệu khá hiệu quả đó là dựa vào máy học véc-tơ hỗ trợ (Support vector machines - SVM) được nhóm tác giả J.-H Chiang và P.-Y Hao nghiên cứu và công bố lần đầu tiên trong [8]. Theo hướng tiếp cận này, nhiều tác giả đã nghiên cứu đề xuất và ứng dụng các kỹ thuật rút trích các luật mờ từ SVM cho việc phát triển các mô hình mờ hướng dữ liệu cho các bài toán phân lớp [4][9], dự báo hồi quy [12][14]. Một đặc điểm đáng lưu ý của máy học Véc-tơ hỗ trợ là đối với một tập dữ liệu học nhất định, nếu điều chỉnh các tham số để tăng tính chính xác của mô hình dự đoán thì số lượng véc-tơ hỗ trợ (Support Vector - SVs) cũng tăng lên [4][5][12]. Nói cách khác là khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể diễn dịch được” (intepretability) của mô hình. Như vậy vấn đề đặt ra là làm thế nào
  14. 2 có thể trích xuất được hệ thống mờ đảm bảo tính chính xác trong dự đoán, đồng thời đảm bảo được đặc tính “có thể diễn dịch được”. Bên cạnh đó, lý thuyết học dựa trên tri thức cho thấy các kiểu khác nhau của tri thức có thể sử dụng để cải thiện hiệu quả của mô hình máy học nói chung và mô hình mờ nói riêng. Tùy thuộc vào vai trò của tri thức, việc học dựa trên tri thức có thể phân thành các kịch bản như sau: học dựa trên giải thích (explaination-based learning) hay còn gọi là EBL, học dựa trên sự phù hợp (relevance-based learning) hay còn gọi là RBL, và học qui nạp dựa trên tri thức (knowledge-based learning) hay còn gọi là KBIL [17]. Như vậy hướng nghiên cứu tich hợp tri thưc tiên nghiệm với mô hình mờ hướng dữ liệu TSK được chọn như là một trong những giải đề xuất để cải thiện hiệu quả mô hình dự báo giá chứng khoán dự trên mô hình mờ hướng dữ liệu. 2. Tính cấp thiết của đề tài Sự khác biệt chủ yếu giữa hệ thống mờ dựa trên máy học Véc-tơ hỗ trợ và mô hình máy học Véc-tơ hỗ trợ nguyên thủy chính là đặc tính “có thể diễn dịch được” (interpretability); đặc tính này cho phép hệ thống mờ dễ hiểu hơn so với mô hình máy học Véc-tơ hỗ trợ. Tuy nhiên, đối với mô hình máy học Véc-tơ hỗ trợ, tính chính xác của mô hình thu được tỷ lệ thuận với số lượng SVs (Support vectors) sinh ra, và điều đó đồng nghĩa với việc số lượng luật mờ cũng tăng lên. Nói cách khác, khi tăng hiệu suất của mô hình thì đồng nghĩa với việc làm giảm tính “có thể diễn dịch được” của mô hình mờ trích xuất được. Giải pháp tích hợp tri thức tiên nghiệm vào mô hình mờ dựa trên F-SVM sẽ giúp đảm bảo được tính “có thể diễn dịch được” của mô hình mờ trích xuất được. Mô hình mờ dự báo giá cổ phiếu dựa trên việc tích hợp với tri thức tiên nghiệm với quá trình học mô hình mờ từ dữ liệu sẽ khác với mô hình dự báo dựa trên phương pháp thống kế thông thường, đó là tập luật mờ học được sau khi huấn luyện mô hình có thể diễn dịch ngôn ngữ được; đây là cơ sở để chuyên gia có thể đánh giá các luật và có giải pháp tối ưu hóa hợp lý. 3. Mục tiêu đề tài
  15. 3 Nghiên cứu xây dựng mô hình dự báo gia cổ phiếu dựa trên sự tích hợp mô hình mờ TSK hướng dữ liệu (data-driven models) trích xuất từ máy học véc-tơ hỗ trợ với tri thức tiên nghiệm. Các mục tiêu cụ thể:  Mô hình hồi quy và bài toán dự báo giá cổ phiếu.  Xây dựng mô hình mờ TSK từ máy học véc-tơ hỗ trợ hồi quy.  Giải pháp tích hợp tri thức tiên nghiệm vào mô hình mờ TSK trích xuất từ máy học Véc-tơ hỗ trợ;  Đề xuất một mô hình dự báo giá cổ phiếu dựa trên mô hình mờ TSK trích xuất từ máy học véc-tơ hỗ trợ. 4. Cách tiếp cận và phương pháp nghiên cứu 4.1. Cách tiếp cận:  Tiếp cận theo hướng hàn lâm: dựa vào tài liệu và các công bố khoa học.  Tiếp cận theo hướng mục tiêu: dựa vào mục tiêu đề tài. Đề tài sẽ được thực hiện theo 4 giai đoạn:  Giai đoạn 1: Nghiên cứu mô hình hồi quy và bài toán dự báo giá cổ phiếu  Giai đoạn 2: Nghiên cứu thuật toán trích xuất mô hình mờ từ máy học Véc- tơ hỗ trợ  Giai đoạn 3: Giải pháp tích hợp tri thức tiên nghiệm vào mô hình mờ hướng dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ  Giai đoạn 4: Xây dựng một mô hình tích hợp nhiều giai đoạn cho bài toán dự báo giá cổ phiếu dưa trên Giải pháp tích hợp Tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ 4.2. Phương pháp nghiên cứu: Đề tài sử dụng phương pháp nghiên cứu lý thuyết, cơ sở toán học, kết hợp với thực nghiệm. Cụ thể là: trên cơ sở nghiên cứu các tài liệu và công bố khoa học mới nhất về vấn đề trích xuất mô hình mờ từ máy học SVM, kết hợp với việc phân tích lựa chọn các kiểu của tri thức tiên nghiệm để từ đó xây dựng thuật toán cho phép tích
  16. 4 hợp tri thức tiên nghiệm vào việc học mô hình mờ TSK từ máy học SVM hồi quy; cuối cùng là thực nghiệm mô hình và đánh giá kết quả. 5. Đối tượng và phạm vi nghiên cứu 5.1. Đối tượng nghiên cứu: Đề tài tập trung vào các đối tượng nghiên cứu cơ bản sau:  Mô hình hồi quy và bài toán dự báo giá cổ phiếu  Mô hình mờ TSK hướng dữ liệu trích xuất từ máy học Véc-tơ hỗ trợ  Mô hình tích hợp Tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ  Mô hình tích hợp nhiều giai đoạn cho bài toán dự báo giá cổ phiếu 5.2. Phạm vi nghiên cứu: Nâng cao hiệu quả dự báo giá cổ phiếu dựa trên mô hình mờ dự báo hồi quy dựa trên việc tích hợp tri thức tiên nghiệm với mô hình mờ trích xuất từ máy học Véc-tơ hỗ trợ. 6. Nội dung nghiên cứu Đề tài được tiến hành thực hiện theo các nội dung và tiến độ cụ thể như sau: ST Các nội dung, công việc Sản phẩm Thời gian (bắt đầu-kết Người thực hiện T thực hiện thúc) Nghiên cứu mô hình hồi quy và Báo cáo 02/17 - Nguyễn Đức Hiển 1 bài toán dự báo giá cổ phiếu 03/17 Nghiên cứu giải pháp trích xuất Báo cáo 04/17 - Nguyễn Đức Hiển 2 mô hình mờ từ máy học Véc-tơ 05/17 hỗ trợ Giải pháp tích hợp Tri thức tiên Thuật toán 06/17 - Nguyễn Đức Hiển 3 nghiệm với mô hình mờ trích và số liệu 07/17 xuất từ máy học Véc-tơ hỗ trợ thực nghiệm Mô hình tích hợp nhiều giai đoạn Mô hình 08/16 - Nguyễn Đức Hiển 4 cho bài toán dự báo giá cổ phiếu 09/16
  17. 5 Thực nghiệm cho một số mã cổ Số liệu 10/16 – Nguyễn Đức Hiển 5 phiếu thực 12/16 nghiệm Trong các chương tiếp theo sau đây của báo cáo, chúng tôi sẽ trình bày những kết quả nghiên cứu chính về lý thuyết và thực nghiệm đã thực hiện được. Chương 1 sẽ giới thiệu tóm lược về mô hình hồi quy, bài toán dự báo chõi thời gian và bài toán dự báo giá cổ phiếu, chương 2 sẽ trình bày sơ lượt về mô hình mờ TSK, mô hình máy học Véc-tơ hõ trợ hồi quy và giải pháp trích xuất mô hình mò từ máy học véc-tơ hỗ trợ, chương 3 sẽ trình bày về giải pháp tích hợp tri thức tiên nghiệm vào việc học mô hình mờ TSK dựa trên máy học véc-tơ hỗ trợ hồi quy, chương 4 trình bày mô hình tích hợp đề xuất và các kết quả thực nghiệm; và cuối cùng là kết luận và một số kiến nghị rút ra từ kết quả của đề tài.
  18. 6 Chương 1. MÔ HÌNH HỒI QUY VÀ BÀI TOÁN DỰ BÁO GIÁ CỔ PHIẾU 1. Mô hình hồi quy 1.1. Mô hình hồi quy tuyến tính cổ điển Mô hình hồi quy tuyến tính cổ điển là một cách xem xét bản chất và hình thức của mối quan hệ giữa hai hay nhiều biến số. Ở đây chúng tôi chỉ chỉ xem xét trường hợp mô hình hai biến. Trong đó Y là biến phụ thuộc và X là biến độc lập (hay còn gọi là biến giải thích). Như vậy, chúng ta muốn giải thích/dự báo giá trị của Y theo các giá trị khác nhau của X. Giả sử, X và Y có mối quan hệ tuyến tính như sau: 𝐸 ሺ𝑌𝑡 ሻ = 𝛽0 + 𝛽1 𝑋𝑡 ሺ1.1ሻ Trong đó, 𝐸 𝑌𝑡 là giá trị trung bình có điều kiện của 𝑌𝑡 theo 𝑋𝑡 , và 𝛽0 , 𝛽1 là các ሺ ሻ tham số chưa biết của tổng thể (t ký hiệu theo thông lệ dữ liệu chuỗi thời gian cho quan sát vào thời điểm t của biến quan sát). Phương trình (1.1) được gọi là phương trình hồi quy tổng thể. Giá trị thực 𝑌𝑡 sẽ không phải luôn luôn bằng giá trị kỳ vọng 𝐸 ሺ𝑌𝑡 ሻ, vì vậy 𝑌𝑡 có thể được thể hiện như sau: 𝑌𝑡 = 𝐸 ሺ𝑌𝑡 ሻ + 𝑢𝑡 𝑌𝑡 = 𝛽0 + 𝛽1 𝑋𝑡 + 𝑢𝑡 ሺ1.2ሻ Trong đó, 𝑢𝑡 được gọi là hạng nhiễu ngẫu nhiên. Và 𝑢𝑡 luôn tồn tại do các nguyên nhân như bỏ sót biết giải thích, sai dạng mô hình do bỏ qua các tác động trễ, sai dạng hàm, lỗi đo lường, hoặc do đơn giản hóa mô hình bằng cách tổng hợp một số biến khác nhau thành một biến giải thích duy nhất. Các tham số hồi quy 𝛽0 , 𝛽1 được ước lượng bằng phương pháp bình phương tối thiểu: ∑(𝑌𝑡 − 𝑌̂𝑡 ) = min ሺ1.3ሻ Từ đó ta có hệ phương trình sau: ̂0 + 𝛽 ∑ 𝑌𝑡 = 𝑛𝛽 ̂1 ∑ 𝑋𝑡 { ሺ1.4ሻ ̂0 ∑ 𝑋𝑡 + ̂ ∑ 𝑋𝑡 𝑌𝑡 = 𝛽 𝛽1 ∑ 𝑋𝑡2 Trong đó n là số quan sát trong mẫu. Giải hệ phương trình này chúng ta xác định được các tham số hồi quy β0 , β1 ước lượng.
  19. 7 1.2. Mô hình hồi quy phi tuyến Là các dạng mô hình hồi quy phi tuyến nói lên mức phụ thuộc của một biến phụ thuộc với một hay nhiều biến độc lập mà phương trình của mô hình hồi quy có dạng phi tuyến tính đối với các hệ số. Xét mô hình hồi quy tương quan giữa hai biến X và Y. Trong đó Y là biến phụ thuộc và X là biến độc lập.  Mô hình Parabol: Hàm hồi quy có dạng như sau: Yt = β0 + β1 X t + β2 X t2 ሺ1.5ሻ Áp dụng phương pháp bình phương cực tiểu sẽ có hệ phương trình sau để các định các tham số hồi quy ước lượng 𝛽0 , 𝛽1 , 𝛽2 : ̂+ 𝛽 ∑ 𝑌𝑡 = 𝑛𝛽 ̂ ∑ 𝑋2𝑡 ̂ ∑ 𝑋𝑡 + 𝛽 0 1 2 ∑ 𝑋 𝑡 𝑌𝑡 = 𝛽0 𝛽1 ∑ 𝑋2𝑡 + 𝛽 ̂ ∑ 𝑋𝑡 + ̂ ̂ ∑ 𝑋3𝑡 2 ሺ1.6ሻ 2 ̂ 2 ̂ 3 ̂ 4 {∑ 𝑋𝑡 𝑌𝑡 = 𝛽0 ∑ 𝑋𝑡 + 𝛽1 ∑ 𝑋𝑡 + 𝛽2 ∑ 𝑋𝑡 Phương trình Parabol bậc 2 được dùng trong trường hợp khi biến độc lập X tăng (giảm) với lượng đều nhau thì biến phụ thuộc Y biến động với lượng không đều.  Mô hình Hypebol: Hàm hồi quy có dạng như sau: 𝛽1 Yt = β0 + ሺ1.7ሻ 𝑋𝑡 Áp dụng phương pháp bình phương cực tiểu sẽ có hệ phương trình sau để các định các tham số hồi quy ước lượng β0 , β1 : 1 ̂0 + 𝛽 ∑ 𝑌𝑡 = 𝑛𝛽 ̂1 ∑ 𝑋𝑡 ሺ1.8ሻ 1 1 1 ̂ ∑ 𝑌𝑡 = 𝛽0 ∑ + 𝛽1 ∑ 2 ̂ { 𝑋𝑡 𝑋𝑡 𝑋𝑡 Phương trình hypebol được dùng trong trường hợp trị số của biến độc lập X tăng thì trị số của biến phụ thuộc Y giảm với tốc độ không đều.  Mô hình hàm mũ: Hàm hồi quy có dạng như sau: Yt = β0 𝛽1𝑋 ሺ1.9ሻ
  20. 8 Áp dụng phương pháp bình phương cực tiểu sẽ có hệ phương trình sau để các định các tham số hồi quy ước lượng β0 , β1 : ̂0 + 𝑙𝑛 𝛽 ∑ 𝑙𝑛 𝑌𝑡 = 𝑛 𝑙𝑛 𝛽 ̂1 ∑ 𝑋𝑡 { ሺ1.10ሻ ̂0 ∑ 𝑋𝑡 + ln ̂ ∑ 𝑋𝑡 𝑙𝑛 𝑌𝑡 = ln 𝛽 𝛽1 ∑ 𝑋𝑡2 1.3. Mô hình hồi quy tuyến tính đa bội Thông thường trong các mối quan hệ trong bài toán thực tế, biến phụ thuộc, Y, phụ thuộc vào nhiều biến giải thích khác nhau. Do đó, chúng ta cần phải mở rộng phân tích hồi quy cho trường hợp tổng quát hơn. Hàm hồi quy tổng thể ngẫu nhiên với k biến có thể được biểu diễn như sau: 𝑌𝑡 = 𝛽1 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝑢𝑡 𝑣ớ𝑖 𝑡 = 1, 2, 3, … , 𝑛 (1.11) Trong đó, 𝛽1 là hệ số cắt, 𝛽2 , …, 𝛽𝑘 là các hệ số hồi quy riêng, 𝑢𝑡 là hạng nhiễu ngẫu nhiên, và 𝑡 là quan sát thứ 𝑡, 𝑛 được xem là quy mô toàn bộ của tổng thể. Phương trình (2.11) cũng được chia thành hai thành phần: (1) Thành phần xác định E(𝑌𝑡 /𝑋2𝑡 ,, 𝑋3𝑡 , … , 𝑋𝑘𝑡 ሻ, nghĩa là giá trị trung bình có điều kiện của Y theo các giá trị cho trước của các X, và (2) Thành phần ngẫu nhiên 𝑢𝑡 đại diện cho tất cả các yếu tố khác ngoài các biến 𝑋2𝑡 ,, 𝑋3𝑡 , … , 𝑋𝑘𝑡 có ảnh hưởng lên 𝑌𝑡 . 2. Bài toán dự báo chuỗi thời gian Về cơ bản, mục tiêu của dự báo chuỗi thời gian là để ước tính một số giá trị trong tương lai dựa vào mẫu dữ liệu hiện tại và trong quá khứ. Về mặt toán học có thể biểu diễn như sau [22]: x̂ሺt + ∆t ሻ = fሺxሺt − aሻ, xሺt − bሻ, xሺt − cሻ, … ሻ, ሺ1.12ሻ trong đó, với ví dụ cụ thể này, x̂ là giá trị dự đoán của một chuỗi thời gian rời rạc x. Mục tiêu của dự báo chuỗi thời gian là tìm một hàm fሺxሻ sao cho giá trị dự đoán x̂ của chuỗi thời gian tại một thời điểm trong tương lai là không thiên lệch (unbiased) và nhất quán (consistent). Lưu ý rằng thước đo độ tốt của mô hình dự báo chính là hiệu quả và độ sai lệch (bias). Giới hạn Cramér-Rao cho biết giới hạn dưới cho phương sai của ước lượng độ không thiên lệch. Nếu ước lượng độ không thiên lệch đạt đến giới hạn này thì có thể nói mô hình dự đoán là hiệu quả [19].
nguon tai.lieu . vn