Xem mẫu

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- NGUYỄN DUY HIẾU MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH HÀ NỘI – 2022
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- Nguyễn Duy Hiếu MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ Chuyên ngành: Hệ thống thông tin Mã số: 9 48 01 04 LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS. TSKH. Nguyễn Cát Hồ 2. TS. Vũ Như Lân Hà Nội – Năm 2022
  3. LỜI CAM ĐOAN Tác giả luận án cam đoan các kết quả nghiên cứu là của riêng tác giả ngoại trừ các nghiên cứu đã được trích dẫn trong luận án. Các kết quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi được đưa vào luận án. Các kết quả trình bày trong luận án là trung thực và chưa từng được công bố trong bất kỳ công trình nào khác. Tác giả Nguyễn Duy Hiếu
  4. LỜI CẢM ƠN Trong quá trình thực hiện nghiên cứu, tác giả đã nhận được sự chỉ bảo tận tình, chu đáo của PGS. TSKH. Nguyễn Cát Hồ và TS. Vũ Như Lân. Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng và biết ơn sâu sắc nhất tới hai thầy. Tác giả trân trọng cảm ơn Ban Lãnh đạo: Viện Công nghệ thông tin, Khoa Công nghệ thông tin và Truyền thông - Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã giúp đỡ, tạo điều kiện thuận lợi cho tác giả trong quá trình học tập, nghiên cứu và hoàn thiện luận án. Tác giả cũng xin trân trọng cảm ơn lãnh đạo Trường Đại học Tây Bắc, Ban Chủ nhiệm Khoa Khoa học Tự nhiên - Công nghệ, lãnh đạo Phòng Tổ chức - Hành chính, Phòng Bảo đảm chất lượng và Thanh tra Pháp chế đã quan tâm, tạo điều kiện tốt nhất trong công việc để tác giả có thời gian tập trung nghiên cứu. Tác giả xin gửi lời cảm ơn chân thành tới các đồng nghiệp thuộc Khoa Khoa học Tự nhiên - Công nghệ, Trường Đại học Tây Bắc, các anh chị trong Nhóm nghiên cứu Đại số gia tử đã động viên, khích lệ, trao đổi những kiến thức và kinh nghiệm nghiên cứu. Cuối cùng, tác giả xin gửi lời cảm ơn chân thành tới bố mẹ hai bên, anh chị em, người thân, bạn bè đặc biệt là vợ và các con đã luôn dành cho tác giả những tình cảm, chia sẻ những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tác giả trong quá trình nghiên cứu. Luận án này cũng là món quà mang ý nghĩa tinh thần mà tác giả trân trọng gửi đến các thành viên trong gia đình.
  5. MỤC LỤC LỜI CAM ĐOAN ................................................................................................ iii LỜI CẢM ƠN ...................................................................................................... iv MỤC LỤC ............................................................................................................ v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ......................................... vii DANH MỤC CÁC BẢNG BIỂU ........................................................................ ix DANH MỤC CÁC HÌNH ẢNH, HÌNH VẼ, ĐỒ THỊ ........................................ xi MỞ ĐẦU .............................................................................................................. 1 CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ ...................................................... 8 1.1. Dự báo chuỗi thời gian mờ ........................................................................ 8 1.1.1. Khái niệm về chuỗi thời gian .............................................................. 8 1.1.2. Mô hình dự báo FTS-FM .................................................................... 9 1.2. Thông tin và cấu trúc toán học của miền ngôn ngữ tự nhiên ................... 21 1.2.1. Cấu trúc đại số trong miền ngôn ngữ tự nhiên ................................. 23 1.2.2. Lượng hóa cấu trúc ngữ nghĩa của ngôn ngữ bằng phương pháp tiên đề................................................................................................................. 29 1.2.3. Một số ứng dụng của ĐSGT ............................................................. 34 CHƯƠNG 2. CHUỖI THỜI GIAN NGÔN NGỮ VÀ MÔ HÌNH DỰ BÁO .... 37 2.1. Mô hình dự báo chuỗi thời gian mờ dựa trên ngữ nghĩa ngôn ngữ ......... 38 2.2. Mô hình dự báo chuỗi thời gian ngôn ngữ (LTS-FM) ............................. 45 2.2.1. Chuỗi thời gian ngôn ngữ (LTS) ...................................................... 46 2.2.2. Quan hệ lô-gic ngôn ngữ và nhóm quan hệ lô-gic ngôn ngữ ........... 47 2.2.3. Mô hình dự báo LTS-FM.................................................................. 48 2.2.4. Một số kết quả thử nghiệm và thảo luận ........................................... 52
  6. CHƯƠNG 3. MỘT SỐ NGHIÊN CỨU MỞ RỘNG MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGÔN NGỮ ................................................................................. 66 3.1. Trọng số của quan hệ lô-gic ngôn ngữ .................................................... 67 3.2. Mở rộng không gian trong mô hình dự báo chuỗi thời gian ngôn ngữ .... 70 3.3. Tính toán tối ưu trong mô hình dự báo LTS-FM ..................................... 75 3.3.1. Tối ưu tham số của mô hình dự báo LTS-FM .................................. 75 3.3.2. Tối ưu tham số kết hợp tối ưu việc lựa chọn các hạng từ trong mô hình dự báo chuỗi thời gian ngôn ngữ ................................................................ 80 3.4. Mô hình dự báo chuỗi thời gian ngôn ngữ bậc cao ................................. 87 3.4.1. Quan hệ lô-gic ngôn ngữ bậc cao ..................................................... 87 3.4.2. Mô hình dự báo HO-LTS.................................................................. 88 3.4.3. Một số kết quả và thảo luận .............................................................. 89 KẾT LUẬN CỦA LUẬN ÁN .......................................................................... 100 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN ........................................................................................................ 102 TÀI LIỆU THAM KHẢO ................................................................................ 103
  7. DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Các ký hiệu: !! (# ) Hàm thuộc của phần tử # vào tập mờ % &'(() ) Miền ngôn ngữ của biến ngôn ngữ ) *+,-(#) Hàm dấu của từ ngôn ngữ # .(# ) Độ đo tính mờ của từ ngôn ngữ # ℑ" ( # ) Khoảng tính mờ của từ ngôn ngữ # 0(# ) Chiều dài của từ ngôn ngữ # ! (ℎ ) Độ đo tính mờ của gia tử ℎ 2 (# ) Giá trị ngữ nghĩa định lượng của từ ngôn ngữ # 3 3 = .(5 # ), độ đo tính mờ của phần tử sinh âm 5 # 6 6 = ∑#%&$&#' !(ℎ$ ), tổng độ đo tính mờ của các gia tử âm 8 8 = ∑'&$&( ! (ℎ$ ), tổng độ đo tính mờ của các gia tử dương Các chữ viết tắt: FTS Fuzzy Time Series (chuỗi thời gian mờ) Fuzzy Time Series Forecasting Model (mô hình dự báo FTS-FM chuỗi thời gian mờ) Artificial Intelligence (trí thông minh nhân tạo, trí tuệ AI nhân tạo) FLR Fuzzy Logic Relationship (quan hệ lô-gic mờ) Fuzzy Logic Relationship Group (nhóm quan hệ lô-gic FLRG mờ) Enrollment of University of Alabama (bộ dữ liệu số sinh EUA viên nhập học Đại học Alabama từ 1971 đến 1992) Mean Squared Error (giá trị sai số trung bình bình MSE phương) Root Mean Squared Error (giá trị khai căn của sai số trung RMSE bình bình phương) Mean Absolute Percentage Error (giá trị sai số trung bình MAPE phần trăm tuyệt đối) ĐSGT Đại số gia tử HA Hedge Algebras (đại số gia tử)
  8. Semantically Quantifying Mapping (ánh xạ ngữ nghĩa SQM định lượng) LST Linguistic Time Series (chuỗi thời gian ngôn ngữ) Linguistic Time Series Forecasting Model (mô hình dự LTS-FM báo chuỗi thời gian ngôn ngữ) WLTS- Weighted Linguistic Time Series Forecasting Model (mô FM hình dự báo chuỗi thời gian ngôn ngữ có trọng số) LLR Linguistic Logical Relationship (quan hệ lô-gic ngôn ngữ) Linguistic Logical Relationship Group (nhóm quan hệ lô- LLRG gic ngôn ngữ) PSO Particle Swarm Optimization (giải thuật tối ưu bầy đàn) Linguistic Time Series Particle Swarm Optimization (giải LTSPSO thuật tối ưu tham số sử dụng giải thuật bầy đàn của mô hình dự báo chuỗi thời gian ngôn ngữ) Linguistic Time Series Particle Swarm Co-Optimization (giải thuật đồng tối ưu, kết hợp tối ưu tham số và bộ từ sử LTSPSCO dụng giải thuật bầy đàn của mô hình dự báo chuỗi thời gian ngôn ngữ) High-Order Linguistic Time Series (chuỗi thời gian ngôn HO-LTS ngữ bậc cao)
  9. DANH MỤC CÁC BẢNG BIỂU Bảng 1.1. Các tiêu chuẩn đánh giá độ chính xác dự báo .................................... 20 Bảng 1.2. Quan hệ dấu giữa gia tử trên các hàng đối với gia tử trên các cột ..... 28 Bảng 2.1. Bảng số liệu sinh viên nhập học EUA ............................................... 40 Bảng 2.2. Các khoảng giải nghĩa cho dữ liệu EUA theo các năm dự báo ......... 43 Bảng 2.3. Bảng tổng hợp thông tin làm cơ sở cho tính toán dự báo .................. 44 Bảng 2.4. Số liệu sinh viên nhập học EUA và chuỗi thời gian ngôn ngữ tương ứng ...................................................................................................................... 54 Bảng 2.5. Các nhóm quan hệ lô-gic ngôn ngữ của chuỗi thời gian tuyển sinh .. 55 Bảng 2.6. So sánh kết quả dự báo tuyển sinh Alabama ..................................... 56 Bảng 2.7. Độ biến thiên của dữ liệu EUA .......................................................... 58 Bảng 2.8. Các LLRG của chuỗi thời gian độ biến thiên tuyển sinh ................... 59 Bảng 2.9. Kết quả dự báo EUA dựa trên số liệu biến thiên. .............................. 60 Bảng 2.10. Các nhóm quan hệ LLRG của chuỗi thời gian nhiệt độ. ................. 62 Bảng 2.11. Kết quả dự báo nhiệt độ bằng mô hình FTS-FM ............................. 63 Bảng 3.1. Giá trị 7 điểm ngữ nghĩa thực trên không gian nền ........................... 68 Bảng 3.2. Chuỗi thời gian ngôn ngữ EUA và nhóm quan hệ LLRG có trọng số ............................................................................................................................ 68 Bảng 3.3. Kết quả dự báo của các mô hình ........................................................ 69 Bảng 3.4. Chuỗi thời gian ngôn ngữ trong mô hình 9, 17, 33 và 65 hạng từ ..... 72 Bảng 3.5. Các nhóm quan hệ lô-gic ngôn ngữ với bộ 9 và 17 từ ....................... 73 Bảng 3.6. Các nhóm quan hệ lô-gic ngôn ngữ với bộ 33 và 65 từ ..................... 73 Bảng 3.7. Kết quả dự báo với bộ 9, 17, 33 và 65 hạng từ .................................. 74 Bảng 3.8. Chuỗi thời gian ngôn ngữ của dữ liệu EUA sử dụng 9 hạng từ......... 91 Bảng 3.9. Nhóm quan hệ lô-gic ngôn ngữ bậc hai sử dụng 9 hạng từ ............... 92 Bảng 3.10. Nhóm quan hệ lô-gic ngôn ngữ bậc ba sử dụng 9 hạng từ .............. 92 Bảng 3.11. So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO- LTS với bộ 9 từ được chọn ................................................................................. 94
  10. Bảng 3.12. So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO- LTS với bộ 17 từ được chọn ............................................................................... 94 Bảng 3.13. So sánh MSE kết quả dự báo số liệu EUA ...................................... 94 Bảng 3.14. So sánh MAPE kết quả dự báo số liệu EUA .................................. 95 Bảng 3.15. Giá trị tham số tính mờ tương ứng với các bộ từ ............................. 95 Bảng 3.16. So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO- LTS với bộ 33 từ được chọn ............................................................................... 96 Bảng 3.17. So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO- LTS với bộ 65 từ được chọn ............................................................................... 96 Bảng 3.18. Chuỗi thời gian ngôn ngữ năng suất nông sản Lahi ........................ 97 Bảng 3.19. So sánh sai số dự báo nông sản Lahi của các mô hình dự báo ........ 97
  11. DANH MỤC CÁC HÌNH ẢNH, HÌNH VẼ, ĐỒ THỊ Hình 1.1. Dữ liệu chỉ số chứng khoán NASDAQ 6 tháng đầu năm 2021. .......... 8 Hình 1.2. Lưu đồ thuật toán giải thuật PSO ....................................................... 18 Hình 1.3. Khoảng tính mờ của các từ ngôn ngữ của biến ENROLLMENT ...... 31 Hình 2.1. Kết quả dự báo dữ liệu sinh viên nhập học EUA bằng mô hình dự báo mờ dựa trên ngữ nghĩa ........................................................................................ 45 Hình 2.2. Mô hình dự báo chuỗi thời gian ngôn ngữ ......................................... 49 Hình 2.3. Đồ thị so sánh kết quả dự báo giữa các phương pháp ........................ 57 Hình 2.4. So sánh độ chính xác dự báo bằng MSE giữa các phương pháp ....... 57 Hình 2.5. So sánh độ chính xác dự báo bằng MAPE giữa các phương pháp .... 61 Hình 2.6. So sánh sai số MAPE của các phương pháp dự báo .......................... 64 Hình 3.1. Đường ngữ nghĩa biểu diễn chuỗi thời gian ngôn ngữ được xây dựng bởi 9, 17, 33 và 65 từ ngôn ngữ trên bộ dữ liệu EUA ........................................ 71 Hình 3.2. So sánh sai số MSE của kết quả dự báo dữ liệu EUA ....................... 79 Hình 3.3. So sánh sai số MSE của dự báo với bộ 17, 33 và 65 từ sử dụng LTSPSO ............................................................................................................................ 79 Hình 3.4. Biểu đồ so sánh MSE đối với lựa chọn tối ưu 14 từ trong các bộ từ có độ dài khác nhau ................................................................................................. 86 Hình 3.5. Biểu đồ so sánh MSE đối với lựa chọn tối ưu 16 từ trong các bộ từ có độ dài khác nhau ................................................................................................. 87 Hình 3.6. Mô hình dự báo HO-LTS ................................................................... 89
  12. 1 MỞ ĐẦU 1. Tính cấp thiết Trong suốt quá trình hình thành, phát triển của loài người, dự báo trước được các sự việc có thể xảy ra trong tương lai luôn là vấn đề nhận được nhiều sự chú ý, quan tâm của nhân loại. Dự báo tốt giúp con người chuẩn bị và lập kế hoạch tốt hơn các công việc của mình, để từ đó giảm bớt công sức, thời gian và nâng cao hiệu quả trong công việc hàng ngày. Dự báo chuỗi thời gian bao gồm các kỹ thuật tính toán dự báo dựa trên phân tích dữ liệu lịch sử được thu thập, quan sát được theo trình tự thời gian. Trong vài chục năm trở lại đây, nhiều nghiên cứu trong nước cũng như ngoài nước được đề xuất để giải quyết vấn đề dự báo nói chung và dự báo đối với dữ liệu chuỗi thời gian nói riêng. Những nghiên cứu thường hướng tới việc nâng cao độ chính xác của mô hình dự báo và giảm độ phức tạp của phương pháp tính toán dự báo. Bài toán dự báo là bài toán xử lý dữ liệu có tính chất không chắc chắn. Kết quả dự báo thường có độ chắc chắn không cao và không thể xây dựng được một mô hình dự báo toàn năng đối với mọi loại dữ liệu. Do đó, người ta nghiên cứu phát triển các loại mô hình dự báo khác nhau và tiến hành thực nghiệm để tìm ra những loại mô hình phù hợp nhất trong từng trường hợp cụ thể. Thêm vào đó, nhiều dữ liệu thu thập được cũng có độ chắc chắn không cao như có hiện tượng thiếu hụt dữ liệu, biên độ dao động lớn, dữ liệu lịch sử ngắn hay các dữ liệu thu thập không rõ ràng về số liệu mà chỉ biểu diễn dạng ngôn ngữ… Những điều này gây nhiều khó khăn đối với các kỹ thuật dự báo chuỗi thời gian bằng phương pháp hồi quy, thống kê toán học truyền thống vốn đã được quan tâm nghiên cứu trong lĩnh vực kinh tế. Những phương pháp tính toán dự báo theo thống kê, hồi quy cũng chỉ tỏ ra hữu hiệu, chính xác cao khi số lượng quan sát lớn, chuỗi thời gian là chuỗi dừng, không có nhiễu và ít biến động trong thời gian ngắn. Năm 1993, Song & Chissom lần đầu tiên giới thiệu mô hình dự báo chuỗi thời gian mờ (FTS-FM) [1–3]. Đây là mô hình đặc biệt hữu dụng khi dữ liệu quan sát lịch sử có độ chắc chắn thấp hay biên độ dao động lớn như đã đề cập ở bên
  13. 2 trên. Hơn nữa, mô hình dự báo FTS-FM còn có khả năng dự báo trên dữ liệu chuỗi thời gian dưới dạng ngôn ngữ. Năm 1996, Chen giới thiệu mô hình dự báo FTS- FM cải tiến [4] với phương pháp tính toán số học hiệu quả hơn so với các mô hình đề xuất ban đầu. Đó là các nghiên cứu cơ bản, đặt nền móng cho những nghiên cứu sau này về FTS với nhiều mô hình được đề xuất. Đã có nhiều nghiên cứu về chuỗi thời gian mờ được công bố trên các tạp chí khoa học và hội nghị chuyên ngành uy tín trong khoảng ba mươi năm trở lại đây. Trong nghiên cứu [5], Bose và Mali đã nghiên cứu và bình phẩm gần 200 bài báo công bố trên các tạp chí khoa học và hội nghị chuyên ngành uy tín về phương pháp dự báo FTS từ năm 1993 đến 2018. Đây chỉ là một con số nhỏ so với lượng công bố khoa học khá lớn về lĩnh vực này. Có hai loại mô hình dự báo FTS-FM là mô hình phụ thuộc thời gian (time- variant) và mô hình không phụ thuộc thời gian (time-invariant). Có khá nhiều nghiên cứu về mô hình không phụ thuộc thời gian nhưng nghiên cứu về mô hình phụ thuộc thời gian không đáng kể [3], [6–9]. Mô hình dự báo FTS-FM cũng được chia thành hai nhóm là mô hình dự báo bậc nhất và mô hình dự báo bậc cao. Nếu quan hệ lô-gic mờ có một thành phần ở vế trái thì đó là mô hình bậc nhất [4], ngược lại đó là mô hình bậc cao khi dữ liệu dự báo liên quan tới nhiều dữ liệu quá khứ [10–24]. Chuỗi thời gian có thể là đơn nhân tố hoặc đa nhân tố [15], [25–36], tùy thuộc vào số lượng các quan sát sử dụng trong mô hình tính toán. Thông thường, các quan hệ lô-gic mờ được thiết lập và bổ sung vào các nhóm mà không quan tâm tới việc lặp lại. Tức là, các phương pháp dự báo thường chỉ thêm các quan hệ chưa có vào nhóm quan hệ lô-gic mờ. Tuy nhiên, cũng có những nghiên cứu quan tâm tới việc lặp lại của các quan hệ bằng cách gán trọng số cho việc lặp lại của các quan hệ này [37–45]. Việc xác định không gian nền cho mô hình dự báo FTS-FM có thể dựa trực tiếp trên dữ liệu quan sát lịch sử hoặc lấy sai phân của dữ liệu [9], [22]. Trong đó, các nghiên cứu dùng các tập mờ đại diện cho các từ ngôn ngữ, được sắp xếp trong một phân hoạch mờ trên không gian nền. Việc phân hoạch tập nền có hai cách là chia thành các đoạn bằng nhau và không bằng nhau, trong đó Huarng [46], [47]
  14. 3 đã đề xuất mô hình heuristic cho FTS và thảo luận về việc lựa chọn khoảng chia tốt nhất trên không gian nền. Việc phân hoạch cũng có thể được thực hiện bằng mô hình toán học hoặc bằng các kỹ thuật tính toán mềm. Trong hơn mười năm trở lại đây, nhiều mô hình lai giữa FTS và các kỹ thuật tính toán hiện đại được đề xuất, như việc dùng các kỹ thuật tính toán tối ưu [12], [27], [30], [33], [48–54], phân cụm [25], [55–65] hay mô hình mạng nơ-ron nhân tạo [11], [20], [51], [66– 76]. Việc mờ hóa dữ liệu thường dùng số mờ tam giác, nhưng cũng có một số nghiên cứu dùng số mờ hình thang [37], [43], [77], [78]. Ngoài ra, việc sử dụng tập thô [79–82], tập mờ trực cảm [17], [39], [72], [83–90] hay tập mờ ảnh [74], [91], [92] cũng là những hướng nghiên cứu mới được đề xuất trong lĩnh vực dự báo FTS. Ở Việt Nam, việc nghiên cứu về dự báo FTS cũng đã được quan tâm. Có thể kể đến các công bố của các nhà nghiên cứu thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam [93–97] hay nghiên cứu của các tác giả tại Đại học Tôn Đức Thắng và Đại học Cần Thơ [98–101]. Ngoài ra, các tác giả trong nước cũng kết hợp với các tác giả nước ngoài để nghiên cứu đề xuất cải tiến cho mô hình dự báo [27], [102]. Nghiên cứu của các tác giả trong nước về bài toán dự báo đặc biệt là dự báo FTS còn ít và chưa nhiều công bố đáng chú ý. Các nghiên cứu [98–101] cải tiến phương pháp dự báo FTS và áp dụng vào một số bộ dữ liệu như sản lượng ngũ cốc, độ ngập mặn của đồng bằng sông Cửu Long. Các tác giả sử dụng các kỹ thuật tính toán tiến hóa sai phân, phân cụm để cải tiến các mô hình dự báo FTS. Gần đây, các nghiên cứu đáng chú ý trong [94– 96] sử dụng các mô hình dự báo FTS phụ thuộc thời gian (time-variant) và các cải tiến khi áp dụng các mô hình lai với các kỹ thuật tính toán tiên tiến như tối ưu bầy đàn (PSO), phân cụm. Các tác giả cũng đã thử nghiệm các mô hình dự báo FTS-FM bậc cao và cho các kết quả dự báo khá tốt trên cơ sở phương pháp tính toán mờ. Trong [93], các tác giả đã áp dụng những kết quả đạt được trong việc ứng dụng đại số gia tử (ĐSGT) vào lĩnh vực điều khiển học, từ đó đề xuất mô hình dự
  15. 4 báo FTS-FM bằng việc phân hoạch không gian bài toán thành các khoảng tương ứng với các khoảng tính mờ của từ ngôn ngữ. Các tác giả Hoàng Tùng, Vũ Minh Lộc trong các nghiên cứu [103–107] cũng đã ứng dụng lý thuyết ĐSGT vào bài toán dự báo FTS. Trong các nghiên cứu này, tác giả đã sử dụng lý thuyết ĐSGT để phân hoạch một cách hợp lý trên không gian nền nhằm nâng cao độ chính xác của kết quả dự báo. Tuy nhiên, các nghiên cứu này chưa thực hiện tính toán dự báo trực tiếp trên giá trị ngữ nghĩa định lượng của các giá trị ngôn ngữ và còn mang đậm triết lý phương pháp dự báo FTS khi còn dựa chủ yếu trên việc chia khoảng và thiết lập các tập mờ đại diện trên đó. Trong khoa học máy tính, việc xây dựng các thuật toán giúp máy tính tư duy giống con người, được gọi là trí tuệ nhân tạo (AI), là một lĩnh vực hấp dẫn các nhà nghiên cứu và mang lại nhiều ứng dụng thiết thực. Con người thường xuyên xử lý những từ ngôn ngữ để đem đến quyết định phù hợp với thực tế. Khi xét tới cấu trúc của thông tin, giữa các từ ngôn ngữ đều tồn tại quan hệ thứ tự vốn có dựa trên ngữ nghĩa của chúng. Chính những ngữ nghĩa này giúp con người tư duy, đưa ra các so sánh giúp họ ra quyết định trong công việc và sinh hoạt hàng ngày. Xuất phát từ những điều đó, N.C. Hồ và W. Wechler đã đề xuất khái niệm ĐSGT [108], [109]. Đây là một lý thuyết cho phép mô hình hóa bằng toán học các từ ngôn ngữ tự nhiên bên cạnh lý thuyết tập mờ. Trong mô hình ĐSGT, các từ ngôn ngữ đều có các đặc tính mờ và giá trị ngữ nghĩa có thể được lượng hóa được trong các mối quan hệ ngữ nghĩa trên một miền ngôn ngữ cụ thể. Và trong các ứng dụng thực tế, những tham số này có thể giúp thiết lập các mô hình tính toán trên ngôn ngữ một cách hiệu quả. ĐSGT đã được nghiên cứu ứng dụng thành công trong nhiều lĩnh vực như điều khiển học [110–124], phân lớp và hồi quy [125–128], tóm tắt ngôn ngữ [129], [130], xử lý ảnh [131], hỗ trợ ra quyết định [132], [133], mạng máy tính [134], [135], công nghệ rô-bốt [136–139] và nhiều lĩnh vực khác. Do đó, động lực nghiên cứu của luận án là nhằm đề xuất một hướng nghiên cứu mới đối với bài toán dự báo chuỗi thời gian bằng việc ứng dụng lý thuyết ĐSGT trong đó chú trọng tới các giá trị ngữ nghĩa định lượng của các từ ngôn ngữ. Điểm khác biệt của các mô hình dự báo chuỗi thời gian ngôn ngữ (LTS-FM)
  16. 5 được đề xuất trong luận án là phương pháp tính toán dự báo được thực hiện trực tiếp trên ngữ nghĩa định lượng của các từ ngôn ngữ được sử dụng trong mô hình. Tức là phương pháp đề xuất không thực hiện chia khoảng không gian nền, mà dựa trực tiếp trên các điểm ngữ nghĩa của các từ ngôn ngữ. Đây là điểm khác biệt so với các phương pháp dự báo FTS hay các phương pháp dự báo dựa trên lý thuyết ĐSGT khác đã được đề cập ở trên. Khi dữ liệu lịch sử có thể biểu diễn dưới dạng ngôn ngữ thì vấn đề ngữ nghĩa của chúng quyết định kết quả dự báo sẽ là một phương pháp tính toán một cách tự nhiên, mô phỏng sát với phương pháp tư duy ngôn ngữ của con người. Điều này mang tới nhiều thuận lợi trong việc xây dựng mô hình, giúp đơn giản hóa việc tính toán, nâng cao độ chính dự báo cũng như tạo điều kiện thuận lợi cho việc cải tiến mô hình. 2. Mục tiêu nghiên cứu Mục tiêu tổng quát: Xây dựng và đề xuất được các mô hình dự báo chuỗi thời gian ngôn ngữ trên cơ sở lý thuyết ĐSGT. Mục tiêu cụ thể: - Nghiên cứu, đề xuất mô hình dự báo chuỗi thời gian ngôn ngữ. - Đề xuất một số mở rộng cho mô hình dự báo chuỗi thời gian ngôn ngữ. 3. Đối tượng và phạm vi nghiên cứu - Đối tượng nghiên cứu: Các mô hình dự báo chuỗi thời gian ngôn ngữ. - Phạm vi nghiên cứu: Nghiên cứu đề xuất mô hình dự báo chuỗi thời gian ngôn ngữ và một số mở rộng cho mô hình dự báo chuỗi thời gian ngôn ngữ. 4. Phương pháp nghiên cứu - Nghiên cứu lý thuyết: Tổng hợp và nghiên cứu về các mô hình dự báo chuỗi thời gian, đặc biệt là FTS. Nghiên cứu cơ sở lý thuyết ĐSGT làm nền tảng, cơ sở toán học cho các phương pháp dự báo được đề xuất. - Nghiên cứu thực nghiệm: Các mô hình được xây dựng, thử nghiệm để so sánh, đánh giá với các mô hình dự báo khác trên các bộ dữ liệu được sử dụng phổ biến trong lĩnh vực dự báo chuỗi thời gian mờ nhằm chứng minh những điểm mới và tính hiệu quả của các mô hình đề xuất.
  17. 6 5. Điểm mới của luận án Luận án nghiên cứu ứng dụng lý thuyết ĐSGT vào bài toán dự báo chuỗi thời gian bằng cách đề xuất các mô hình dự báo chuỗi thời gian ngôn ngữ trong đó giá trị ngữ nghĩa định lượng của các giá trị ngôn ngữ được sử dụng trong mô hình với vai trò là thành tố chính trong mô hình tính toán. Nếu như phương pháp dự báo FTS thực hiện phân hoạch không gian nền thành các khoảng để từ đó xác định các tập mờ biểu diễn cho các giá trị ngôn ngữ thì phương pháp dự báo chuỗi thời gian ngôn ngữ thực hiện tính toán trực tiếp trên giá trị ngữ nghĩa định lượng của các từ ngôn ngữ mà không thực hiện việc chia khoảng không gian nền. Thực hiện các mục tiêu nghiên cứu đã đặt ra, luận án đóng góp các kết quả quan trọng sau: 1) Đề xuất khái niệm chuỗi thời gian ngôn ngữ (LTS) cùng với định nghĩa về quan hệ lô-gic ngôn ngữ (LLR) và nhóm quan hệ lô-gic ngôn ngữ (LLRG). 2) Đề xuất mô hình dự báo mô hình dự báo chuỗi thời gian ngôn ngữ (LTS- FM), trong đó ngữ nghĩa định lượng của các từ ngôn ngữ được sử dụng làm công cụ tính toán chính của mô hình trên cơ sở thiết lập các luật dự báo LLR và các nhóm quan hệ LLRG của chúng. 3) Đề xuất nghiên cứu mở rộng mô hình dự báo chuỗi thời gian ngôn ngữ bằng việc đề xuất mô hình WLTS-FM trong đó các luật dự báo có trọng số và việc mở rộng không gian ngôn ngữ của mô hình dự báo; đề xuất các mô hình dự báo tối ưu LTS-PSO, LTS-PSCO và mô hình dự báo chuỗi thời gian ngôn ngữ bậc cao HO-LTS. Đây là lần đầu tiên, khái niệm LTS được đề cập một cách có hệ thống dựa trên ngữ nghĩa ngôn ngữ được dùng để biểu diễn các giá trị khác nhau của dữ liệu quan sát lịch sử. Luận án đóng góp một cách tiếp cận mới trong việc nghiên cứu bài toán dự báo chuỗi thời gian và cũng gợi mở các nghiên cứu mở rộng mô hình dự báo chuỗi thời gian ngôn ngữ. Luận án cũng góp phần khẳng định tính đúng đắn, ưu việt của ĐSGT đồng thời góp phần mở rộng khả năng ứng dụng của lý thuyết ĐSGT.
  18. 7 7. Bố cục của luận án Luận án được bố cục bao gồm các phần: phần mở đầu, ba chương nội dung chính của luận án, phần kết luận và danh mục tài liệu tham khảo. Nội dung của các chương cụ thể như sau: Chương 1 tóm tắt các khái niệm cơ bản về chuỗi thời gian, chuỗi thời gian mờ (FTS) và các mô hình dự báo FTS-FM. Chương tập trung trình bày các phương pháp dự báo chuỗi thời gian mờ, các xu hướng nghiên cứu, các kết quả chính trong bài toán dự báo FTS. Chương này cũng sẽ trình bày lý thuyết ĐSGT trên cơ sở xem xét mối quan hệ giữa thông tin và cấu trúc của thông tin, từ đó khám phá mô hình toán học ẩn chứa trong cấu trúc của thông tin. Theo đó, chính cấu trúc thông tin trong miền ngôn ngữ sinh ra ngữ nghĩa, và ngữ nghĩa này được sử dụng trong mô hình dự báo LTS-FM. Chương 2 đề xuất mô hình dự báo LTS-FM, trong đó các khái niệm về chuỗi thời gian ngôn ngữ (LTS), quan hệ lô-gic ngôn ngữ (LLR), nhóm quan hệ lô-gic ngôn ngữ (LLRG) sẽ được đề xuất. Các thực nghiệm trên dữ liệu số sinh viên nhập học của Đại học Alabama (EUA) cùng hai phương pháp dự báo cũng sẽ được tiến hành nhằm chỉ ra những khác biệt và ưu điểm của mô hình đề xuất. Chương 3 sẽ đề xuất một số nghiên cứu mở rộng về mô hình dự báo đối với chuỗi thời gian ngôn ngữ. Trong chương này, mô hình dự báo với luật ngôn ngữ có trọng số, việc mở rộng không gian ngôn ngữ, tối ưu các tham số, tối ưu việc chọn các từ ngôn ngữ sẽ được trình bày. Bên cạnh đó, chương này cũng đề xuất mô hình dự báo LTS bậc cao và gợi ý các hướng nghiên cứu cải tiến, mở rộng mô hình dự báo.
  19. 8 CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ 1.1. Dự báo chuỗi thời gian mờ 1.1.1. Khái niệm về chuỗi thời gian Chuỗi thời gian là một dãy các giá trị quan sát 9 được sắp xếp theo thứ tự thời gian của một biến quan sát được biểu diễn như sau: 9 = {#' , #) , … , #* } trong đó, #$ là giá trị quan sát tại thời điểm + với + = 1 … -. Thông thường, chuỗi thời gian là tập hợp các dữ liệu được thu thập theo các khoảng thời gian liên tiếp, cách đều nhau. Khi đó, dữ liệu này có thể được coi là dữ liệu chuỗi thời gian rời rạc. Trong cuộc sống hàng ngày, nhiều dữ liệu chuỗi thời gian có thể được bắt gặp như: nhiệt độ trung bình của một địa điểm cụ thể theo ngày, chỉ số chứng khoán theo các phiên làm việc, giá vàng, tỉ giá ngoại tệ cuối ngày,... Hình 1.1. Dữ liệu chỉ số chứng khoán NASDAQ 6 tháng đầu năm 2021. (Nguồn: https://finance.yahoo.com, truy cập 29/7/2021) Phân tích chuỗi thời gian là một khái niệm bao gồm nhiều phương pháp khác nhau nhằm phân tích, trích xuất các thông tin có ý nghĩa từ dữ liệu chuỗi thời gian đã thu thập được. Trong đó, dự báo chuỗi thời gian là một phương pháp tính toán
  20. 9 nhằm dự báo giá trị tương lai của biến quan sát dựa trên các giá trị lịch sử đã ghi nhận được tại các thời điểm trước đó. Nói chung, bài toán dự báo là một bài toán xử lý dữ liệu không chắc chắn và kết quả dự báo có tính chất bất định cao. Có thể nói không nghiên cứu nào có thể đề xuất mô hình dự báo đảm bảo sự chính xác tuyệt đối. Vì tính chất đó của bài toán dự báo, việc sử dụng các phương pháp tính toán đối với dữ liệu không chắc chắn trong những năm trở lại đây được nghiên cứu khá nhiều. Trong đó, các mô hình dự báo FTS-FM được trình bày dưới đây là một trong những hướng nghiên cứu như vậy. 1.1.2. Mô hình dự báo FTS-FM 1.1.2.1. Tập mờ và khả năng mô hình toán học miền ngôn ngữ Khái niệm về tập mờ được Zadeh đề xuất trong [140], trên cơ sở phân biệt với khái niệm tập hợp của lý thuyết tập hợp kinh điển. Lý thuyết tập mờ biểu diễn các khái niệm mang tính trừu tượng của thông tin nhứ ‘trẻ’, ‘già’, ‘nhiều’, ‘ít’… bằng các cấu trúc toán học. Gọi ? là không gian nền (hay còn gọi là tập nền) của bài toán đang xét, mà trên đó xác định một tập hợp các đối tượng. Cho 9 là một tập rõ thuộc ?, khi đó xác định một hàm thuộc ! như sau: 1, -ếB # ∈ 9 !! ( # ) = @ 0, -ếB # ∉ 9 Tuy nhiên, trên thực tế không phải lúc nào cũng có thể xác định được quan hệ thuộc này một cách chính xác tuyệt đối. Ví dụ, nếu phân loại người thành ‘già’ và ‘trẻ’ dựa theo tuổi của họ thì khó có thể nói chính xác một người 45 tuổi là ‘già’ hay ‘trẻ’. Suy luận của con người thường mang tính ước lượng nhiều hơn so với tính chất rõ ràng tuyệt đối như đa số lý thuyết số học truyền thống. Trong lý thuyết tập mờ, mối quan hệ giữa các phần tử và tập mờ là một hàm số. Hàm số đó được gọi là hàm thuộc (membership function) chỉ ra mức độ thuộc tập mờ của các phần tử.
nguon tai.lieu . vn