Xem mẫu
- BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
NGUYỄN DUY HIẾU
MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGÔN NGỮ
DỰA TRÊN ĐẠI SỐ GIA TỬ
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
HÀ NỘI – 2022
- BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------
Nguyễn Duy Hiếu
MÔ HÌNH DỰ BÁO CHUỖI THỜI GIAN NGÔN NGỮ
DỰA TRÊN ĐẠI SỐ GIA TỬ
Chuyên ngành: Hệ thống thông tin
Mã số: 9 48 01 04
LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS. TSKH. Nguyễn Cát Hồ
2. TS. Vũ Như Lân
Hà Nội – Năm 2022
- LỜI CAM ĐOAN
Tác giả luận án cam đoan các kết quả nghiên cứu là của riêng tác giả ngoại
trừ các nghiên cứu đã được trích dẫn trong luận án. Các kết quả được viết chung
với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi được đưa vào
luận án. Các kết quả trình bày trong luận án là trung thực và chưa từng được công
bố trong bất kỳ công trình nào khác.
Tác giả
Nguyễn Duy Hiếu
- LỜI CẢM ƠN
Trong quá trình thực hiện nghiên cứu, tác giả đã nhận được sự chỉ bảo tận
tình, chu đáo của PGS. TSKH. Nguyễn Cát Hồ và TS. Vũ Như Lân. Lời đầu tiên,
tác giả xin bày tỏ lòng kính trọng và biết ơn sâu sắc nhất tới hai thầy.
Tác giả trân trọng cảm ơn Ban Lãnh đạo: Viện Công nghệ thông tin, Khoa
Công nghệ thông tin và Truyền thông - Học viện Khoa học và Công nghệ, Viện
Hàn lâm Khoa học và Công nghệ Việt Nam đã giúp đỡ, tạo điều kiện thuận lợi
cho tác giả trong quá trình học tập, nghiên cứu và hoàn thiện luận án.
Tác giả cũng xin trân trọng cảm ơn lãnh đạo Trường Đại học Tây Bắc, Ban
Chủ nhiệm Khoa Khoa học Tự nhiên - Công nghệ, lãnh đạo Phòng Tổ chức -
Hành chính, Phòng Bảo đảm chất lượng và Thanh tra Pháp chế đã quan tâm, tạo
điều kiện tốt nhất trong công việc để tác giả có thời gian tập trung nghiên cứu.
Tác giả xin gửi lời cảm ơn chân thành tới các đồng nghiệp thuộc Khoa Khoa
học Tự nhiên - Công nghệ, Trường Đại học Tây Bắc, các anh chị trong Nhóm
nghiên cứu Đại số gia tử đã động viên, khích lệ, trao đổi những kiến thức và kinh
nghiệm nghiên cứu.
Cuối cùng, tác giả xin gửi lời cảm ơn chân thành tới bố mẹ hai bên, anh chị
em, người thân, bạn bè đặc biệt là vợ và các con đã luôn dành cho tác giả những
tình cảm, chia sẻ những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tác
giả trong quá trình nghiên cứu. Luận án này cũng là món quà mang ý nghĩa tinh
thần mà tác giả trân trọng gửi đến các thành viên trong gia đình.
- MỤC LỤC
LỜI CAM ĐOAN ................................................................................................ iii
LỜI CẢM ƠN ...................................................................................................... iv
MỤC LỤC ............................................................................................................ v
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ......................................... vii
DANH MỤC CÁC BẢNG BIỂU ........................................................................ ix
DANH MỤC CÁC HÌNH ẢNH, HÌNH VẼ, ĐỒ THỊ ........................................ xi
MỞ ĐẦU .............................................................................................................. 1
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ ...................................................... 8
1.1. Dự báo chuỗi thời gian mờ ........................................................................ 8
1.1.1. Khái niệm về chuỗi thời gian .............................................................. 8
1.1.2. Mô hình dự báo FTS-FM .................................................................... 9
1.2. Thông tin và cấu trúc toán học của miền ngôn ngữ tự nhiên ................... 21
1.2.1. Cấu trúc đại số trong miền ngôn ngữ tự nhiên ................................. 23
1.2.2. Lượng hóa cấu trúc ngữ nghĩa của ngôn ngữ bằng phương pháp tiên
đề................................................................................................................. 29
1.2.3. Một số ứng dụng của ĐSGT ............................................................. 34
CHƯƠNG 2. CHUỖI THỜI GIAN NGÔN NGỮ VÀ MÔ HÌNH DỰ BÁO .... 37
2.1. Mô hình dự báo chuỗi thời gian mờ dựa trên ngữ nghĩa ngôn ngữ ......... 38
2.2. Mô hình dự báo chuỗi thời gian ngôn ngữ (LTS-FM) ............................. 45
2.2.1. Chuỗi thời gian ngôn ngữ (LTS) ...................................................... 46
2.2.2. Quan hệ lô-gic ngôn ngữ và nhóm quan hệ lô-gic ngôn ngữ ........... 47
2.2.3. Mô hình dự báo LTS-FM.................................................................. 48
2.2.4. Một số kết quả thử nghiệm và thảo luận ........................................... 52
- CHƯƠNG 3. MỘT SỐ NGHIÊN CỨU MỞ RỘNG MÔ HÌNH DỰ BÁO CHUỖI
THỜI GIAN NGÔN NGỮ ................................................................................. 66
3.1. Trọng số của quan hệ lô-gic ngôn ngữ .................................................... 67
3.2. Mở rộng không gian trong mô hình dự báo chuỗi thời gian ngôn ngữ .... 70
3.3. Tính toán tối ưu trong mô hình dự báo LTS-FM ..................................... 75
3.3.1. Tối ưu tham số của mô hình dự báo LTS-FM .................................. 75
3.3.2. Tối ưu tham số kết hợp tối ưu việc lựa chọn các hạng từ trong mô hình
dự báo chuỗi thời gian ngôn ngữ ................................................................ 80
3.4. Mô hình dự báo chuỗi thời gian ngôn ngữ bậc cao ................................. 87
3.4.1. Quan hệ lô-gic ngôn ngữ bậc cao ..................................................... 87
3.4.2. Mô hình dự báo HO-LTS.................................................................. 88
3.4.3. Một số kết quả và thảo luận .............................................................. 89
KẾT LUẬN CỦA LUẬN ÁN .......................................................................... 100
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN
LUẬN ÁN ........................................................................................................ 102
TÀI LIỆU THAM KHẢO ................................................................................ 103
- DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Các ký hiệu:
!! (# ) Hàm thuộc của phần tử # vào tập mờ %
&'(() ) Miền ngôn ngữ của biến ngôn ngữ )
*+,-(#) Hàm dấu của từ ngôn ngữ #
.(# ) Độ đo tính mờ của từ ngôn ngữ #
ℑ" ( # ) Khoảng tính mờ của từ ngôn ngữ #
0(# ) Chiều dài của từ ngôn ngữ #
! (ℎ ) Độ đo tính mờ của gia tử ℎ
2 (# ) Giá trị ngữ nghĩa định lượng của từ ngôn ngữ #
3 3 = .(5 # ), độ đo tính mờ của phần tử sinh âm 5 #
6 6 = ∑#%&$&#' !(ℎ$ ), tổng độ đo tính mờ của các gia tử âm
8 8 = ∑'&$&( ! (ℎ$ ), tổng độ đo tính mờ của các gia tử dương
Các chữ viết tắt:
FTS Fuzzy Time Series (chuỗi thời gian mờ)
Fuzzy Time Series Forecasting Model (mô hình dự báo
FTS-FM
chuỗi thời gian mờ)
Artificial Intelligence (trí thông minh nhân tạo, trí tuệ
AI
nhân tạo)
FLR Fuzzy Logic Relationship (quan hệ lô-gic mờ)
Fuzzy Logic Relationship Group (nhóm quan hệ lô-gic
FLRG
mờ)
Enrollment of University of Alabama (bộ dữ liệu số sinh
EUA
viên nhập học Đại học Alabama từ 1971 đến 1992)
Mean Squared Error (giá trị sai số trung bình bình
MSE
phương)
Root Mean Squared Error (giá trị khai căn của sai số trung
RMSE
bình bình phương)
Mean Absolute Percentage Error (giá trị sai số trung bình
MAPE
phần trăm tuyệt đối)
ĐSGT Đại số gia tử
HA Hedge Algebras (đại số gia tử)
- Semantically Quantifying Mapping (ánh xạ ngữ nghĩa
SQM
định lượng)
LST Linguistic Time Series (chuỗi thời gian ngôn ngữ)
Linguistic Time Series Forecasting Model (mô hình dự
LTS-FM
báo chuỗi thời gian ngôn ngữ)
WLTS- Weighted Linguistic Time Series Forecasting Model (mô
FM hình dự báo chuỗi thời gian ngôn ngữ có trọng số)
LLR Linguistic Logical Relationship (quan hệ lô-gic ngôn ngữ)
Linguistic Logical Relationship Group (nhóm quan hệ lô-
LLRG
gic ngôn ngữ)
PSO Particle Swarm Optimization (giải thuật tối ưu bầy đàn)
Linguistic Time Series Particle Swarm Optimization (giải
LTSPSO thuật tối ưu tham số sử dụng giải thuật bầy đàn của mô
hình dự báo chuỗi thời gian ngôn ngữ)
Linguistic Time Series Particle Swarm Co-Optimization
(giải thuật đồng tối ưu, kết hợp tối ưu tham số và bộ từ sử
LTSPSCO
dụng giải thuật bầy đàn của mô hình dự báo chuỗi thời
gian ngôn ngữ)
High-Order Linguistic Time Series (chuỗi thời gian ngôn
HO-LTS
ngữ bậc cao)
- DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1. Các tiêu chuẩn đánh giá độ chính xác dự báo .................................... 20
Bảng 1.2. Quan hệ dấu giữa gia tử trên các hàng đối với gia tử trên các cột ..... 28
Bảng 2.1. Bảng số liệu sinh viên nhập học EUA ............................................... 40
Bảng 2.2. Các khoảng giải nghĩa cho dữ liệu EUA theo các năm dự báo ......... 43
Bảng 2.3. Bảng tổng hợp thông tin làm cơ sở cho tính toán dự báo .................. 44
Bảng 2.4. Số liệu sinh viên nhập học EUA và chuỗi thời gian ngôn ngữ tương
ứng ...................................................................................................................... 54
Bảng 2.5. Các nhóm quan hệ lô-gic ngôn ngữ của chuỗi thời gian tuyển sinh .. 55
Bảng 2.6. So sánh kết quả dự báo tuyển sinh Alabama ..................................... 56
Bảng 2.7. Độ biến thiên của dữ liệu EUA .......................................................... 58
Bảng 2.8. Các LLRG của chuỗi thời gian độ biến thiên tuyển sinh ................... 59
Bảng 2.9. Kết quả dự báo EUA dựa trên số liệu biến thiên. .............................. 60
Bảng 2.10. Các nhóm quan hệ LLRG của chuỗi thời gian nhiệt độ. ................. 62
Bảng 2.11. Kết quả dự báo nhiệt độ bằng mô hình FTS-FM ............................. 63
Bảng 3.1. Giá trị 7 điểm ngữ nghĩa thực trên không gian nền ........................... 68
Bảng 3.2. Chuỗi thời gian ngôn ngữ EUA và nhóm quan hệ LLRG có trọng số
............................................................................................................................ 68
Bảng 3.3. Kết quả dự báo của các mô hình ........................................................ 69
Bảng 3.4. Chuỗi thời gian ngôn ngữ trong mô hình 9, 17, 33 và 65 hạng từ ..... 72
Bảng 3.5. Các nhóm quan hệ lô-gic ngôn ngữ với bộ 9 và 17 từ ....................... 73
Bảng 3.6. Các nhóm quan hệ lô-gic ngôn ngữ với bộ 33 và 65 từ ..................... 73
Bảng 3.7. Kết quả dự báo với bộ 9, 17, 33 và 65 hạng từ .................................. 74
Bảng 3.8. Chuỗi thời gian ngôn ngữ của dữ liệu EUA sử dụng 9 hạng từ......... 91
Bảng 3.9. Nhóm quan hệ lô-gic ngôn ngữ bậc hai sử dụng 9 hạng từ ............... 92
Bảng 3.10. Nhóm quan hệ lô-gic ngôn ngữ bậc ba sử dụng 9 hạng từ .............. 92
Bảng 3.11. So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO-
LTS với bộ 9 từ được chọn ................................................................................. 94
- Bảng 3.12. So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO-
LTS với bộ 17 từ được chọn ............................................................................... 94
Bảng 3.13. So sánh MSE kết quả dự báo số liệu EUA ...................................... 94
Bảng 3.14. So sánh MAPE kết quả dự báo số liệu EUA .................................. 95
Bảng 3.15. Giá trị tham số tính mờ tương ứng với các bộ từ ............................. 95
Bảng 3.16. So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO-
LTS với bộ 33 từ được chọn ............................................................................... 96
Bảng 3.17. So sánh sai số kết quả dự báo số liệu EUA của mô hình dự báo HO-
LTS với bộ 65 từ được chọn ............................................................................... 96
Bảng 3.18. Chuỗi thời gian ngôn ngữ năng suất nông sản Lahi ........................ 97
Bảng 3.19. So sánh sai số dự báo nông sản Lahi của các mô hình dự báo ........ 97
- DANH MỤC CÁC HÌNH ẢNH, HÌNH VẼ, ĐỒ THỊ
Hình 1.1. Dữ liệu chỉ số chứng khoán NASDAQ 6 tháng đầu năm 2021. .......... 8
Hình 1.2. Lưu đồ thuật toán giải thuật PSO ....................................................... 18
Hình 1.3. Khoảng tính mờ của các từ ngôn ngữ của biến ENROLLMENT ...... 31
Hình 2.1. Kết quả dự báo dữ liệu sinh viên nhập học EUA bằng mô hình dự báo
mờ dựa trên ngữ nghĩa ........................................................................................ 45
Hình 2.2. Mô hình dự báo chuỗi thời gian ngôn ngữ ......................................... 49
Hình 2.3. Đồ thị so sánh kết quả dự báo giữa các phương pháp ........................ 57
Hình 2.4. So sánh độ chính xác dự báo bằng MSE giữa các phương pháp ....... 57
Hình 2.5. So sánh độ chính xác dự báo bằng MAPE giữa các phương pháp .... 61
Hình 2.6. So sánh sai số MAPE của các phương pháp dự báo .......................... 64
Hình 3.1. Đường ngữ nghĩa biểu diễn chuỗi thời gian ngôn ngữ được xây dựng
bởi 9, 17, 33 và 65 từ ngôn ngữ trên bộ dữ liệu EUA ........................................ 71
Hình 3.2. So sánh sai số MSE của kết quả dự báo dữ liệu EUA ....................... 79
Hình 3.3. So sánh sai số MSE của dự báo với bộ 17, 33 và 65 từ sử dụng LTSPSO
............................................................................................................................ 79
Hình 3.4. Biểu đồ so sánh MSE đối với lựa chọn tối ưu 14 từ trong các bộ từ có
độ dài khác nhau ................................................................................................. 86
Hình 3.5. Biểu đồ so sánh MSE đối với lựa chọn tối ưu 16 từ trong các bộ từ có
độ dài khác nhau ................................................................................................. 87
Hình 3.6. Mô hình dự báo HO-LTS ................................................................... 89
- 1
MỞ ĐẦU
1. Tính cấp thiết
Trong suốt quá trình hình thành, phát triển của loài người, dự báo trước được
các sự việc có thể xảy ra trong tương lai luôn là vấn đề nhận được nhiều sự chú ý,
quan tâm của nhân loại. Dự báo tốt giúp con người chuẩn bị và lập kế hoạch tốt
hơn các công việc của mình, để từ đó giảm bớt công sức, thời gian và nâng cao
hiệu quả trong công việc hàng ngày.
Dự báo chuỗi thời gian bao gồm các kỹ thuật tính toán dự báo dựa trên phân
tích dữ liệu lịch sử được thu thập, quan sát được theo trình tự thời gian. Trong vài
chục năm trở lại đây, nhiều nghiên cứu trong nước cũng như ngoài nước được đề
xuất để giải quyết vấn đề dự báo nói chung và dự báo đối với dữ liệu chuỗi thời
gian nói riêng. Những nghiên cứu thường hướng tới việc nâng cao độ chính xác
của mô hình dự báo và giảm độ phức tạp của phương pháp tính toán dự báo.
Bài toán dự báo là bài toán xử lý dữ liệu có tính chất không chắc chắn. Kết
quả dự báo thường có độ chắc chắn không cao và không thể xây dựng được một
mô hình dự báo toàn năng đối với mọi loại dữ liệu. Do đó, người ta nghiên cứu
phát triển các loại mô hình dự báo khác nhau và tiến hành thực nghiệm để tìm ra
những loại mô hình phù hợp nhất trong từng trường hợp cụ thể. Thêm vào đó,
nhiều dữ liệu thu thập được cũng có độ chắc chắn không cao như có hiện tượng
thiếu hụt dữ liệu, biên độ dao động lớn, dữ liệu lịch sử ngắn hay các dữ liệu thu
thập không rõ ràng về số liệu mà chỉ biểu diễn dạng ngôn ngữ… Những điều này
gây nhiều khó khăn đối với các kỹ thuật dự báo chuỗi thời gian bằng phương pháp
hồi quy, thống kê toán học truyền thống vốn đã được quan tâm nghiên cứu trong
lĩnh vực kinh tế. Những phương pháp tính toán dự báo theo thống kê, hồi quy
cũng chỉ tỏ ra hữu hiệu, chính xác cao khi số lượng quan sát lớn, chuỗi thời gian
là chuỗi dừng, không có nhiễu và ít biến động trong thời gian ngắn.
Năm 1993, Song & Chissom lần đầu tiên giới thiệu mô hình dự báo chuỗi
thời gian mờ (FTS-FM) [1–3]. Đây là mô hình đặc biệt hữu dụng khi dữ liệu quan
sát lịch sử có độ chắc chắn thấp hay biên độ dao động lớn như đã đề cập ở bên
- 2
trên. Hơn nữa, mô hình dự báo FTS-FM còn có khả năng dự báo trên dữ liệu chuỗi
thời gian dưới dạng ngôn ngữ. Năm 1996, Chen giới thiệu mô hình dự báo FTS-
FM cải tiến [4] với phương pháp tính toán số học hiệu quả hơn so với các mô hình
đề xuất ban đầu. Đó là các nghiên cứu cơ bản, đặt nền móng cho những nghiên
cứu sau này về FTS với nhiều mô hình được đề xuất. Đã có nhiều nghiên cứu về
chuỗi thời gian mờ được công bố trên các tạp chí khoa học và hội nghị chuyên
ngành uy tín trong khoảng ba mươi năm trở lại đây. Trong nghiên cứu [5], Bose
và Mali đã nghiên cứu và bình phẩm gần 200 bài báo công bố trên các tạp chí
khoa học và hội nghị chuyên ngành uy tín về phương pháp dự báo FTS từ năm
1993 đến 2018. Đây chỉ là một con số nhỏ so với lượng công bố khoa học khá lớn
về lĩnh vực này.
Có hai loại mô hình dự báo FTS-FM là mô hình phụ thuộc thời gian (time-
variant) và mô hình không phụ thuộc thời gian (time-invariant). Có khá nhiều
nghiên cứu về mô hình không phụ thuộc thời gian nhưng nghiên cứu về mô hình
phụ thuộc thời gian không đáng kể [3], [6–9]. Mô hình dự báo FTS-FM cũng được
chia thành hai nhóm là mô hình dự báo bậc nhất và mô hình dự báo bậc cao. Nếu
quan hệ lô-gic mờ có một thành phần ở vế trái thì đó là mô hình bậc nhất [4],
ngược lại đó là mô hình bậc cao khi dữ liệu dự báo liên quan tới nhiều dữ liệu quá
khứ [10–24]. Chuỗi thời gian có thể là đơn nhân tố hoặc đa nhân tố [15], [25–36],
tùy thuộc vào số lượng các quan sát sử dụng trong mô hình tính toán. Thông
thường, các quan hệ lô-gic mờ được thiết lập và bổ sung vào các nhóm mà không
quan tâm tới việc lặp lại. Tức là, các phương pháp dự báo thường chỉ thêm các
quan hệ chưa có vào nhóm quan hệ lô-gic mờ. Tuy nhiên, cũng có những nghiên
cứu quan tâm tới việc lặp lại của các quan hệ bằng cách gán trọng số cho việc lặp
lại của các quan hệ này [37–45].
Việc xác định không gian nền cho mô hình dự báo FTS-FM có thể dựa trực
tiếp trên dữ liệu quan sát lịch sử hoặc lấy sai phân của dữ liệu [9], [22]. Trong đó,
các nghiên cứu dùng các tập mờ đại diện cho các từ ngôn ngữ, được sắp xếp trong
một phân hoạch mờ trên không gian nền. Việc phân hoạch tập nền có hai cách là
chia thành các đoạn bằng nhau và không bằng nhau, trong đó Huarng [46], [47]
- 3
đã đề xuất mô hình heuristic cho FTS và thảo luận về việc lựa chọn khoảng chia
tốt nhất trên không gian nền. Việc phân hoạch cũng có thể được thực hiện bằng
mô hình toán học hoặc bằng các kỹ thuật tính toán mềm. Trong hơn mười năm
trở lại đây, nhiều mô hình lai giữa FTS và các kỹ thuật tính toán hiện đại được đề
xuất, như việc dùng các kỹ thuật tính toán tối ưu [12], [27], [30], [33], [48–54],
phân cụm [25], [55–65] hay mô hình mạng nơ-ron nhân tạo [11], [20], [51], [66–
76].
Việc mờ hóa dữ liệu thường dùng số mờ tam giác, nhưng cũng có một số
nghiên cứu dùng số mờ hình thang [37], [43], [77], [78]. Ngoài ra, việc sử dụng
tập thô [79–82], tập mờ trực cảm [17], [39], [72], [83–90] hay tập mờ ảnh [74],
[91], [92] cũng là những hướng nghiên cứu mới được đề xuất trong lĩnh vực dự
báo FTS.
Ở Việt Nam, việc nghiên cứu về dự báo FTS cũng đã được quan tâm. Có thể
kể đến các công bố của các nhà nghiên cứu thuộc Viện Hàn lâm Khoa học và
Công nghệ Việt Nam [93–97] hay nghiên cứu của các tác giả tại Đại học Tôn Đức
Thắng và Đại học Cần Thơ [98–101]. Ngoài ra, các tác giả trong nước cũng kết
hợp với các tác giả nước ngoài để nghiên cứu đề xuất cải tiến cho mô hình dự báo
[27], [102]. Nghiên cứu của các tác giả trong nước về bài toán dự báo đặc biệt là
dự báo FTS còn ít và chưa nhiều công bố đáng chú ý.
Các nghiên cứu [98–101] cải tiến phương pháp dự báo FTS và áp dụng vào
một số bộ dữ liệu như sản lượng ngũ cốc, độ ngập mặn của đồng bằng sông Cửu
Long. Các tác giả sử dụng các kỹ thuật tính toán tiến hóa sai phân, phân cụm để
cải tiến các mô hình dự báo FTS. Gần đây, các nghiên cứu đáng chú ý trong [94–
96] sử dụng các mô hình dự báo FTS phụ thuộc thời gian (time-variant) và các
cải tiến khi áp dụng các mô hình lai với các kỹ thuật tính toán tiên tiến như tối ưu
bầy đàn (PSO), phân cụm. Các tác giả cũng đã thử nghiệm các mô hình dự báo
FTS-FM bậc cao và cho các kết quả dự báo khá tốt trên cơ sở phương pháp tính
toán mờ.
Trong [93], các tác giả đã áp dụng những kết quả đạt được trong việc ứng
dụng đại số gia tử (ĐSGT) vào lĩnh vực điều khiển học, từ đó đề xuất mô hình dự
- 4
báo FTS-FM bằng việc phân hoạch không gian bài toán thành các khoảng tương
ứng với các khoảng tính mờ của từ ngôn ngữ. Các tác giả Hoàng Tùng, Vũ Minh
Lộc trong các nghiên cứu [103–107] cũng đã ứng dụng lý thuyết ĐSGT vào bài
toán dự báo FTS. Trong các nghiên cứu này, tác giả đã sử dụng lý thuyết ĐSGT
để phân hoạch một cách hợp lý trên không gian nền nhằm nâng cao độ chính xác
của kết quả dự báo. Tuy nhiên, các nghiên cứu này chưa thực hiện tính toán dự
báo trực tiếp trên giá trị ngữ nghĩa định lượng của các giá trị ngôn ngữ và còn
mang đậm triết lý phương pháp dự báo FTS khi còn dựa chủ yếu trên việc chia
khoảng và thiết lập các tập mờ đại diện trên đó.
Trong khoa học máy tính, việc xây dựng các thuật toán giúp máy tính tư duy
giống con người, được gọi là trí tuệ nhân tạo (AI), là một lĩnh vực hấp dẫn các
nhà nghiên cứu và mang lại nhiều ứng dụng thiết thực. Con người thường xuyên
xử lý những từ ngôn ngữ để đem đến quyết định phù hợp với thực tế. Khi xét tới
cấu trúc của thông tin, giữa các từ ngôn ngữ đều tồn tại quan hệ thứ tự vốn có dựa
trên ngữ nghĩa của chúng. Chính những ngữ nghĩa này giúp con người tư duy, đưa
ra các so sánh giúp họ ra quyết định trong công việc và sinh hoạt hàng ngày. Xuất
phát từ những điều đó, N.C. Hồ và W. Wechler đã đề xuất khái niệm ĐSGT [108],
[109]. Đây là một lý thuyết cho phép mô hình hóa bằng toán học các từ ngôn ngữ
tự nhiên bên cạnh lý thuyết tập mờ. Trong mô hình ĐSGT, các từ ngôn ngữ đều
có các đặc tính mờ và giá trị ngữ nghĩa có thể được lượng hóa được trong các mối
quan hệ ngữ nghĩa trên một miền ngôn ngữ cụ thể. Và trong các ứng dụng thực
tế, những tham số này có thể giúp thiết lập các mô hình tính toán trên ngôn ngữ
một cách hiệu quả. ĐSGT đã được nghiên cứu ứng dụng thành công trong nhiều
lĩnh vực như điều khiển học [110–124], phân lớp và hồi quy [125–128], tóm tắt
ngôn ngữ [129], [130], xử lý ảnh [131], hỗ trợ ra quyết định [132], [133], mạng
máy tính [134], [135], công nghệ rô-bốt [136–139] và nhiều lĩnh vực khác.
Do đó, động lực nghiên cứu của luận án là nhằm đề xuất một hướng nghiên
cứu mới đối với bài toán dự báo chuỗi thời gian bằng việc ứng dụng lý thuyết
ĐSGT trong đó chú trọng tới các giá trị ngữ nghĩa định lượng của các từ ngôn
ngữ. Điểm khác biệt của các mô hình dự báo chuỗi thời gian ngôn ngữ (LTS-FM)
- 5
được đề xuất trong luận án là phương pháp tính toán dự báo được thực hiện trực
tiếp trên ngữ nghĩa định lượng của các từ ngôn ngữ được sử dụng trong mô hình.
Tức là phương pháp đề xuất không thực hiện chia khoảng không gian nền, mà dựa
trực tiếp trên các điểm ngữ nghĩa của các từ ngôn ngữ. Đây là điểm khác biệt so
với các phương pháp dự báo FTS hay các phương pháp dự báo dựa trên lý thuyết
ĐSGT khác đã được đề cập ở trên. Khi dữ liệu lịch sử có thể biểu diễn dưới dạng
ngôn ngữ thì vấn đề ngữ nghĩa của chúng quyết định kết quả dự báo sẽ là một
phương pháp tính toán một cách tự nhiên, mô phỏng sát với phương pháp tư duy
ngôn ngữ của con người. Điều này mang tới nhiều thuận lợi trong việc xây dựng
mô hình, giúp đơn giản hóa việc tính toán, nâng cao độ chính dự báo cũng như
tạo điều kiện thuận lợi cho việc cải tiến mô hình.
2. Mục tiêu nghiên cứu
Mục tiêu tổng quát: Xây dựng và đề xuất được các mô hình dự báo chuỗi
thời gian ngôn ngữ trên cơ sở lý thuyết ĐSGT.
Mục tiêu cụ thể:
- Nghiên cứu, đề xuất mô hình dự báo chuỗi thời gian ngôn ngữ.
- Đề xuất một số mở rộng cho mô hình dự báo chuỗi thời gian ngôn ngữ.
3. Đối tượng và phạm vi nghiên cứu
- Đối tượng nghiên cứu: Các mô hình dự báo chuỗi thời gian ngôn ngữ.
- Phạm vi nghiên cứu: Nghiên cứu đề xuất mô hình dự báo chuỗi thời gian
ngôn ngữ và một số mở rộng cho mô hình dự báo chuỗi thời gian ngôn ngữ.
4. Phương pháp nghiên cứu
- Nghiên cứu lý thuyết: Tổng hợp và nghiên cứu về các mô hình dự báo chuỗi
thời gian, đặc biệt là FTS. Nghiên cứu cơ sở lý thuyết ĐSGT làm nền tảng, cơ sở
toán học cho các phương pháp dự báo được đề xuất.
- Nghiên cứu thực nghiệm: Các mô hình được xây dựng, thử nghiệm để so
sánh, đánh giá với các mô hình dự báo khác trên các bộ dữ liệu được sử dụng phổ
biến trong lĩnh vực dự báo chuỗi thời gian mờ nhằm chứng minh những điểm mới
và tính hiệu quả của các mô hình đề xuất.
- 6
5. Điểm mới của luận án
Luận án nghiên cứu ứng dụng lý thuyết ĐSGT vào bài toán dự báo chuỗi
thời gian bằng cách đề xuất các mô hình dự báo chuỗi thời gian ngôn ngữ trong
đó giá trị ngữ nghĩa định lượng của các giá trị ngôn ngữ được sử dụng trong mô
hình với vai trò là thành tố chính trong mô hình tính toán. Nếu như phương pháp
dự báo FTS thực hiện phân hoạch không gian nền thành các khoảng để từ đó xác
định các tập mờ biểu diễn cho các giá trị ngôn ngữ thì phương pháp dự báo chuỗi
thời gian ngôn ngữ thực hiện tính toán trực tiếp trên giá trị ngữ nghĩa định lượng
của các từ ngôn ngữ mà không thực hiện việc chia khoảng không gian nền.
Thực hiện các mục tiêu nghiên cứu đã đặt ra, luận án đóng góp các kết quả
quan trọng sau:
1) Đề xuất khái niệm chuỗi thời gian ngôn ngữ (LTS) cùng với định nghĩa
về quan hệ lô-gic ngôn ngữ (LLR) và nhóm quan hệ lô-gic ngôn ngữ
(LLRG).
2) Đề xuất mô hình dự báo mô hình dự báo chuỗi thời gian ngôn ngữ (LTS-
FM), trong đó ngữ nghĩa định lượng của các từ ngôn ngữ được sử dụng
làm công cụ tính toán chính của mô hình trên cơ sở thiết lập các luật dự
báo LLR và các nhóm quan hệ LLRG của chúng.
3) Đề xuất nghiên cứu mở rộng mô hình dự báo chuỗi thời gian ngôn ngữ
bằng việc đề xuất mô hình WLTS-FM trong đó các luật dự báo có trọng
số và việc mở rộng không gian ngôn ngữ của mô hình dự báo; đề xuất
các mô hình dự báo tối ưu LTS-PSO, LTS-PSCO và mô hình dự báo
chuỗi thời gian ngôn ngữ bậc cao HO-LTS.
Đây là lần đầu tiên, khái niệm LTS được đề cập một cách có hệ thống dựa
trên ngữ nghĩa ngôn ngữ được dùng để biểu diễn các giá trị khác nhau của dữ liệu
quan sát lịch sử. Luận án đóng góp một cách tiếp cận mới trong việc nghiên cứu
bài toán dự báo chuỗi thời gian và cũng gợi mở các nghiên cứu mở rộng mô hình
dự báo chuỗi thời gian ngôn ngữ. Luận án cũng góp phần khẳng định tính đúng
đắn, ưu việt của ĐSGT đồng thời góp phần mở rộng khả năng ứng dụng của lý
thuyết ĐSGT.
- 7
7. Bố cục của luận án
Luận án được bố cục bao gồm các phần: phần mở đầu, ba chương nội dung
chính của luận án, phần kết luận và danh mục tài liệu tham khảo. Nội dung của
các chương cụ thể như sau:
Chương 1 tóm tắt các khái niệm cơ bản về chuỗi thời gian, chuỗi thời gian
mờ (FTS) và các mô hình dự báo FTS-FM. Chương tập trung trình bày các
phương pháp dự báo chuỗi thời gian mờ, các xu hướng nghiên cứu, các kết quả
chính trong bài toán dự báo FTS. Chương này cũng sẽ trình bày lý thuyết ĐSGT
trên cơ sở xem xét mối quan hệ giữa thông tin và cấu trúc của thông tin, từ đó
khám phá mô hình toán học ẩn chứa trong cấu trúc của thông tin. Theo đó, chính
cấu trúc thông tin trong miền ngôn ngữ sinh ra ngữ nghĩa, và ngữ nghĩa này được
sử dụng trong mô hình dự báo LTS-FM.
Chương 2 đề xuất mô hình dự báo LTS-FM, trong đó các khái niệm về chuỗi
thời gian ngôn ngữ (LTS), quan hệ lô-gic ngôn ngữ (LLR), nhóm quan hệ lô-gic
ngôn ngữ (LLRG) sẽ được đề xuất. Các thực nghiệm trên dữ liệu số sinh viên
nhập học của Đại học Alabama (EUA) cùng hai phương pháp dự báo cũng sẽ
được tiến hành nhằm chỉ ra những khác biệt và ưu điểm của mô hình đề xuất.
Chương 3 sẽ đề xuất một số nghiên cứu mở rộng về mô hình dự báo đối với
chuỗi thời gian ngôn ngữ. Trong chương này, mô hình dự báo với luật ngôn ngữ
có trọng số, việc mở rộng không gian ngôn ngữ, tối ưu các tham số, tối ưu việc
chọn các từ ngôn ngữ sẽ được trình bày. Bên cạnh đó, chương này cũng đề xuất
mô hình dự báo LTS bậc cao và gợi ý các hướng nghiên cứu cải tiến, mở rộng mô
hình dự báo.
- 8
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ
1.1. Dự báo chuỗi thời gian mờ
1.1.1. Khái niệm về chuỗi thời gian
Chuỗi thời gian là một dãy các giá trị quan sát 9 được sắp xếp theo thứ tự
thời gian của một biến quan sát được biểu diễn như sau:
9 = {#' , #) , … , #* }
trong đó, #$ là giá trị quan sát tại thời điểm + với + = 1 … -.
Thông thường, chuỗi thời gian là tập hợp các dữ liệu được thu thập theo các
khoảng thời gian liên tiếp, cách đều nhau. Khi đó, dữ liệu này có thể được coi là
dữ liệu chuỗi thời gian rời rạc.
Trong cuộc sống hàng ngày, nhiều dữ liệu chuỗi thời gian có thể được bắt
gặp như: nhiệt độ trung bình của một địa điểm cụ thể theo ngày, chỉ số chứng
khoán theo các phiên làm việc, giá vàng, tỉ giá ngoại tệ cuối ngày,...
Hình 1.1. Dữ liệu chỉ số chứng khoán NASDAQ 6 tháng đầu năm 2021.
(Nguồn: https://finance.yahoo.com, truy cập 29/7/2021)
Phân tích chuỗi thời gian là một khái niệm bao gồm nhiều phương pháp khác
nhau nhằm phân tích, trích xuất các thông tin có ý nghĩa từ dữ liệu chuỗi thời gian
đã thu thập được. Trong đó, dự báo chuỗi thời gian là một phương pháp tính toán
- 9
nhằm dự báo giá trị tương lai của biến quan sát dựa trên các giá trị lịch sử đã ghi
nhận được tại các thời điểm trước đó.
Nói chung, bài toán dự báo là một bài toán xử lý dữ liệu không chắc chắn và
kết quả dự báo có tính chất bất định cao. Có thể nói không nghiên cứu nào có thể
đề xuất mô hình dự báo đảm bảo sự chính xác tuyệt đối. Vì tính chất đó của bài
toán dự báo, việc sử dụng các phương pháp tính toán đối với dữ liệu không chắc
chắn trong những năm trở lại đây được nghiên cứu khá nhiều. Trong đó, các mô
hình dự báo FTS-FM được trình bày dưới đây là một trong những hướng nghiên
cứu như vậy.
1.1.2. Mô hình dự báo FTS-FM
1.1.2.1. Tập mờ và khả năng mô hình toán học miền ngôn ngữ
Khái niệm về tập mờ được Zadeh đề xuất trong [140], trên cơ sở phân biệt
với khái niệm tập hợp của lý thuyết tập hợp kinh điển. Lý thuyết tập mờ biểu diễn
các khái niệm mang tính trừu tượng của thông tin nhứ ‘trẻ’, ‘già’, ‘nhiều’, ‘ít’…
bằng các cấu trúc toán học.
Gọi ? là không gian nền (hay còn gọi là tập nền) của bài toán đang xét, mà
trên đó xác định một tập hợp các đối tượng. Cho 9 là một tập rõ thuộc ?, khi đó
xác định một hàm thuộc ! như sau:
1, -ếB # ∈ 9
!! ( # ) = @
0, -ếB # ∉ 9
Tuy nhiên, trên thực tế không phải lúc nào cũng có thể xác định được quan
hệ thuộc này một cách chính xác tuyệt đối. Ví dụ, nếu phân loại người thành ‘già’
và ‘trẻ’ dựa theo tuổi của họ thì khó có thể nói chính xác một người 45 tuổi là
‘già’ hay ‘trẻ’. Suy luận của con người thường mang tính ước lượng nhiều hơn so
với tính chất rõ ràng tuyệt đối như đa số lý thuyết số học truyền thống.
Trong lý thuyết tập mờ, mối quan hệ giữa các phần tử và tập mờ là một hàm
số. Hàm số đó được gọi là hàm thuộc (membership function) chỉ ra mức độ thuộc
tập mờ của các phần tử.
nguon tai.lieu . vn