- Trang Chủ
- Cơ sở dữ liệu
- Ứng dụng kỹ thuật khai phá văn bản (Text mining) trong dự báo thị trường chứng khoán Việt Nam
Xem mẫu
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
ỨNG DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN (TEXT MINING) TRONG
DỰ BÁO THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM
Nguyễn Thùy Linh*, Nguyễn Linh Diệp, Nguyễn Ngọc Hải
Trường Đại học Kinh tế, Đại học Quốc gia Hà Nội,
144 Xuân Thủy, Cầu Giấy, Hà Nội, Việt Nam
Tóm tắt: Hiện nay trên thế giới đã có một số công trình nghiên cứu ứng dụng khai
phá văn bản trong việc dự đoán thị trường chứng khoán cũng như biến động về giá.
Tuy nhiên, ở Việt Nam chưa thực sự có nhiều nghiên cứu về khai phá văn bản (Text-
mining) ứng dụng trong tài chính cũng như xử lý ngôn ngữ tiếng Việt. Sự thiếu hụt
này có thể xuất phát từ bản chất liên ngành của nó liên quan đến ngôn ngữ học – học
máy – kinh tế học hành vi. Do đó, nghiên cứu này sẽ xem xét kỹ thuật khai phá văn
bản và ứng dụng nhằm dự báo thị trường chứng khoán Việt Nam. Nghiên cứu sử dụng
gần 70.000 bài báo từ các trang báo điện tử uy tín của Việt Nam làm dữ liệu đầu vào
cho các mô hình: Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forest),
K-Láng giềng (KNN) và Vector hỗ trợ (SVM) với tỷ lệ dự đoán chính xác lần lượt là
51,23%, 52,73%, 51,38% và 52,8%. Sau khi lựa chọn được mô hình tối ưu (SVM) và
tập dữ liệu tốt nhất (Vietstock), các thuật toán nhằm đào sâu và cải thiện kết quả đã
tăng độ chính xác lên 60,1%. Mặc dù kết quả chưa đạt độ chính xác như kỳ vọng
nhưng nghiên cứu đã cho thấy các tin tức về tình hình tài chính, chứng khoán trên báo
chí phổ thông có ảnh hưởng đến xu hướng giá cả của chỉ số VN-Index. Do đó, kết quả
trong bài nghiên cứu là nguồn tham khảo khách quan và có giá trị cho các nhà quản lý
và nhà đầu tư trong việc đưa ra các quyết định trên thị trường chứng khoán.
Từ khóa: Khai phá văn bản, học máy, thị trường chứng khoán, SVM, VN-Index.
1. GIỚI THIỆU
Chứng khoán được coi là kênh “huyết mạch” để huy động vốn, do đó thị
trường chứng khoán trên thế giới nói chung và ở Việt Nam nói riêng đang ngày càng
*
Tác giả liên hệ: 094 386 0576
Email: leeyiingg2910@gmail.com
42
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
thu hút nhiều nhà đầu tư. Theo số liệu từ Trung tâm Lưu ký Chứng khoán Việt Nam,
chỉ riêng trong tháng 11/2020, thị trường chứng khoán Việt Nam có hơn 41.200 tài
khoản mới (cao nhất theo tháng từ trước đến nay). Hiện nay với hơn 2,7 triệu tài
khoản (tính đến cuối tháng 11/2020), thị trường chứng khoán Việt Nam ngày càng
được quan tâm và các nhà đầu tư cũng muốn biết thêm về tương lai của thị trường để
có thể đầu tư thành công hơn. Chính vì vậy, việc dự đoán thị trường hiệu quả sẽ mang
lại lợi ích to lớn ở cả cấp độ vĩ mô và vi mô, giúp nhà đầu tư đưa ra lời khuyên giao
dịch hoặc có thể được sử dụng như một phần gợi ý của các đại lý giao dịch tự động.
Các phương pháp phân tích cổ điển thường dựa vào số liệu lịch sử giá hoặc
kết hợp với các chỉ số tài chính. Tuy nhiên, trong khi các thông tin trên thực tế như
chỉ số tài chính, kết quả hoạt động kinh doanh thường mang tính chất tổng kết của
một thời kỳ (quý, nửa năm, năm), thì tin tức liên quan tới một doanh nghiệp thường
sẽ có tác động ngay đến giá cổ phiếu của doanh nghiệp này. Đã có nhiều nghiên
cứu trước đây sử dụng các thuật toán để phân tích dữ liệu thị trường thông qua
phân tích kỹ thuật như: sử dụng mô hình ARCH và GARCH... Tuy nhiên, hiện nay
với sự phát triển của khoa học công nghệ, các thuật toán liên quan tới kỹ thuật học
máy (Machine learning) đã được áp dụng, khắc phục được những nhược điểm của
phương pháp phân tích cổ điển.
Theo lý thuyết về “Thị trường hoàn hảo”, nếu như tất cả các nhà đầu tư đều
nắm được những thông tin giống nhau thì giá của một chứng khoán sẽ phản ánh
đầy đủ giá trị của nó. Tuy nhiên, đối với mỗi nhà đầu tư, việc tổng hợp tất cả
những tin tức này không chỉ là vấn đề về nguồn tài liệu mà còn là vấn đề về thời
gian. Theo bài kiểm tra tốc độ đọc được tài trợ bởi Staples, một người lớn có tốc
độ đọc trung bình là 300 từ mỗi phút. Trung bình, mỗi trang giấy A4 có từ 400 đến
500 từ. Do đó, để đọc một tài liệu gồm 20 trang, một người cần ít nhất 30 phút và
thậm chí cần mất nhiều thời gian hơn để hiểu, phân tích và tổng hợp lượng thông
tin đó. Tuy nhiên, khối lượng thông tin công bố trên Internet ngày càng nhiều đã
khiến cho nhu cầu về các công cụ giúp người đọc tìm kiếm, tổng hợp thông tin
cũng gia tăng (Aas và Eikvil, 1999).
43
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
Trong thời đại bùng nổ thông tin, mỗi ngày người đọc có thể tiếp xúc với vô
vàn nguồn tin tức khác nhau. Những nguồn tin này có thể là các tin tức trực tiếp liên
quan tới tình hình tài chính của thị trường, doanh nghiệp hoặc cũng có thể liên quan
gián tiếp tới doanh nghiệp đó thông qua các bài báo nói về đời tư, các cuộc gặp gỡ
giữa doanh nghiệp với các doanh nghiệp khác hoặc thậm chí đôi khi các chia sẻ (có
thể chưa được kiểm chứng) lan truyền trên mạng xã hội. Trên thực tế, văn bản cũng
cung cấp thông tin quan trọng như dữ liệu số. Thông tin văn bản dễ hiểu hơn và giúp
người đọc nắm bắt được một cách tổng quát. Đặc biệt đối với các nhà đầu tư mới, còn
ít kinh nghiệm trong việc áp dụng phân tích kỹ thuật để đầu tư chứng khoán, đa phần
họ dựa vào các thông tin văn bản được cung cấp bởi các trang tin tức online hàng đầu
về chứng khoán hoặc các bài báo hàng ngày của các công ty chứng khoán đăng tải
dành cho khách hàng. Do đó, phân tích văn bản có ý nghĩa quan trọng và bổ sung cho
việc phân tích các chỉ số tài chính và các mô hình giá.
Text-mining là một kỹ thuật trí tuệ nhân tạo đang là xu hướng được nhiều nhà
nghiên cứu lựa chọn để tìm ra giải pháp cho nhiều lĩnh vực trong đời sống, đặc biệt
trong dự báo thị trường chứng khoán Việt Nam. Việc sử dụng phương pháp Khai phá
dữ liệu văn bản là rất cần thiết, mang tính sáng tạo cao. Hơn nữa, không có nghiên
cứu nào gần đây tại Việt Nam làm về đề tài tương tự nên nhóm nghiên cứu quyết định
tiến hành nghiên cứu tiên phong đề tài trên.
2. TỔNG QUAN TÀI LIỆU
2.1. Tổng quan nghiên cứu trong nước
Lĩnh vực dự báo thị trường chứng khoán luôn nhận được sự quan tâm của cộng
đồng nghiên cứu trong nước. Đã có nhiều công trình trong nước nghiên cứu về dự báo
chứng khoán như:
Đặng Hồng Phú (2008) đã trình bày được tổng quan về khai phá dữ liệu: khái
niệm, các kỹ thuật khai phá dữ liệu và các ứng dụng của khai phá dữ liệu. Trong đó
luận văn tập trung vào kỹ thuật khai phá dữ liệu chuỗi thời gian áp dụng vào bài toán
thực tế đang được quan tâm đó là bài toán dự báo nói chung và dự báo giá chứng
khoán nói riêng. Luận văn cũng đã trình bày được một số nội dung cơ sở lý thuyết về
44
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
chuỗi thời gian thực, về mô hình ARIMA (các công cụ áp dụng trong mô hình, quy
trình xây dựng mô hình) và phần mềm Eviews, áp dụng Eviews để thi hành các bước
của mô hình ARIMA trong dự báo chứng khoán. Luận văn đã áp dụng những cơ sở lý
thuyết nghiên cứu tiến hành thực nghiệm trên ba chuỗi chứng khoán (chỉ số VnIndex,
mã CK ABT, ACB) dựa trên dữ liệu lịch sử của mỗi chuỗi (gồm 257 quan sát trong
quá khứ) và đã dự báo được giá đóng cửa của 10 ngày tiếp theo. Kết quả dự báo đã
được phân tích, kiểm tra, đối chiếu với giá thực tế và cho thấy kết quả đó là khá chính
xác, độ tin cậy cao. Như vậy, mô hình ARIMA đưa ra cho mỗi chuỗi chứng khoán
trong luận văn là khá phù hợp để dự báo ngắn hạn giá cổ phiếu. Tác giả cơ bản nắm
được quy trình dùng phần mềm Eviews để xây dựng mô hình ARIMA cho dữ liệu thời
gian thực, tính toán giá trị dự báo cho chuỗi dữ liệu chứng khoán.
Trịnh Thanh Ngọc (2013) đã sử dụng trang mạng xã hội Twitter kết hợp với kỹ
thuật học máy hồi quy hỗ trợ SVR để dự báo xu thế chứng khoán. Cụ thể hơn, tác giả
đã xây dựng chương trình dự báo giá cổ phiếu Apple.
Lê Văn Tuấn (2021) đã sử dụng một số mô hình thuật toán học máy để dự báo
xu hướng biến động (tăng/giảm) của chỉ số thị trường chứng khoán của Việt Nam. Kết
quả cho thấy, sự biến động tăng/giảm của thị trường chứng khoán Việt Nam chỉ phụ
thuộc vào sự tăng/ giảm của ngày ngay trước mà không phụ thuộc vào các ngày xa
hơn, cũng không phụ thuộc vào khối lượng giao dịch. Trong các mô hình hồi quy
Logistic, mô hình phân tích phân biệt tuyến tính (LDA), phân tích phân biệt toàn
phương (QDA) và mô hình K láng giềng (KNN), trong đó mô hình KNN có độ chính
xác dự báo tốt nhất với 55,6%.
Nguyễn Thị Thu Hiền (2016) đề xuất mô hình dự báo đa trị dựa trên hệ suy
luận ANFIS, từ đó xây dựng thuật toán huấn luyện và thuật toán dự báo. Để minh
chứng tính hiệu quả của mô hình đề xuất, nhóm nghiên cứu xây dựng hai ứng dụng
thực nghiệm: (1) Dự báo sản lượng sữa trên cơ sở dữ liệu của công ty Vinamilk; (2)
Dự báo giá cổ phiếu trên cơ sở dữ liệu Cophieu68. Bài báo đã giải quyết được vấn đề
dự báo đồng thời nhiều kết quả, giúp cải thiện đáng kể về tốc độ so với các phương
pháp khác như: AR, ARMA, ANFIS, NARX, SANN, MLR, T-Norm dựa trên ANFIS.
45
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
Điều này đã được minh chứng trong phần kết quả thực nghiệm. Hướng phát triển của
bài báo là đề xuất hệ ANFIS có khả năng tự nhận biết các trường hợp dị biệt và có khả
năng chịu lỗi cao để kết quả dự báo không bị ảnh hưởng bởi các giá trị bất thường.
Có thể thấy, các nghiên cứu trên chủ yếu sử dụng dữ liệu số để dự báo giá
chứng khoán mà chưa xem xét đến sự tác động của các tin tức của tình hình tài chính,
kinh tế, thế giới đến xu hướng biến động của giá chứng khoán.
2.2. Tổng quan nghiên cứu nước ngoài
Lĩnh vực sử dụng kỹ thuật học máy để dự báo xu hướng thị trường chứng
khoán không chỉ xuất hiện trong những nghiên cứu trong nước mà còn thu hút được
sự quan tâm của cộng đồng nghiên cứu trên thế giới, như:
Arman Khadjeh Nassirtoussi và cộng sự (2014) đã tổng kết những công trình
gần đây về việc áp dụng text mining để dự báo thị trường, trong đó hầu hết các hệ
thống được đề xuất trong các công trình nghiên cứu đều theo kiến trúc như sau:
Hình 1: Sơ đồ các thành phần chính của hệ thống dự báo thị trường
Nguồn: Nhóm nghiên cứu tổng hợp
46
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
Về các công trình sử dụng kỹ thuật khai phá văn bản để dự báo các chỉ số
chứng khoán, có thể kể đến một số nghiên cứu sau:
Tien Thanh Vu và cộng sự (2012) đã khai phá các tính năng từ tin nhắn Twitter
để nắm bắt tâm trạng của công chúng liên quan cho bốn công ty công nghệ để dự đoán
biến động giá lên và xuống hàng ngày của cổ phiếu NASDAQ của các công ty này.
Nghiên cứu đề xuất một mô hình mới kết hợp các tính năng cụ thể là phân tích tâm lý
tích cực, tâm lý tiêu cực và niềm tin của người tiêu dùng vào sản phẩm liên quan đến
các từ “tăng giá” hoặc “giảm giá” và ba ngày vận động thị trường chứng khoán trước
đó. Các tính năng được sử dụng trong bộ phân loại Cây quyết định bằng cách sử dụng
xác thực nhiều lần để mang lại độ chính xác 82,93%, 80,49%, 75,61% và 75,00%
trong việc dự đoán những thay đổi lên xuống hàng ngày của Apple (AAPL), Google
(GOOG), cổ phiếu của Microsoft (MSFT) và Amazon (AMZN) tương ứng trong mẫu
41 ngày thị trường.
Hình 2: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter
Nguồn: Nhóm nghiên cứu tổng hợp
47
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
G. Pui Cheong Fung và cộng sự (2003), đã đề xuất kết hợp hai phương pháp là
khai phá dữ liệu văn bản và chuỗi thời gian dựa trên giả thuyết thị trường hiệu quả
(Eficient Market Hypothesis), giúp đưa ra cái nhìn khái quát hơn về thị trường chứng
khoán. Tới năm 2004, Marc-André Mittermayer thực hiện nghiên cứu dựa trên các bài
báo và dữ liệu giá cổ phiếu năm 2002 của NewsCATS. Kết quả cho thấy việc phân
loại các bài báo có thể cung cấp thông tin bổ sung và có khả năng được sử dụng để dự
báo xu hướng giá cổ phiếu.
Robert P. Schumaker và Hsinchun Chen (2009) đã sử dụng dữ liệu của 9.211
bài báo tin tức tài chính và 10.259.042 báo giá chứng khoán, bao gồm các cổ phiếu
S&P 500 trong thời gian 5 tuần. Bằng phương pháp khai phá dữ liệu văn bản, nhóm
tác giả cũng đưa ra kết luận với độ chính xác khoảng 57%.
Johan Bollena, Huina Maoa và Xiaojun Zeng, (2011) đã thu được một tập
hợp các bài đăng công khai được ghi lại từ ngày 28/02 đến ngày 19/12/2008, bao
gồm 9.853.498 bài được đăng và khoảng 2,7 triệu người theo dõi. Họ phân tích nội
dung văn bản của nguồn dữ liệu Twitter hàng ngày bằng hai công cụ theo dõi tâm
trạng, là đo lường trạng thái tích cực so với tiêu cực (Opinion Finder) và đo lường
tâm trạng theo sáu chiều (Calm, Alert, Sure, Vital, Kind, và Happy). Kết quả cho
thấy sự biểu hiện tâm trạng thông qua các bài đăng trên Twitter có ảnh hưởng tới
thị trường chứng khoán.
Hiện nay trên thế giới đã có một số công trình nghiên cứu ứng dụng khai phá
văn bản trong việc dự đoán thị trường chứng khoán cũng như biến động về giá. Tuy
nhiên, ở phạm vi Việt Nam, các công trình nghiên cứu về dự báo thị trường chứng
khoán chủ yếu tiếp cận phương pháp khai phá dữ liệu dựa trên dữ liệu số đơn thuần.
Như vậy, có thể nói, việc sử dụng phương pháp khai phá văn bản đối với thị trường
chứng khoán Việt Nam vẫn còn rất mới mẻ và sẽ đóng góp rõ rệt đối với lĩnh vực này.
Trong các chương sau, nhóm nghiên cứu trình bày sơ lược các kỹ thuật khai phá văn
bản và trình bày mô hình mới và các kết quả thử nghiệm.
3. PHƯƠNG PHÁP NGHIÊN CỨU
48
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
Nghiên cứu sử dụng các mô hình học máy (Marchine Learning): Véc tơ hỗ trợ
(SVM), Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forest), K-láng
giềng (KNN) để dự báo biến động giá của thị trường chứng khoán Việt Nam Text-
mining của các trang báo điện tử tại Việt Nam. Quy trình nghiên cứu cụ thể như sau:
Nhóm nghiên cứu thu thập nguồn dữ liệu văn bản là các bài báo, tin tức từ 4
trang web tài chính nổi tiếng và nguồn dữ liệu số là chỉ số lịch sử giá của VN-INDEX
từ trang: Investing.com sử dụng công cụ là thư viện Beautiful Soup của Python. Sau
đó nghiên cứu tiến hành kết hợp tin tức văn bản đồng thời gán nhãn cho các bài báo
theo 3 mức độ: tăng, giảm, không đổi, để phục vụ cho công tác nghiên cứu ở những
bước tiếp theo. Nhóm nghiên cứu loại bỏ các ký tự gây nhiễu, từ dừng bằng việc sử
dụng công cụ phân đoạn từ tiếng Việt Word_tokenizer của thư viện Underthesea -
công cụ đạt tỷ lệ chính xác 90% trong việc mã hóa các câu tiếng Việt.
Các văn bản tin tức sau khi được xử lý sẽ được đưa vào Lựa chọn đặc trưng. Ở
bước này, nhóm nghiên cứu sử dụng phương pháp TF-DIF để lọc ra 1024 từ đặc trưng
từ tập dữ liệu, là những từ đặc trưng nhất giúp các mô hình máy học từ việc dựa vào
đó để đưa ra kết quả phân loại chính xác nhất. Các dữ liệu đó sẽ được đưa vào chương
trình Huấn luyện trên 2 tập dữ liệu với tỷ lệ là 70:30. Sau khi được huấn luyện, nhóm
nghiên cứu thực hiện Thử nghiệm mô hình để lựa chọn mô hình tối ưu và tập dữ liệu
đầu vào tốt nhất, nhằm nâng cao được kết quả nghiên cứu.
49
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
Hình 3: Quy trình nghiên cứu
Nguồn: Nhóm nghiên cứu tổng hợp
4. KẾT QUẢ NGHIÊN CỨU
Nhóm sử dụng các mô hình học máy: Decision Tree, Random Forrest, KNN và
SVM để thử nghiệm các tập dữ liệu đầu vào. Mô hình có tỷ lệ chính xác cao sẽ được
chọn làm mô hình tối ưu.
Kết quả thu được như sau:
Bảng 1: Kết quả thử nghiệm mô hình tối ưu
Thuật toán/ Mô hình Tỷ lệ chính xác
Cây quyết định 51,23%
Random Forest 52,73%
K-Láng Giềng 51,38%
Máy Vector Hỗ trợ (SVM) 52,8%
Từ kết quả trên, ta có thể thấy kết quả của mô hình SVM là đạt tỷ lệ chính xác
cao nhất với 52,8%. Trong các phần thử nghiệm tiếp theo nhóm sẽ sử dụng mô hình
SVM trong dự báo chỉ số giá VN-index (dự báo Thị trường chứng khoán Việt Nam).
Bảng 2: Kết quả thử nghiệm tập dữ liệu đầu vào tốt nhất
Từ ngày Đến ngày Số mẫu Kết quả
Vietstock 2016-2021 09/02/2021 1.274 55,87%
Vnexpress 24/02/2001 11/02/2021 3.408 53,37%
Thanhnien 28/01/2013 12/02/2021 3.784 53,52%
Cafef 15/10/2008 04/02/2021 3.065 53,48%
Nguồn: Nhóm nghiên cứu tổng hợp
50
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
Với thử nghiệm sử dụng mô hình SVM để dự báo Chỉ số giá VN-Index bằng
dữ liệu đầu vào trang báo điện tử Vietstock, kết quả cho thấy trang web mang lại kết
quả cao nhất (55,87%). Chính vì vậy, chúng tôi lựa chọn dữ liệu đầu vào cho mô hình
là các bài báo tài chính, kinh tế của trang báo điện tử Vietstock.
Để nâng cao kết quả chương trình thử nghiệm, chúng tôi sử dụng kỹ thuật thay
đổi các tham số C và Gamma. Nhóm thử nghiệm thay thế 2 tham số chính cho mô
hình là C với các giá trị từ 0,1 đến 1000 và gamma từ 0.0001 đến 1 và kernel là 'rbf'.
Kết quả tốt nhất thu được là 60,1%.
Bảng 3: Kết quả nâng cao chương trình thử nghiệm
Tham số cho mô hình Kết quả
C=0,1 gamma=1 kernel='rbf 57,1%
C=0,1 gamma=0,1 kernel='rbf 57,1%
C=0,1 gamma=0,01 kernel='rbf 57,1%
C=0,1 gamma=0,001 kernel='rbf 58,1%
C=0,1 gamma=0,0001 kernel='rbf 57,1%
C=1 gamma=1 kernel='rbf 57,6%
C=1 gamma=0,1 kernel='rbf 58,1%
C=1 gamma=0,01 kernel='rbf 57,1%
C=1 gamma=0,001 kernel='rbf 57,1%
C=1 gamma=0,0001 kernel='rbf 57,1%
C=10 gamma=1 kernel='rbf 56,0%
51
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
C=10 gamma=0,1 kernel='rbf 59,2%
C=10 gamma=0,01 kernel='rbf 57,1%
C=10 gamma=0,001 kernel='rbf 59,1%
C=10 gamma=0,0001 kernel='rbf 57,1%
C=100 gamma=1 kernel='rbf 56,3%
C=100 gamma=0,1 kernel='rbf 55,2%
C=100 gamma=0,01 kernel='rbf 60,1%
C=100 gamma=0,001 kernel='rbf 57,1%
C=100 gamma=0,0001 kernel='rbf 57,1%
C=1000 gamma=1 kernel='rbf 56,3%
C=1000 gamma=0,1 kernel='rbf 56,0%
C=1000 gamma=0,01 kernel='rbf 56,0%
C=1000 gamma=0,001 kernel='rbf 60,1%
C=1000 gamma=0,0001 kernel='rbf 57,1%
Nguồn: Nhóm nghiên cứu tổng hợp
Sau khi thực hiện nâng cao kết quả thực nghiệm, kết quả nhận được khả thi hơn
lần thử nghiệm đầu tiên. Các kết quả trên cho thấy rằng các tin tức về tài chính, chứng
khoán trên các trang báo điện tử mà mỗi người dân Việt Nam xem mỗi ngày có ảnh
hưởng đến Giá chứng khoán VN-Index.
5. KẾT LUẬN
52
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
Trong thời đại hiện nay, sự phát triển về công nghệ thông tin đã kéo theo sự
phát triển của rất nhiều lĩnh vực (trong đó có kinh tế, tài chính,…). Ngày nay con
người không phải vất vả trong công cuộc thu thập dữ liệu vì đã có trợ thủ là hệ thống
máy tính và mạng truyền số liệu triển khai ở quy mô toàn cầu. Tuy nhiên, sự thay đổi
này lại làm cho chính những lượng thông tin trên tăng một cách chóng mặt. Có nhiều
trang báo, trang thông tin mạng được đăng tải lên hàng ngày, hàng giờ. Các nhà đầu tư
trên thị trường chứng khoán để hiểu biết về Thị trường, họ phải tìm kiếm thông tin
hiệu quả, phân loại thông tin để nắm bắt Thị trường nhưng với một lượng thông tin
quá lớn, đòi hỏi xử lí nhanh thì việc phân loại thủ công là điều không tưởng. Kỹ thuật
sử dụng Học máy và ứng dụng Text-mining để tự động phân loại thông tin đã giúp ích
cho con người rất nhiều.
Trong nghiên cứu này, các tác giả đã khảo sát và tổng kết một số công trình về
dự báo thị trường chứng khoán gần đây từ các phương pháp dựa vào dữ liệu số đơn
thuần đến các phương pháp sử dụng khai phá văn bản. Sau đó nhóm đã đề xuất mô
hình nghiên cứu và tiến hành thử nghiệm chương trình dự báo chỉ số VN-Index dựa
vào các tin tức tiếng Việt được tải về từ các trang web tin tức phổ biến tại Việt Nam
cũng như nghiên cứu các từ loại góp phần làm cho kết quả dự báo VN-Index tốt nhất.
Nghiên cứu cũng tổng hợp cơ sở lý thuyết liên quan tới việc ứng dụng học máy dự
báo biến động giá chứng khoán nhằm bổ sung cơ sở lý thuyết lĩnh vực.
Sau khi thử nghiệm các kỹ thuật – mô hình phổ biến nhất hiện nay: Decision
Tree, Random Forrest, KNN và SVM. Nhóm nghiên cứu quyết định lựa chọn sử dụng
Support Vector Machines (SVM) cho bài toán dự báo thị trường chứng khoán, với
một số lý do trên:
+ Số lượng các đặc trưng (kích thước không gian đặc trưng) của văn bản được
phân loại không ảnh hưởng nhiều đến khả năng của hệ thống sử dụng SVM.
+ SVM có khả năng phân loại tốt trong tập dữ liệu kiểm tra mà không cần có
tập dữ liệu huấn luyện quá lớn.
53
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
+ SVM đã được dùng nhiều trong các công trình khoa học đã công bố về áp
dụng khai phá văn bản dự báo thị trường chứng khoán và được chứng minh có kết quả
tốt.
Kết quả thử nghiệm lần 1 cho thấy SVM đạt mức độ chính xác cao nhất với
52,8%. Để cải tiến mô hình đạt độ tin cậy cao hơn, nhóm nghiên cứu đã thử nghiệm
lần 2 với tập dữ liệu riêng lẻ của các trang báo và cuối cùng đã chọn lựa được tập dữ
liệu đầu mang kết quả tốt nhất từ trang báo điện tử Vietstock.
Việc thay đổi phạm vi tập dữ liệu, nhóm nghiên cứu đã dự báo xu hướng giá
của chỉ số VN-INDEX có thể đạt tỷ lệ chính xác đến 60,1%. Điều này chứng tỏ rằng
các tin tức về tình hình tài chính, chứng khoán trên các báo chí phổ thông gây ảnh
hưởng đến xu hướng giá cả của chỉ số VN-INDEX. Kết quả dự báo của mô hình trong
bài nghiên cứu là một nguồn tham khảo khách quan và có giá trị cho các nhà quản lý
và nhà đầu tư trong các quyết định của mình trên thị trường chứng khoán. Tuy nhiên,
kết quả dự báo của nghiên cứu chưa thật cao, theo nhóm nghiên cứu một phần là do
tính biến động khó lường của thị trường chứng khoán, cũng một phần do độ trễ của dữ
liệu tin tức.
Ngoài ra, mô hình trong nghiên cứu có thể được sử dụng trong các hệ thống
khác như dự báo tỉ giá, phân tích quan điểm trong các bản nhận xét sản phẩm, dự báo
giá vàng, phân loại tin tức theo chủ đề, phân loại email, trang tin tức tùy biến theo ngữ
cảnh,…
TÀI LIỆU THAM KHẢO
Tài liệu Tiếng Việt
1. Nguyễn Thị Hải Yến (2007), “Phân lớp bán giám sát và ứng dụng thuật toán SVM
vào phân lớp trang web”, Khoá luận tốt nghiệp, Đại học quốc gia Hà Nội, Đại học
Công nghệ.
2. L. C. M. Hồ Tú Bảo (2017), “Về xử lý tiếng Việt trong công nghệ thông tin”, Viện
Công nghệ Thông tin, Viện Khoa học và Công nghệ Tiên tiến Nhật Bản.
54
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
3. Phạm Quốc Hùng (2013), “Nghiên cứu ứng dụng kỹ thuật học máy để dự đoán
chứng khoán bằng ngôn ngữ R”, Luận văn Thạc sĩ, Đại học Quốc gia Hà Nội, Trường
Đại học Công nghệ.
4. Nguyễn Thị Lan Anh (2015), “Nghiên cứu thuật toán học máy SVM và ứng dụng
trong bài toán khai phá ý kiến phản hồi của khách hàng trên web”, Luận văn thạc sĩ,
Học viện Công nghê Bưu chính Viễn thông.
5. Vũ Hữu Dũng (2013), “Ứng dụng khai phá dữ liệu trong dự báo biến động thị
trường chứng khoán Việt Nam”, LVThs CNTT, Trường Đại học Công nghệ. Đại học
Quốc gia Hà Nội.
6. Nguyễn Hữu Bình (2020), “Thị trường chứng khoán Việt Nam: Sự trưởng thành
sau 20 năm hình thành và phát triển”, Nghiên cứu, Trường Đại học Lao động – Xã
hội.
7. Phạm Thành Phước (2013), “Mạng neural và ứng dụng trong dự báo giá chứng
khoán tại trung tâm giao dịch chứng khoán TP. Hồ Chí Minh”, Luận văn Thạc sĩ, Học
viện Công nghệ Bưu chính Viễn thông.
8. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu
Trang, Nguyễn Cẩm Tú (2011), Giáo trình Khai phá dữ liệu web, Nhà XB GD VN.
9. Đặng Thị Quỳnh Mai (2015), “Tác động của yếu tố kinh tế vĩ mô đến chỉ số giá
Chứng khoán VN-Index”, Luận văn Thạc sĩ, Đại học Tài chính – Marketing.
Tài liệu tiếng Anh
1. Cady, Field. “Machine Learning Overview”, The Data Science Handbook.
Hoboken, NJ, USA: John Wiley & Sons, 2017. 87-91. Web.
2. Raschka, Sebastian; Mirajalili, Vahid. Python Machine Learning: Machine
Learning and Deep Learning with Python, Scikit-learn, and Tensor Flow. Packt, 2020.
Web.
55
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
3. Dao, Ly Na, Tran, Duc Quynh, and VNU– International School. Application of
Machine Learning to Predict the Success of Telemarketing. H.: VNU, 2020. Web.
4. Murdoch, W., Chandan Singh, Karl Kumbier, Reza Abbasi-Asl, and Bin Yu.
"Interpretable Machine Learning: Definitions, Methods, and Applications." ArXiv.org
116.44 (2019): 22071-22080. Web.
5. M. K. C. Dr. P. K. Sahoo (2019), "Stock Price Prediction Using Regression
Analysis", International Journal of Scientific & Engineering Research, Vol. 6, No. 3
6. Nikfarjam, A.; Emadzadeh, E.; Muthaiyah, S. (2010), “Text mining approaches for
stock market prediction”, Computer and Automation Engineering (ICCAE), 2010 The
2nd International Conference on, Vol. 4, 26-28 Feb. 2010, Singapore, IEEE, pp.256-
260.
7. T. Joachims (1999), Transductive Inference for Text Classification using Support
Vector Machines. International Conference on Machine Learning (ICML), 1999.
8. Aas, K., & Eikvil, L. (1999), Text categorisation: A survey. Technical report.
Norwegian Computing Center.
9. D. Blei and J. Lafferty (2009), Topic models. Text Mining: Theory and
Applications.
10. Fung, G. P. C., Yu, J. X., & Lam, W. (2002, May), News sensitive stock trend
prediction. In Pacific-Asia Conference on Knowledge Discovery and Data Mining (pp.
481-493). Springer, Berlin, Heidelberg.
11. Kloptchenko, Antonina, Tomas Eklund, Jonas Karlsson, Barbro Back, Hannu
Vanharanta, and Ari Visa, “Combining data and text mining techniques for analysing
financial reports”, Intelligent Systems in Accounting, Finance and Management 12,
no. 1 (2004): 29-41.
12. Meier, Marco, and Michael Beckh, “Text Mining”, Wirtschaftsinformatik 42.2
(2000): 165-67. Web.
56
- Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research
13. Nassirtoussi, A.K. (2015). A multi-layer dimension reduction algorithm for text
mining of news in forex / Arman Khadjeh Nassirtoussi.
Tài liệu web
1. Báo điện tử Thanh Niên, http://www.thanhnien.com.vn/chung-khoan/
2. Báo điện từ Tuổi Trẻ, http://tuoitre.vn/tin/kinh-te
3. Báo điện tử Vietstock, http://vietstock.vn/
4. Báo điện tử Cafef, https://cafef.vn/
5. Báo điện tử VNEXPRESS (05/2015), http://kinhdoanh.vnexpress.net/
6. Báo cáo phân tích BVSC
7. Báo cáo phân tích SSI
8. Báo cáo phân tích VDSC
9. Thị trường chứng khoán Việt Nam:
http://consosukien.vn/thi-truong-chung-khoan-viet-nam-su-truong-thanh-sau-20-nam-
hinh-thanh-va-phat-trien.htm
11. Bộ dữ liệu từ điển tiếng Việt:
http://www.informatik.uni- leipzig.de/~duc/Dict/
12. Bộ gán nhãn từ Tiếng Việt:
https://github.com/hakz/vntagger-gate- plugin.vntagger
57
nguon tai.lieu . vn