Xem mẫu

  1. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research ỨNG DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN (TEXT MINING) TRONG DỰ BÁO THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM Nguyễn Thùy Linh*, Nguyễn Linh Diệp, Nguyễn Ngọc Hải Trường Đại học Kinh tế, Đại học Quốc gia Hà Nội, 144 Xuân Thủy, Cầu Giấy, Hà Nội, Việt Nam Tóm tắt: Hiện nay trên thế giới đã có một số công trình nghiên cứu ứng dụng khai phá văn bản trong việc dự đoán thị trường chứng khoán cũng như biến động về giá. Tuy nhiên, ở Việt Nam chưa thực sự có nhiều nghiên cứu về khai phá văn bản (Text- mining) ứng dụng trong tài chính cũng như xử lý ngôn ngữ tiếng Việt. Sự thiếu hụt này có thể xuất phát từ bản chất liên ngành của nó liên quan đến ngôn ngữ học – học máy – kinh tế học hành vi. Do đó, nghiên cứu này sẽ xem xét kỹ thuật khai phá văn bản và ứng dụng nhằm dự báo thị trường chứng khoán Việt Nam. Nghiên cứu sử dụng gần 70.000 bài báo từ các trang báo điện tử uy tín của Việt Nam làm dữ liệu đầu vào cho các mô hình: Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forest), K-Láng giềng (KNN) và Vector hỗ trợ (SVM) với tỷ lệ dự đoán chính xác lần lượt là 51,23%, 52,73%, 51,38% và 52,8%. Sau khi lựa chọn được mô hình tối ưu (SVM) và tập dữ liệu tốt nhất (Vietstock), các thuật toán nhằm đào sâu và cải thiện kết quả đã tăng độ chính xác lên 60,1%. Mặc dù kết quả chưa đạt độ chính xác như kỳ vọng nhưng nghiên cứu đã cho thấy các tin tức về tình hình tài chính, chứng khoán trên báo chí phổ thông có ảnh hưởng đến xu hướng giá cả của chỉ số VN-Index. Do đó, kết quả trong bài nghiên cứu là nguồn tham khảo khách quan và có giá trị cho các nhà quản lý và nhà đầu tư trong việc đưa ra các quyết định trên thị trường chứng khoán. Từ khóa: Khai phá văn bản, học máy, thị trường chứng khoán, SVM, VN-Index. 1. GIỚI THIỆU Chứng khoán được coi là kênh “huyết mạch” để huy động vốn, do đó thị trường chứng khoán trên thế giới nói chung và ở Việt Nam nói riêng đang ngày càng * Tác giả liên hệ: 094 386 0576 Email: leeyiingg2910@gmail.com 42
  2. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research thu hút nhiều nhà đầu tư. Theo số liệu từ Trung tâm Lưu ký Chứng khoán Việt Nam, chỉ riêng trong tháng 11/2020, thị trường chứng khoán Việt Nam có hơn 41.200 tài khoản mới (cao nhất theo tháng từ trước đến nay). Hiện nay với hơn 2,7 triệu tài khoản (tính đến cuối tháng 11/2020), thị trường chứng khoán Việt Nam ngày càng được quan tâm và các nhà đầu tư cũng muốn biết thêm về tương lai của thị trường để có thể đầu tư thành công hơn. Chính vì vậy, việc dự đoán thị trường hiệu quả sẽ mang lại lợi ích to lớn ở cả cấp độ vĩ mô và vi mô, giúp nhà đầu tư đưa ra lời khuyên giao dịch hoặc có thể được sử dụng như một phần gợi ý của các đại lý giao dịch tự động. Các phương pháp phân tích cổ điển thường dựa vào số liệu lịch sử giá hoặc kết hợp với các chỉ số tài chính. Tuy nhiên, trong khi các thông tin trên thực tế như chỉ số tài chính, kết quả hoạt động kinh doanh thường mang tính chất tổng kết của một thời kỳ (quý, nửa năm, năm), thì tin tức liên quan tới một doanh nghiệp thường sẽ có tác động ngay đến giá cổ phiếu của doanh nghiệp này. Đã có nhiều nghiên cứu trước đây sử dụng các thuật toán để phân tích dữ liệu thị trường thông qua phân tích kỹ thuật như: sử dụng mô hình ARCH và GARCH... Tuy nhiên, hiện nay với sự phát triển của khoa học công nghệ, các thuật toán liên quan tới kỹ thuật học máy (Machine learning) đã được áp dụng, khắc phục được những nhược điểm của phương pháp phân tích cổ điển. Theo lý thuyết về “Thị trường hoàn hảo”, nếu như tất cả các nhà đầu tư đều nắm được những thông tin giống nhau thì giá của một chứng khoán sẽ phản ánh đầy đủ giá trị của nó. Tuy nhiên, đối với mỗi nhà đầu tư, việc tổng hợp tất cả những tin tức này không chỉ là vấn đề về nguồn tài liệu mà còn là vấn đề về thời gian. Theo bài kiểm tra tốc độ đọc được tài trợ bởi Staples, một người lớn có tốc độ đọc trung bình là 300 từ mỗi phút. Trung bình, mỗi trang giấy A4 có từ 400 đến 500 từ. Do đó, để đọc một tài liệu gồm 20 trang, một người cần ít nhất 30 phút và thậm chí cần mất nhiều thời gian hơn để hiểu, phân tích và tổng hợp lượng thông tin đó. Tuy nhiên, khối lượng thông tin công bố trên Internet ngày càng nhiều đã khiến cho nhu cầu về các công cụ giúp người đọc tìm kiếm, tổng hợp thông tin cũng gia tăng (Aas và Eikvil, 1999). 43
  3. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research Trong thời đại bùng nổ thông tin, mỗi ngày người đọc có thể tiếp xúc với vô vàn nguồn tin tức khác nhau. Những nguồn tin này có thể là các tin tức trực tiếp liên quan tới tình hình tài chính của thị trường, doanh nghiệp hoặc cũng có thể liên quan gián tiếp tới doanh nghiệp đó thông qua các bài báo nói về đời tư, các cuộc gặp gỡ giữa doanh nghiệp với các doanh nghiệp khác hoặc thậm chí đôi khi các chia sẻ (có thể chưa được kiểm chứng) lan truyền trên mạng xã hội. Trên thực tế, văn bản cũng cung cấp thông tin quan trọng như dữ liệu số. Thông tin văn bản dễ hiểu hơn và giúp người đọc nắm bắt được một cách tổng quát. Đặc biệt đối với các nhà đầu tư mới, còn ít kinh nghiệm trong việc áp dụng phân tích kỹ thuật để đầu tư chứng khoán, đa phần họ dựa vào các thông tin văn bản được cung cấp bởi các trang tin tức online hàng đầu về chứng khoán hoặc các bài báo hàng ngày của các công ty chứng khoán đăng tải dành cho khách hàng. Do đó, phân tích văn bản có ý nghĩa quan trọng và bổ sung cho việc phân tích các chỉ số tài chính và các mô hình giá. Text-mining là một kỹ thuật trí tuệ nhân tạo đang là xu hướng được nhiều nhà nghiên cứu lựa chọn để tìm ra giải pháp cho nhiều lĩnh vực trong đời sống, đặc biệt trong dự báo thị trường chứng khoán Việt Nam. Việc sử dụng phương pháp Khai phá dữ liệu văn bản là rất cần thiết, mang tính sáng tạo cao. Hơn nữa, không có nghiên cứu nào gần đây tại Việt Nam làm về đề tài tương tự nên nhóm nghiên cứu quyết định tiến hành nghiên cứu tiên phong đề tài trên. 2. TỔNG QUAN TÀI LIỆU 2.1. Tổng quan nghiên cứu trong nước Lĩnh vực dự báo thị trường chứng khoán luôn nhận được sự quan tâm của cộng đồng nghiên cứu trong nước. Đã có nhiều công trình trong nước nghiên cứu về dự báo chứng khoán như: Đặng Hồng Phú (2008) đã trình bày được tổng quan về khai phá dữ liệu: khái niệm, các kỹ thuật khai phá dữ liệu và các ứng dụng của khai phá dữ liệu. Trong đó luận văn tập trung vào kỹ thuật khai phá dữ liệu chuỗi thời gian áp dụng vào bài toán thực tế đang được quan tâm đó là bài toán dự báo nói chung và dự báo giá chứng khoán nói riêng. Luận văn cũng đã trình bày được một số nội dung cơ sở lý thuyết về 44
  4. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research chuỗi thời gian thực, về mô hình ARIMA (các công cụ áp dụng trong mô hình, quy trình xây dựng mô hình) và phần mềm Eviews, áp dụng Eviews để thi hành các bước của mô hình ARIMA trong dự báo chứng khoán. Luận văn đã áp dụng những cơ sở lý thuyết nghiên cứu tiến hành thực nghiệm trên ba chuỗi chứng khoán (chỉ số VnIndex, mã CK ABT, ACB) dựa trên dữ liệu lịch sử của mỗi chuỗi (gồm 257 quan sát trong quá khứ) và đã dự báo được giá đóng cửa của 10 ngày tiếp theo. Kết quả dự báo đã được phân tích, kiểm tra, đối chiếu với giá thực tế và cho thấy kết quả đó là khá chính xác, độ tin cậy cao. Như vậy, mô hình ARIMA đưa ra cho mỗi chuỗi chứng khoán trong luận văn là khá phù hợp để dự báo ngắn hạn giá cổ phiếu. Tác giả cơ bản nắm được quy trình dùng phần mềm Eviews để xây dựng mô hình ARIMA cho dữ liệu thời gian thực, tính toán giá trị dự báo cho chuỗi dữ liệu chứng khoán. Trịnh Thanh Ngọc (2013) đã sử dụng trang mạng xã hội Twitter kết hợp với kỹ thuật học máy hồi quy hỗ trợ SVR để dự báo xu thế chứng khoán. Cụ thể hơn, tác giả đã xây dựng chương trình dự báo giá cổ phiếu Apple. Lê Văn Tuấn (2021) đã sử dụng một số mô hình thuật toán học máy để dự báo xu hướng biến động (tăng/giảm) của chỉ số thị trường chứng khoán của Việt Nam. Kết quả cho thấy, sự biến động tăng/giảm của thị trường chứng khoán Việt Nam chỉ phụ thuộc vào sự tăng/ giảm của ngày ngay trước mà không phụ thuộc vào các ngày xa hơn, cũng không phụ thuộc vào khối lượng giao dịch. Trong các mô hình hồi quy Logistic, mô hình phân tích phân biệt tuyến tính (LDA), phân tích phân biệt toàn phương (QDA) và mô hình K láng giềng (KNN), trong đó mô hình KNN có độ chính xác dự báo tốt nhất với 55,6%. Nguyễn Thị Thu Hiền (2016) đề xuất mô hình dự báo đa trị dựa trên hệ suy luận ANFIS, từ đó xây dựng thuật toán huấn luyện và thuật toán dự báo. Để minh chứng tính hiệu quả của mô hình đề xuất, nhóm nghiên cứu xây dựng hai ứng dụng thực nghiệm: (1) Dự báo sản lượng sữa trên cơ sở dữ liệu của công ty Vinamilk; (2) Dự báo giá cổ phiếu trên cơ sở dữ liệu Cophieu68. Bài báo đã giải quyết được vấn đề dự báo đồng thời nhiều kết quả, giúp cải thiện đáng kể về tốc độ so với các phương pháp khác như: AR, ARMA, ANFIS, NARX, SANN, MLR, T-Norm dựa trên ANFIS. 45
  5. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research Điều này đã được minh chứng trong phần kết quả thực nghiệm. Hướng phát triển của bài báo là đề xuất hệ ANFIS có khả năng tự nhận biết các trường hợp dị biệt và có khả năng chịu lỗi cao để kết quả dự báo không bị ảnh hưởng bởi các giá trị bất thường. Có thể thấy, các nghiên cứu trên chủ yếu sử dụng dữ liệu số để dự báo giá chứng khoán mà chưa xem xét đến sự tác động của các tin tức của tình hình tài chính, kinh tế, thế giới đến xu hướng biến động của giá chứng khoán. 2.2. Tổng quan nghiên cứu nước ngoài Lĩnh vực sử dụng kỹ thuật học máy để dự báo xu hướng thị trường chứng khoán không chỉ xuất hiện trong những nghiên cứu trong nước mà còn thu hút được sự quan tâm của cộng đồng nghiên cứu trên thế giới, như: Arman Khadjeh Nassirtoussi và cộng sự (2014) đã tổng kết những công trình gần đây về việc áp dụng text mining để dự báo thị trường, trong đó hầu hết các hệ thống được đề xuất trong các công trình nghiên cứu đều theo kiến trúc như sau: Hình 1: Sơ đồ các thành phần chính của hệ thống dự báo thị trường Nguồn: Nhóm nghiên cứu tổng hợp 46
  6. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research Về các công trình sử dụng kỹ thuật khai phá văn bản để dự báo các chỉ số chứng khoán, có thể kể đến một số nghiên cứu sau: Tien Thanh Vu và cộng sự (2012) đã khai phá các tính năng từ tin nhắn Twitter để nắm bắt tâm trạng của công chúng liên quan cho bốn công ty công nghệ để dự đoán biến động giá lên và xuống hàng ngày của cổ phiếu NASDAQ của các công ty này. Nghiên cứu đề xuất một mô hình mới kết hợp các tính năng cụ thể là phân tích tâm lý tích cực, tâm lý tiêu cực và niềm tin của người tiêu dùng vào sản phẩm liên quan đến các từ “tăng giá” hoặc “giảm giá” và ba ngày vận động thị trường chứng khoán trước đó. Các tính năng được sử dụng trong bộ phân loại Cây quyết định bằng cách sử dụng xác thực nhiều lần để mang lại độ chính xác 82,93%, 80,49%, 75,61% và 75,00% trong việc dự đoán những thay đổi lên xuống hàng ngày của Apple (AAPL), Google (GOOG), cổ phiếu của Microsoft (MSFT) và Amazon (AMZN) tương ứng trong mẫu 41 ngày thị trường. Hình 2: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter Nguồn: Nhóm nghiên cứu tổng hợp 47
  7. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research G. Pui Cheong Fung và cộng sự (2003), đã đề xuất kết hợp hai phương pháp là khai phá dữ liệu văn bản và chuỗi thời gian dựa trên giả thuyết thị trường hiệu quả (Eficient Market Hypothesis), giúp đưa ra cái nhìn khái quát hơn về thị trường chứng khoán. Tới năm 2004, Marc-André Mittermayer thực hiện nghiên cứu dựa trên các bài báo và dữ liệu giá cổ phiếu năm 2002 của NewsCATS. Kết quả cho thấy việc phân loại các bài báo có thể cung cấp thông tin bổ sung và có khả năng được sử dụng để dự báo xu hướng giá cổ phiếu. Robert P. Schumaker và Hsinchun Chen (2009) đã sử dụng dữ liệu của 9.211 bài báo tin tức tài chính và 10.259.042 báo giá chứng khoán, bao gồm các cổ phiếu S&P 500 trong thời gian 5 tuần. Bằng phương pháp khai phá dữ liệu văn bản, nhóm tác giả cũng đưa ra kết luận với độ chính xác khoảng 57%. Johan Bollena, Huina Maoa và Xiaojun Zeng, (2011) đã thu được một tập hợp các bài đăng công khai được ghi lại từ ngày 28/02 đến ngày 19/12/2008, bao gồm 9.853.498 bài được đăng và khoảng 2,7 triệu người theo dõi. Họ phân tích nội dung văn bản của nguồn dữ liệu Twitter hàng ngày bằng hai công cụ theo dõi tâm trạng, là đo lường trạng thái tích cực so với tiêu cực (Opinion Finder) và đo lường tâm trạng theo sáu chiều (Calm, Alert, Sure, Vital, Kind, và Happy). Kết quả cho thấy sự biểu hiện tâm trạng thông qua các bài đăng trên Twitter có ảnh hưởng tới thị trường chứng khoán. Hiện nay trên thế giới đã có một số công trình nghiên cứu ứng dụng khai phá văn bản trong việc dự đoán thị trường chứng khoán cũng như biến động về giá. Tuy nhiên, ở phạm vi Việt Nam, các công trình nghiên cứu về dự báo thị trường chứng khoán chủ yếu tiếp cận phương pháp khai phá dữ liệu dựa trên dữ liệu số đơn thuần. Như vậy, có thể nói, việc sử dụng phương pháp khai phá văn bản đối với thị trường chứng khoán Việt Nam vẫn còn rất mới mẻ và sẽ đóng góp rõ rệt đối với lĩnh vực này. Trong các chương sau, nhóm nghiên cứu trình bày sơ lược các kỹ thuật khai phá văn bản và trình bày mô hình mới và các kết quả thử nghiệm. 3. PHƯƠNG PHÁP NGHIÊN CỨU 48
  8. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research Nghiên cứu sử dụng các mô hình học máy (Marchine Learning): Véc tơ hỗ trợ (SVM), Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forest), K-láng giềng (KNN) để dự báo biến động giá của thị trường chứng khoán Việt Nam Text- mining của các trang báo điện tử tại Việt Nam. Quy trình nghiên cứu cụ thể như sau: Nhóm nghiên cứu thu thập nguồn dữ liệu văn bản là các bài báo, tin tức từ 4 trang web tài chính nổi tiếng và nguồn dữ liệu số là chỉ số lịch sử giá của VN-INDEX từ trang: Investing.com sử dụng công cụ là thư viện Beautiful Soup của Python. Sau đó nghiên cứu tiến hành kết hợp tin tức văn bản đồng thời gán nhãn cho các bài báo theo 3 mức độ: tăng, giảm, không đổi, để phục vụ cho công tác nghiên cứu ở những bước tiếp theo. Nhóm nghiên cứu loại bỏ các ký tự gây nhiễu, từ dừng bằng việc sử dụng công cụ phân đoạn từ tiếng Việt Word_tokenizer của thư viện Underthesea - công cụ đạt tỷ lệ chính xác 90% trong việc mã hóa các câu tiếng Việt. Các văn bản tin tức sau khi được xử lý sẽ được đưa vào Lựa chọn đặc trưng. Ở bước này, nhóm nghiên cứu sử dụng phương pháp TF-DIF để lọc ra 1024 từ đặc trưng từ tập dữ liệu, là những từ đặc trưng nhất giúp các mô hình máy học từ việc dựa vào đó để đưa ra kết quả phân loại chính xác nhất. Các dữ liệu đó sẽ được đưa vào chương trình Huấn luyện trên 2 tập dữ liệu với tỷ lệ là 70:30. Sau khi được huấn luyện, nhóm nghiên cứu thực hiện Thử nghiệm mô hình để lựa chọn mô hình tối ưu và tập dữ liệu đầu vào tốt nhất, nhằm nâng cao được kết quả nghiên cứu. 49
  9. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research Hình 3: Quy trình nghiên cứu Nguồn: Nhóm nghiên cứu tổng hợp 4. KẾT QUẢ NGHIÊN CỨU Nhóm sử dụng các mô hình học máy: Decision Tree, Random Forrest, KNN và SVM để thử nghiệm các tập dữ liệu đầu vào. Mô hình có tỷ lệ chính xác cao sẽ được chọn làm mô hình tối ưu. Kết quả thu được như sau: Bảng 1: Kết quả thử nghiệm mô hình tối ưu Thuật toán/ Mô hình Tỷ lệ chính xác Cây quyết định 51,23% Random Forest 52,73% K-Láng Giềng 51,38% Máy Vector Hỗ trợ (SVM) 52,8% Từ kết quả trên, ta có thể thấy kết quả của mô hình SVM là đạt tỷ lệ chính xác cao nhất với 52,8%. Trong các phần thử nghiệm tiếp theo nhóm sẽ sử dụng mô hình SVM trong dự báo chỉ số giá VN-index (dự báo Thị trường chứng khoán Việt Nam). Bảng 2: Kết quả thử nghiệm tập dữ liệu đầu vào tốt nhất Từ ngày Đến ngày Số mẫu Kết quả Vietstock 2016-2021 09/02/2021 1.274 55,87% Vnexpress 24/02/2001 11/02/2021 3.408 53,37% Thanhnien 28/01/2013 12/02/2021 3.784 53,52% Cafef 15/10/2008 04/02/2021 3.065 53,48% Nguồn: Nhóm nghiên cứu tổng hợp 50
  10. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research Với thử nghiệm sử dụng mô hình SVM để dự báo Chỉ số giá VN-Index bằng dữ liệu đầu vào trang báo điện tử Vietstock, kết quả cho thấy trang web mang lại kết quả cao nhất (55,87%). Chính vì vậy, chúng tôi lựa chọn dữ liệu đầu vào cho mô hình là các bài báo tài chính, kinh tế của trang báo điện tử Vietstock. Để nâng cao kết quả chương trình thử nghiệm, chúng tôi sử dụng kỹ thuật thay đổi các tham số C và Gamma. Nhóm thử nghiệm thay thế 2 tham số chính cho mô hình là C với các giá trị từ 0,1 đến 1000 và gamma từ 0.0001 đến 1 và kernel là 'rbf'. Kết quả tốt nhất thu được là 60,1%. Bảng 3: Kết quả nâng cao chương trình thử nghiệm Tham số cho mô hình Kết quả C=0,1 gamma=1 kernel='rbf 57,1% C=0,1 gamma=0,1 kernel='rbf 57,1% C=0,1 gamma=0,01 kernel='rbf 57,1% C=0,1 gamma=0,001 kernel='rbf 58,1% C=0,1 gamma=0,0001 kernel='rbf 57,1% C=1 gamma=1 kernel='rbf 57,6% C=1 gamma=0,1 kernel='rbf 58,1% C=1 gamma=0,01 kernel='rbf 57,1% C=1 gamma=0,001 kernel='rbf 57,1% C=1 gamma=0,0001 kernel='rbf 57,1% C=10 gamma=1 kernel='rbf 56,0% 51
  11. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research C=10 gamma=0,1 kernel='rbf 59,2% C=10 gamma=0,01 kernel='rbf 57,1% C=10 gamma=0,001 kernel='rbf 59,1% C=10 gamma=0,0001 kernel='rbf 57,1% C=100 gamma=1 kernel='rbf 56,3% C=100 gamma=0,1 kernel='rbf 55,2% C=100 gamma=0,01 kernel='rbf 60,1% C=100 gamma=0,001 kernel='rbf 57,1% C=100 gamma=0,0001 kernel='rbf 57,1% C=1000 gamma=1 kernel='rbf 56,3% C=1000 gamma=0,1 kernel='rbf 56,0% C=1000 gamma=0,01 kernel='rbf 56,0% C=1000 gamma=0,001 kernel='rbf 60,1% C=1000 gamma=0,0001 kernel='rbf 57,1% Nguồn: Nhóm nghiên cứu tổng hợp Sau khi thực hiện nâng cao kết quả thực nghiệm, kết quả nhận được khả thi hơn lần thử nghiệm đầu tiên. Các kết quả trên cho thấy rằng các tin tức về tài chính, chứng khoán trên các trang báo điện tử mà mỗi người dân Việt Nam xem mỗi ngày có ảnh hưởng đến Giá chứng khoán VN-Index. 5. KẾT LUẬN 52
  12. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research Trong thời đại hiện nay, sự phát triển về công nghệ thông tin đã kéo theo sự phát triển của rất nhiều lĩnh vực (trong đó có kinh tế, tài chính,…). Ngày nay con người không phải vất vả trong công cuộc thu thập dữ liệu vì đã có trợ thủ là hệ thống máy tính và mạng truyền số liệu triển khai ở quy mô toàn cầu. Tuy nhiên, sự thay đổi này lại làm cho chính những lượng thông tin trên tăng một cách chóng mặt. Có nhiều trang báo, trang thông tin mạng được đăng tải lên hàng ngày, hàng giờ. Các nhà đầu tư trên thị trường chứng khoán để hiểu biết về Thị trường, họ phải tìm kiếm thông tin hiệu quả, phân loại thông tin để nắm bắt Thị trường nhưng với một lượng thông tin quá lớn, đòi hỏi xử lí nhanh thì việc phân loại thủ công là điều không tưởng. Kỹ thuật sử dụng Học máy và ứng dụng Text-mining để tự động phân loại thông tin đã giúp ích cho con người rất nhiều. Trong nghiên cứu này, các tác giả đã khảo sát và tổng kết một số công trình về dự báo thị trường chứng khoán gần đây từ các phương pháp dựa vào dữ liệu số đơn thuần đến các phương pháp sử dụng khai phá văn bản. Sau đó nhóm đã đề xuất mô hình nghiên cứu và tiến hành thử nghiệm chương trình dự báo chỉ số VN-Index dựa vào các tin tức tiếng Việt được tải về từ các trang web tin tức phổ biến tại Việt Nam cũng như nghiên cứu các từ loại góp phần làm cho kết quả dự báo VN-Index tốt nhất. Nghiên cứu cũng tổng hợp cơ sở lý thuyết liên quan tới việc ứng dụng học máy dự báo biến động giá chứng khoán nhằm bổ sung cơ sở lý thuyết lĩnh vực. Sau khi thử nghiệm các kỹ thuật – mô hình phổ biến nhất hiện nay: Decision Tree, Random Forrest, KNN và SVM. Nhóm nghiên cứu quyết định lựa chọn sử dụng Support Vector Machines (SVM) cho bài toán dự báo thị trường chứng khoán, với một số lý do trên: + Số lượng các đặc trưng (kích thước không gian đặc trưng) của văn bản được phân loại không ảnh hưởng nhiều đến khả năng của hệ thống sử dụng SVM. + SVM có khả năng phân loại tốt trong tập dữ liệu kiểm tra mà không cần có tập dữ liệu huấn luyện quá lớn. 53
  13. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research + SVM đã được dùng nhiều trong các công trình khoa học đã công bố về áp dụng khai phá văn bản dự báo thị trường chứng khoán và được chứng minh có kết quả tốt. Kết quả thử nghiệm lần 1 cho thấy SVM đạt mức độ chính xác cao nhất với 52,8%. Để cải tiến mô hình đạt độ tin cậy cao hơn, nhóm nghiên cứu đã thử nghiệm lần 2 với tập dữ liệu riêng lẻ của các trang báo và cuối cùng đã chọn lựa được tập dữ liệu đầu mang kết quả tốt nhất từ trang báo điện tử Vietstock. Việc thay đổi phạm vi tập dữ liệu, nhóm nghiên cứu đã dự báo xu hướng giá của chỉ số VN-INDEX có thể đạt tỷ lệ chính xác đến 60,1%. Điều này chứng tỏ rằng các tin tức về tình hình tài chính, chứng khoán trên các báo chí phổ thông gây ảnh hưởng đến xu hướng giá cả của chỉ số VN-INDEX. Kết quả dự báo của mô hình trong bài nghiên cứu là một nguồn tham khảo khách quan và có giá trị cho các nhà quản lý và nhà đầu tư trong các quyết định của mình trên thị trường chứng khoán. Tuy nhiên, kết quả dự báo của nghiên cứu chưa thật cao, theo nhóm nghiên cứu một phần là do tính biến động khó lường của thị trường chứng khoán, cũng một phần do độ trễ của dữ liệu tin tức. Ngoài ra, mô hình trong nghiên cứu có thể được sử dụng trong các hệ thống khác như dự báo tỉ giá, phân tích quan điểm trong các bản nhận xét sản phẩm, dự báo giá vàng, phân loại tin tức theo chủ đề, phân loại email, trang tin tức tùy biến theo ngữ cảnh,… TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt 1. Nguyễn Thị Hải Yến (2007), “Phân lớp bán giám sát và ứng dụng thuật toán SVM vào phân lớp trang web”, Khoá luận tốt nghiệp, Đại học quốc gia Hà Nội, Đại học Công nghệ. 2. L. C. M. Hồ Tú Bảo (2017), “Về xử lý tiếng Việt trong công nghệ thông tin”, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Tiên tiến Nhật Bản. 54
  14. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research 3. Phạm Quốc Hùng (2013), “Nghiên cứu ứng dụng kỹ thuật học máy để dự đoán chứng khoán bằng ngôn ngữ R”, Luận văn Thạc sĩ, Đại học Quốc gia Hà Nội, Trường Đại học Công nghệ. 4. Nguyễn Thị Lan Anh (2015), “Nghiên cứu thuật toán học máy SVM và ứng dụng trong bài toán khai phá ý kiến phản hồi của khách hàng trên web”, Luận văn thạc sĩ, Học viện Công nghê Bưu chính Viễn thông. 5. Vũ Hữu Dũng (2013), “Ứng dụng khai phá dữ liệu trong dự báo biến động thị trường chứng khoán Việt Nam”, LVThs CNTT, Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội. 6. Nguyễn Hữu Bình (2020), “Thị trường chứng khoán Việt Nam: Sự trưởng thành sau 20 năm hình thành và phát triển”, Nghiên cứu, Trường Đại học Lao động – Xã hội. 7. Phạm Thành Phước (2013), “Mạng neural và ứng dụng trong dự báo giá chứng khoán tại trung tâm giao dịch chứng khoán TP. Hồ Chí Minh”, Luận văn Thạc sĩ, Học viện Công nghệ Bưu chính Viễn thông. 8. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2011), Giáo trình Khai phá dữ liệu web, Nhà XB GD VN. 9. Đặng Thị Quỳnh Mai (2015), “Tác động của yếu tố kinh tế vĩ mô đến chỉ số giá Chứng khoán VN-Index”, Luận văn Thạc sĩ, Đại học Tài chính – Marketing. Tài liệu tiếng Anh 1. Cady, Field. “Machine Learning Overview”, The Data Science Handbook. Hoboken, NJ, USA: John Wiley & Sons, 2017. 87-91. Web. 2. Raschka, Sebastian; Mirajalili, Vahid. Python Machine Learning: Machine Learning and Deep Learning with Python, Scikit-learn, and Tensor Flow. Packt, 2020. Web. 55
  15. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research 3. Dao, Ly Na, Tran, Duc Quynh, and VNU– International School. Application of Machine Learning to Predict the Success of Telemarketing. H.: VNU, 2020. Web. 4. Murdoch, W., Chandan Singh, Karl Kumbier, Reza Abbasi-Asl, and Bin Yu. "Interpretable Machine Learning: Definitions, Methods, and Applications." ArXiv.org 116.44 (2019): 22071-22080. Web. 5. M. K. C. Dr. P. K. Sahoo (2019), "Stock Price Prediction Using Regression Analysis", International Journal of Scientific & Engineering Research, Vol. 6, No. 3 6. Nikfarjam, A.; Emadzadeh, E.; Muthaiyah, S. (2010), “Text mining approaches for stock market prediction”, Computer and Automation Engineering (ICCAE), 2010 The 2nd International Conference on, Vol. 4, 26-28 Feb. 2010, Singapore, IEEE, pp.256- 260. 7. T. Joachims (1999), Transductive Inference for Text Classification using Support Vector Machines. International Conference on Machine Learning (ICML), 1999. 8. Aas, K., & Eikvil, L. (1999), Text categorisation: A survey. Technical report. Norwegian Computing Center. 9. D. Blei and J. Lafferty (2009), Topic models. Text Mining: Theory and Applications. 10. Fung, G. P. C., Yu, J. X., & Lam, W. (2002, May), News sensitive stock trend prediction. In Pacific-Asia Conference on Knowledge Discovery and Data Mining (pp. 481-493). Springer, Berlin, Heidelberg. 11. Kloptchenko, Antonina, Tomas Eklund, Jonas Karlsson, Barbro Back, Hannu Vanharanta, and Ari Visa, “Combining data and text mining techniques for analysing financial reports”, Intelligent Systems in Accounting, Finance and Management 12, no. 1 (2004): 29-41. 12. Meier, Marco, and Michael Beckh, “Text Mining”, Wirtschaftsinformatik 42.2 (2000): 165-67. Web. 56
  16. Chuyên mục Nghiên cứu Khoa học Sinh viên, Số 4 (Tháng 6/2021)/UEB Category of Student Scientific Research 13. Nassirtoussi, A.K. (2015). A multi-layer dimension reduction algorithm for text mining of news in forex / Arman Khadjeh Nassirtoussi. Tài liệu web 1. Báo điện tử Thanh Niên, http://www.thanhnien.com.vn/chung-khoan/ 2. Báo điện từ Tuổi Trẻ, http://tuoitre.vn/tin/kinh-te 3. Báo điện tử Vietstock, http://vietstock.vn/ 4. Báo điện tử Cafef, https://cafef.vn/ 5. Báo điện tử VNEXPRESS (05/2015), http://kinhdoanh.vnexpress.net/ 6. Báo cáo phân tích BVSC 7. Báo cáo phân tích SSI 8. Báo cáo phân tích VDSC 9. Thị trường chứng khoán Việt Nam: http://consosukien.vn/thi-truong-chung-khoan-viet-nam-su-truong-thanh-sau-20-nam- hinh-thanh-va-phat-trien.htm 11. Bộ dữ liệu từ điển tiếng Việt: http://www.informatik.uni- leipzig.de/~duc/Dict/ 12. Bộ gán nhãn từ Tiếng Việt: https://github.com/hakz/vntagger-gate- plugin.vntagger 57
nguon tai.lieu . vn