Xem mẫu

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00055 PHÂN TÍCH THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM BẰNG SỬ DỤNG LUẬT KẾT HỢP ÂM DƯƠNG MỞ RỘNG PHÂN BIỆT Đỗ Văn Thành1, Phạm Ngọc Lâm2 1 Khoa Công nghệ thông tin, Trƣờng Đại học Nguyễn Tất Thành 2 Khoa Hệ thống thông tin quản lý, Trƣờng Đại học Tài chính-kế toán dvthanh@ntt.edu.vn, pnlamqn@yahoo.com TÓM TẮT: Luật kết hợp âm dương như được hiểu từ trước đến nay có nhiều hạn chế để biểu diễn quan hệ của các đối tượng trong thế giới thực. Một dạng luật kết hợp tổng quát hơn được gọi là luật kết hợp âm dương mở rộng có thể vượt qua những hạn chế này. Nhưng không may, rất khó có thể xây dựng được thuật toán hiệu quả để phát hiện được tương đối đầy đủ những luật như vậy. Trong các luật kết hợp âm dương mở rộng, những luật ở đó vế phải chỉ gồm một mục dữ liệu dương hoặc âm được gọi là luật kết hợp âm dương mở rộng phân biệt có ý nghĩa ứng dụng rất cao trong kinh tế tài chính và việc sử dụng phát hiện các luật này có nhiều hứa hẹn trở thành giải pháp hiệu quả trong dự báo lớp cũng như trong việc lựa chọn tập con các biến đắt giá để giảm chiều dữ liệu. Thuật toán phát hiện các luật luật kết hợp âm dương mở rộng phân biệt từ các cơ sở dữ liệu tác vụ chỉ chứa các mục dữ liệu dương đã được chúng tôi đề xuất. Mục đích của bài báo này là trình bầy việc sử dụng phát hiện các luật kết hợp âm dương mở rộng phân biệt để phân tích quan hệ kết hợp của chỉ số chứng khoán VNINDEX với một số biến kinh tế - tài chính và chỉ số chứng khoán quốc tế khác. Các luật kết hợp phát hiện được cho thấy sự hạn chế của các luật kết hợp âm dương, sự phù hợp của chúng trong phân tích kết hợp thuộc lĩnh vực kinh tế - tài chính và quan hệ nhân quả được biểu diễn bằng các luật kết hợp âm dương mở rộng phân biệt có nhiều điểm tương đồng với quan hệ nhân quả Granger, đó là một trong những quan hệ được quan tâm sử dụng trong các phân tích kinh tế lượng vĩ mô. Từ khóa: Thị trường chứng khoán, phân tích kết hợp, luật kết hợp âm dương, luật kết hợp phân biệt, quan hệ nhân quả. I. GIỚI THIỆU Thị trƣờng chứng khoán là một kênh thu hút vốn đầu tƣ rất quan trọng của nền kinh tế. Phân tích và dự báo thị trƣờng chứng khoán luôn đƣợc quan tâm nghiên cứu và ứng dụng. Hiện tại đã hình thành rất nhiều kỹ thuật phân tích và dự báo thị trƣờng chứng khoán khác nhau [14, 18] bao gồm mạng nơron nhân tạo, mô hình Markov, hệ suy luận mờ (Neuro Fuzzy), giải thuật di truyền, phân tích chuỗi thời gian và phân tích chuỗi thời gian mờ, phƣơng pháp hồi quy, lý thuyết tập thô, phát hiện luật kết hợp,… cũng nhƣ sự kết hợp của một số kỹ thuật này trong phân tích và dự báo thị trƣờng chứng khoán. Phân tích kết hợp là nhằm tìm ra những mối quan hệ kết hợp giữa các biến và khi đó các luật kết hợp thƣờng đƣợc sử dụng [15]. Trong trƣờng hợp thị trƣờng chứng khoán, ngƣời ta sử dụng luật kết hợp để biểu diễn mối quan hệ về sự biến động giữa giá chung của thị trƣờng (hay chỉ số của thị trƣờng chứng khoán) với giá của các cổ phiếu đƣợc niêm yết trên thị trƣờng và các yếu tố trong nƣớc, ngoài nƣớc khác có tác động đến sự biến động của thị trƣờng này [11]. Có thể thấy rằng các luật kết hợp đƣợc sử dụng để phân tích kết hợp cho đến nay chỉ là các luật kết hợp dƣơng [2, 11-13, 15, 19, 21] hoặc các luật kết hợp âm dƣơng [3-7, 9-10, 16-17, 20]. Các luật kết hợp âm dƣơng tuy tổng quát hơn so với các luật kết hợp dƣơng nhƣng cũng có một số hạn chế trong việc thể hiện mối quan hệ của các đối tƣợng trong thế giới thực. Chẳng hạn, trong các thị trƣờng chứng khoán, thƣờng có hiện tƣợng là sự gia tăng lợi suất của một số cổ phiếu này và sự giảm lợi suất của một số cổ phiếu kia là nguyên nhân làm giảm lợi suất của một số cổ phiếu khác và làm tăng lợi suất của một số cổ phiếu khác nữa. Các luật kết hợp âm dƣơng nhƣ đƣợc hiểu cho đến nay là không thể biểu diễn đƣợc những hiện tƣợng nhƣ vậy. Chúng tôi đã đề xuất một loại luật kết hợp tổng quát hơn các luật kết hợp âm dƣơng nhƣ đƣợc hiểu từ trƣớc đến nay và chúng đƣợc gọi là luật kết hợp âm dƣơng mở rộng. Việc xây dựng một thuật toán khả thi và hiệu quả để phát hiện đƣợc các luật kết hợp âm dƣơng mở rộng là khó khăn và phức tạp. Thực tế chúng tôi đã đề xuất đƣợc một thuật toán phát hiện các luật nhƣ vậy và nó đang trong quá trình đƣợc lập trình thực nghiệm và đánh giá. Trong một nghiên cứu trƣớc đó, chúng tôi cũng đã tập trung phát triển thuật toán phát hiện các luật kết hợp âm dƣơng mở rộng ở đó vế phải của luật chỉ gồm một mục dữ liệu dƣơng hoặc mục dữ liệu với âm và đƣợc gọi là luật kết hợp âm dƣơng mở rộng phân biệt. Các luật nhƣ vậy rất có ý nghĩa ứng dụng trong thực tế xây dựng các mô hình dự báo trong đó nhất là trong việc lựa chọn tập con biến tối ƣu khi thực hiện kỹ thuật giảm chiều dữ liệu cũng nhƣ trong việc xây dựng thuật toán phân lớp các bộ dữ liệu đầu vào. Thuật toán dự báo phân lớp bằng sử dụng phát hiện các luật kết hợp âm dƣơng mở rộng phân biệt trên các tập dữ liệu lớn đã đƣợc chúng tôi thực nghiệm. Thuật toán này đã tích hợp việc giảm chiều dữ liệu, phát hiện luật kết hợp âm dƣơng mở rộng phân biệt, loại bỏ các luật kết hợp dƣ thừa và sử dụng các luật để dự báo lớp của các bộ dữ liệu đầu vào. Kết quả thực nghiệm thuật toán này trên một số tập dữ liệu liên tục (các biến nhận giá trị số) hoặc tập dữ liệu phân
  2. Đỗ Văn Thành, Phạm Ngọc Lâm 423 loại (các biến nhận giá trị phân loại) đã cho thấy tỷ lệ đƣợc phân lớp của các bộ dữ liệu đầu vào và độ chính xác phân lớp bằng sử dụng phát hiện các luật kết hợp kết hợp âm dƣơng mở rộng phân biệt nói chung là cao nhất khi so với bằng sử dụng phát hiện các luật kết hợp âm dƣơng nhƣ đƣợc hiểu đến nay và bằng sử dụng 13 thuật toán phân lớp nổi tiếng và thông dụng khác nhƣ: thuật toán cây quyết định C4.8, Rừng ngẫu nhiên (Random forest) và Cây ngẫu nhiên (Random tree); Bayes ngây thơ (NaiveBayes) và mạng Bayes (BayesNet), Mạng Nơron nhận thức đa tầng (Multilayer perceptron neural network); hồi quy logistic và máy Vector hỗ trợ với hàm hạt nhân là tuyến tính (SMO); thuật toán Adaboost; thuật toán phân lớp đa lớp; các thuật toán bảng quyết định (Decision Table), ZeroR và oneR. Để khẳng định luật kết hợp âm dƣơng mở rộng phân biệt là kỹ thuật dự báo lớp có giá trị chúng tôi cần tiếp tục thực nghiệm thuật toán này trên các tập dữ liệu lớn có cấu trúc khác nhau, bao gồm cả các tập dữ liệu cân bằng và không cân bằng. Mục đích của bài báo này trình bày kết quả ứng dụng thuật toán phát hiện luật kết hợp âm dƣơng mở rộng phân biệt để phân tích thị trƣờng chứng khoán Việt Nam, cụ thể là ứng dụng thuật toán để tìm các quan hệ kết hợp của các biến kinh tế-tài chính trong nƣớc và một số chỉ số chứng khoán quốc tế có tác động đến sự biến động của chỉ số VNINDEX. Yếu tố hay của các luật [15] cũng đƣợc xem xét để thấy rõ hơn mối quan hệ kết hợp và độ tin cậy của các kết luận đƣợc rút ra từ các luật kết hợp âm dƣơng mở rộng phân biệt phát hiện đƣợc. Cấu trúc của bài báo nhƣ sau: phần tiếp theo, trình bày khái niệm và phƣơng pháp phát hiện các luật kết hợp âm dƣơng mở rộng hay và không dƣ thừa; phần III giới thiệu tập dữ liệu nghiên cứu và việc phát hiện các luật kết hợp âm dƣơng mở rộng từ tập dữ liệu này; phần IV phân tích các luật kết hợp âm dƣơng mở rộng phát hiện đƣợc; phần V trình bầy một số thảo luận về nghiên cứu của bài báo này và phần VI cuối cùng gồm một số tài liệu tham khảo. II. PHƢƠNG PHÁP 2.1. Một số kiến thức chuẩn bị Phát hiện luật kết hợp đƣợc Agrawal và cộng sự đề xuất lần đầu năm 1993 và hiện nó đã trở thành một trong những lĩnh vực khai thác dữ liệu quan trọng nhất [1]. Khái niệm chung về các luật kết hợp truyền thống nhƣ sau: cho G = {X1, X2,…, Xn} là tập hợp tất cả các mục dữ liệu trong tập các giao dịch D. Một tập hợp các mục dữ liệu đƣợc gọi là tập mục dữ liệu (itemset). Số lƣợng các mục dữ liệu trong một tập mục dữ liệu là chiều dài của nó. T đƣợc gọi là giao dịch nếu T ⊆ G và đƣợc liên kết với một mã định danh duy nhất TID. Một giao dịch T đƣợc cho là chứa tập mục dữ liệu A nếu và chỉ khi A ⊆ T. Một luật kết hợp là một kéo theo dạng A => B, trong đó A ⊆ G, B ⊆ G và A ∩ B = ∅ [1]. Độ hỗ trợ của A, ký hiệu là Supp (A), là tỷ lệ giữa số lƣợng giao dịch trong D chứa A và tổng số lƣợng giao dịch trong D. Độ hỗ trợ của luật A => B, ký hiệu là Supp (A => B), bằng Supp (A ∪ B). Độ tin cậy của luật, ký hiệu là Conf (A => B), đƣợc xác định bởi Conf (A => B) = Supp (A ∪ B)/Supp (A). Độ hỗ trợ và độ tin cậy là hai tham số quan trọng của các thuật toán phát hiện các luật kết hợp. Nói chung, các tham số này đƣợc xác định bởi ngƣời sử dụng. Các luật kết hợp truyền thống đƣợc gọi là các luật kết hợp dƣơng [3-7, 9-10, 16-17, 19]. Vấn đề phát hiện các luật kết hợp dƣơng từ một tập các giao dịch D là tìm các luật kết hợp có độ hỗ trợ và độ tin cậy lớn hơn các ngƣỡng tối thiểu nhất định. Các luật kết hợp tìm đƣợc khi đó đƣợc gọi là luật kết hợp hiệu lực (valid). Một mục dữ liệu với âm đƣợc định nghĩa là ¬xi, có nghĩa là mục dữ liệu xi không xuất hiện trong giao dịch T. Độ hỗ trợ của ¬xi là Supp (¬xi) = 1 - Supp (xi), ở đây xi là một mục dữ liệu xuất hiện trong giao dịch và đƣợc gọi là một mục dữ liệu dƣơng [3-7, 9-10, 16-17, 20]. Luật kết hợp âm là luật ở đó vế trái hoặc vế phải của luật phải chứa ít nhất một mục dữ liệu với âm. Chí phí để tìm đƣợc các luật nhƣ vậy là rất đắt khi số lƣợng của các mục dữ liệu là lớn. Hiện tại ngƣời ta đã đề xuất đƣợc khá nhiều thuật toán tìm các luật kết hợp âm dƣơng từ các cơ sở dữ liệu tác vụ chỉ gồm các mục dữ liệu dƣơng [4-5, 7, 9-10, 12, 20, 22]. Đáng chú ý là ở tất cả các thuật toán này, luật kết hợp âm chỉ mới đƣợc xem xét ở một trong 3 dạng sau: ¬A => B, A => ¬B và ¬A => ¬B, trong đó A, B là các tập mục dữ liệu dƣơng và A ∩ B = ∅ [4-5,7, 9-10, 12, 20], ở đây ¬A là ký hiệu tập các mục dữ liệu trong A với âm. Và nhƣ vậy các thuật toán phát hiện các luật kết hợp âm dƣơng chỉ có thể tìm đƣợc các luật ở 4 dạng luật sau: A => B, ¬A => B, A => ¬B và ¬A => ¬B, trong đó A ∩ B = ∅. Một số khái niệm dƣới đây là cần thiết để hiểu rõ hơn về luật kết hợp âm dƣơng mở rộng và luật kết hợp âm dƣơng mở rộng phân biệt đƣợc trình bầy trong bài báo này. Định nghĩa 1: Luật kết hợp âm dƣơng mở rộng là luật kết hợp ở dạng r = ¬A ∪ B => ¬C ∪ D, trong đó ít nhất một trong hai tập ¬A hoặc B cũng nhƣ một trong hai tập ¬C hoặc D là khác rỗng và các tập mục dữ liệu dƣơng A, B, C và D là đôi một không giao nhau. Nhận xét: có thể thấy rằng nếu¬A = ¢, ¬C = ¢, B ≠ ¢ và D ≠ ¢ thì r là luật kết hợp dƣơng, và nếu (¬A ≠ ¢, ¬C = ¢, B = ¢ và D ≠ ¢) hoặc (¬A ≠ ¢, ¬C ≠ ¢, B = ¢ và D = ¢) hoặc (¬A = ¢, ¬C ≠ ¢, B ≠ ¢ và D = ¢) thì r là luật kết hợp âm. Nhƣng nếu ít nhất 3 trong số 4 tập hợp ¬A, ¬C, B và D khác rỗng thì r không phải là luật kết hợp dƣơng cũng nhƣ luật kết hợp âm.
  3. 424 PHÂN TÍCH THỊ TRƢỜNG CHỨNG KHOÁN VIỆT NAM BẰNG SỬ DỤNG LUẬT KẾT HỢP ÂM DƢƠNG… Định nghĩa 2: Luật kết hợp âm dƣơng mở rộng ¬A ∪ B => ¬C ∪ D đƣợc gọi là luật hiệu lực nếu (i) Supp(¬A ∪ B => ¬C ∪ D) ≥ minSup; (ii) Conf (¬A ∪ B ¬ ∪ ) ≥ minConf; (iii) Nếu X = ¬A thì không tồn tại X' ⊆ X sao cho Supp (¬X' ∪ B => ¬C ∪ D) ≥ minSup. Định nghĩa 3: Luật kết hợp âm dƣơng mở rộng phân biệt là luật kết hợp âm dƣơng mở rộng mà vế phải của luật chỉ có đúng một mục dữ liệu dƣơng hoặc mục dữ liệu này với âm. Định nghĩa 4: [12]: Giả sử r1, r2 là các luật kết hợp âm dƣơng mở rộng, r1 đƣợc cho là có độ ƣu tiên cao hơn r2 (ký hiệu là ≽) nếu: 1) Độ tin cậy của r1 lớn hơn của r2, hoặc 2) Độ tin cậy của chúng là nhƣ nhau, nhƣng độ hỗ trợ của r1 lớn hơn r2, hoặc 3) Cả hai độ tin cậy và độ hỗ trợ của r1 và r2 đều nhƣ nhau, nhƣng r1 đƣợc sinh ra sớm hơn r2. Quan hệ “≽” đƣợc sử dụng để sắp xếp các luật kết hợp mở rộng. Nhƣ đã biết trong phần lớn các trƣờng hợp của tập dữ liệu đầu vào, để phát hiện đƣợc các luật kết hợp âm thì nói chung độ hỗ trợ minSup cần phải đủ nhỏ và khi đó số lƣợng các luật kết hợp hiệu lực là rất lớn thậm chí ngay cả khi độ tin cậy cực tiểu minConf là rất cao. Vì thế vấn đề loại bỏ các luật kết hợp kém ý nghĩa sử dụng hơn các luật khác (đƣợc gọi là các luật dƣ thừa) ngay trong quá trình phát hiện luật kết hợp âm dƣơng mở rộng hiệu lực cần phải đƣợc đặt ra. Các luật kết hợp dƣ thừa đƣợc định nghĩa nhƣ sau: Định nghĩa 5: Luật kết hợp âm dƣơng mở rộng hiệu lực r = A => B đƣợc gọi là luật dƣ thừa nếu tồn tại một luật kết hợp âm dƣơng mở rộng hiệu lực khác C => B sao cho C A, trong đó A ∈ {X1, ¬X1}, C ∈ { X2, ¬X2}, Xi (i = 1, 2) ⊆ G. 2.2. Thuật toán phát hiện luật kết hợp âm dƣơng mở rộng phân biệt Để phát hiện các luật kết hợp âm dƣơng cũng nhƣ các luật kết hợp âm dƣơng mở rộng từ các cơ sở dữ liệu tác vụ ngƣời ta có thể thực hiện bằng cách bổ sung vào các tác vụ của cơ sở dữ liệu này những mục dữ liệu với âm nếu nhƣ các mục dữ liệu này trƣớc đó chƣa đƣợc xuất hiện trong tác vụ và sau đó sử dụng các thuật toán phát hiện luật kết hợp truyền thống đã biết. Nhƣng phƣơng pháp này một mặt chỉ thực hiện đƣợc khi số mục dữ liệu trong cơ sở dữ liệu tác vụ là khá nhỏ, khi số lƣợng các mục dữ liệu là lớn thì phƣơng pháp này là không thể thực hiện vì độ phức tạp tính toán là cực lớn và mặt khác không tận dụng và thể hiện đƣợc mối quan hệ của tập mục dữ liệu dƣơng và tập mục dữ liệu này với âm. Các công trình [4-5, 7, 9-10, 12, 20] đã cố gắng xây dựng thuật toán phát hiện các luật kết hợp âm dƣơng chỉ từ các cơ sở dữ liệu tác vụ dƣơng (chỉ chứa các mục dữ liệu dƣơng). Những thuật toán nhƣ vậy nói chung là rất phức tạp. Và đối với các luật kết hợp âm dƣơng mở rộng theo các định nghĩa 2, 4 ở trên thì cho đến nay vẫn chƣa có bất kỳ một nghiên cứu nào về thuật toán phát hiện những luật nhƣ vậy đƣợc công bố. Việc giảm chiều dữ liệu khi xây dựng mô hình dự báo biến đích theo các biến gốc đầu vào (là biến liên tục hoặc biến phân loại) cũng nhƣ việc thực hiện dự báo phân lớp bằng sử dụng các luật kết hợp âm dƣơng mở rộng cho thấy trong các luật âm dƣơng mở rộng thì các luật dạng ¬A ∪ B => {y} hoặc ¬A ∪ B => {¬y}, ở đây y A, B và A ∩ B = ∅ là hay đƣợc sử dụng nhất, trong đó y đƣợc gọi là biến đích, nó nhận giá trị là {0, 1}. Khi biến này nhận giá trị 1 ta xem biến là mục dữ liệu dƣơng và ngƣợc lại khi biến nhận giá trị 0, nó đƣợc xem là mục dữ liệu với âm. Và tƣơng tự nhƣ vậy các mục dữ liệu dƣơng và mục dữ liệu với âm ở vế trái của luật thực chất là liên quan đến các biến gốc. Thuật toán phát hiện các luật kết hợp âm dƣơng mở rộng phân biệt là khá phức tạp nên đƣợc bỏ qua không trình bầy trong bài báo này. 2.3. Tính hay của luật kết hợp âm dƣơng mở rộng Nhƣ đã biết minSup và minConf là hai tham số quan trọng để tìm các luật kết hợp dƣơng hiệu lực (valid), trong đó minConf thể hiện độ tin cậy và sức mạnh của luật. Tuy nhiên ngƣời ta cũng nhận thấy rằng trong một số trƣờng hợp vẫn bỏ sót những luật kết hợp có giá trị vì trong công thức tính độ tin cậy của luật đã không tính đến tập mục dữ liệu ở bên phải của luật. Để vƣợt qua hạn chế này, ngƣời ta đề xuất độ đo ký hiệu là Lift(A => B) đƣợc xác định nhƣ sau: Lift(A => B) = Conf(A => B)/Supp(B) Khi các biến là biến nhị phân (hay cơ sở dữ liệu tác vụ với các mục dữ liệu dƣơng và mục dữ liệu với âm) thì độ đo Lift(A => B) trở thành độ đo tính hay (interest factor) của luật [15], cụ thể là: Lift(A => B) = { trong đó hệ số tƣơng quan giữa 2 tập mục dữ liệu A, B đƣợc xác định nhƣ sau:
  4. Đỗ Văn Thành, Phạm Ngọc Lâm 425 ( ∪ ) (¬ ∪ ¬ ) (¬ ∪ ) ( ∪¬ ) ( ) . Khi , A và B đƣợc nói là không tƣơng quan √ ( )( ( )) ( )( ( )) với nhau, khi , A và B đƣợc nói là tƣơng quan âm, và A, B là tƣơng quan dƣơng . Độ đo Lift(A => B) đƣợc sử dụng để đánh giá tính hay của các luật kết hợp âm dƣơng mở rộng phân biệt. III. PHÁT HIỆN LUẬT KẾT HỢP ÂM DƢƠNG MỞ RỘNG PHÂN BIỆT 3.1. Tập dữ liệu nghiên cứu Chỉ số chứng khoán phản ánh thực trạng phát triển chung của thị trƣờng chứng khoán. Sự biến động của chỉ số này chịu tác động bởi rất nhiều yếu tố cả trong cũng nhƣ ngoài nƣớc. Các yếu tố trong nƣớc là các yếu tố phản ánh về tình hình sản xuất, tăng trƣởng và lạm phát của nền kinh tế cũng nhƣ phản ánh sự biến động và hiệu quả của một số loại hình đầu tƣ quan trọng khác nhƣ vàng, đô la,... Các yếu tố ngoài nƣớc có tác động mạnh đến thị trƣờng chứng khoán thƣờng là giá thế giới của một số nguyên liệu đầu vào cơ bản của nền kinh tế và sự biến động của thị trƣờng tài chính thế giới, trong đó nhất là thị trƣờng chứng khoán ở một số cƣờng quốc về kinh tế. Thực trạng biến động của các biến kinh tế - tài chính ở những kỳ trƣớc đó luôn có ảnh hƣởng không nhỏ đến sự biến động của chúng trong tƣơng lai. Điều đó hàm ý rằng khi nghiên cứu, phân tích quan hệ của chỉ số chứng khoán VNINDEX với những biến kinh tế, tài chính khác cần thiết phải xem xét đến quá khứ của các biến này và chúng đƣợc gọi là biến trễ. Cụ thể, giả sử X = X(t) là biến phụ thuộc vào thời gian t; biến Z=X(t-k), k≥1 đƣợc gọi là biến trễ k-bƣớc của biến X (và thƣờng đƣợc ký hiệu là X(-k)). Trong bài báo này các biến trễ 1-bƣớc của tất cả các biến đều đƣợc đƣa vào để nghiên cứu và phân tích. Các biến đƣợc sử dụng để nghiên cứu quan hệ kết hợp của chúng với chỉ số VNINDEX đƣợc mô tả tóm tắt trong Bảng 1 ở dƣới, trong đó dữ liệu của các biến kinh tế - tài chính nhƣ EXP, CPI, USD, GOLD đƣợc thu thập theo tháng từ tháng 1/2010-4/2016; Dữ liệu của VNI, OIL, NAS, S&P, NIK đƣợc thu thập theo ngày từ 4/01/2010 đến 30/4/2016, sau đó đƣợc tính trung bình theo tháng để trở thành dữ liệu theo tháng. Các biến trễ 1- bƣớc của các biến đƣợc lựa chọn khi đó chỉ nhận đƣợc dữ liệu từ tháng 2/2010 đến tháng 4/2016, tức chúng bao gồm 75 quan sát. Bảng 1. Tập biến nghiên cứu STT Tên Biến Tên biến Nội dung phản ánh Nguồn (viết gọn) 1 VNI Lợi suất của chỉ số chứng khoán Lợi suất chung của toàn thị trƣờng www.cophieu68.vn VNINDEX 2 EXP Tốc độ tăng xuất khẩu theo tháng của Tình hình phát triển sản xuất trong www.gso.gov.vn Việt Nam nƣớc 3 CPI Tốc độ tăng chỉ số giá tiêu dùng so với Tình trạng lạm phát của nền kinh tế www.gso.gov.vn tháng trƣớc 4 GOLD Tốc độ tăng chỉ số giá vàng so với tháng Tình trạng lạm phát của sản phẩm www.gso.gov.vn trƣớc đầu tƣ thay thế 5 USD Tốc độ tăng chỉ số giá đô la so với tháng Tình trạng lạm phát của sản phẩm www.gso.gov.vn trƣớc đầu tƣ thay thế 6 OIL Tốc độ tăng giá thế giới về dầu thô Giá thế giới của những nguyên liệu www.forecasts.org đầu vào cơ bản của nền kinh tế 7 NAS Lợi suất của chỉ số chứng khoán Lợi suất chung của thị trƣờng dịch vụ www.forecasts.org NASDAD tài chính đa quốc gia 8 S&P Lợi suất của chỉ số chứng khoán Lợi suất chung của đầu tƣ vào 500 www.forecasts.org S&P500 công ty hàng đầu 9 NIK Lợi suất của chỉ số chứng khoán Lợi suất chung của thị trƣờng chứng www.forecasts.org NIKKEI225 khoán Nhật Bản 10-18 X(-1) Trễ 1 bƣớc của biến X, trong đó X là Là biến X đƣợc trễ một bƣớc. một trong 9 biến đƣợc nêu ở trên 3.2. Phát hiện luật kết hợp âm dƣơng mở rộng phân biệt Để phát hiện đƣợc các luật kết hợp âm dƣơng mở rộng phân biệt, ta phải chuyển tập dữ liệu dạng số thành tập dữ liệu ở dạng giao dịch. Khi đó mỗi quan sát trở thành một giao dịch và tên biến chỉ xuất hiện trong giao dịch nếu giá trị của biến là dƣơng trong giao dịch đó. Bảng 2 dƣới đây là minh họa cho sự chuyển đổi này.
  5. 426 PHÂN TÍCH THỊ TRƢỜNG CHỨNG KHOÁN VIỆT NAM BẰNG SỬ DỤNG LUẬT KẾT HỢP ÂM DƢƠNG… Bảng 2. Chuyển đổi tập dữ liệu số sang dạng giao dịch Obs Tập dữ liệu ở dạng số VNI EXP CPI OIL GOLD USD NAS NIK S&P Feb-10 -0.01619 -0.26838 0.007809 -0.03104 -0.33589 -0.04965 0.076466 0.048782 0.057742 Mar-10 0.038896 0.50544 0.009216 0.061243 0.339139 0.057653 0.048039 0.043881 0.039295 Apr-10 0.014092 -0.02454 -0.00209 0.061015 -0.0217 -0.01516 -0.06321 -0.09298 -0.06035 May-10 -0.012 0.156564 -0.00169 -0.1022 0.012921 -0.01854 -0.03622 -0.03147 -0.03706 VNI(-1) EXP(-1) CPI(-1) OIL(-1) GOLD(-1) USD(-1) NAS(-1) NIK(-1) S&P(-1) Feb-10 0.038896 0.50544 0.009216 0.061243 0.339139 0.057653 0.048039 0.043881 0.039295 Mar-10 0.014092 -0.02454 -0.00209 0.061015 -0.0217 -0.01516 -0.06321 -0.09298 -0.06035 Apr-10 -0.012 0.156564 -0.00169 -0.1022 0.012921 -0.01854 -0.03622 -0.03147 -0.03706 May-10 -0.01472 0.000913 -0.00328 -0.01076 -0.02352 -0.00312 -0.01117 -0.03364 -0.00329 TID Tập dữ liệu ở dạng giao dịch 1 CPI, NAS, NIK, S&P, VNI(-1), EXP(-1), CPI(-1), OIL(-1), GOLD(-1), USD(-1), NAS(-1), NIK(-1), S&P(-1) 2 VNI, EXP, CPI, OIL, GOLD, USD, NAS, NIK, S&P, VNI(-1), OIL(-1) 3 VNI, OIL, EXP(-1), GOLD(-1) 4 EXP, GOLD, EXP(-1) Áp dụng thuật toán phát hiện luật kết hợp âm dƣơng mở rộng phân biệt trên tập dữ liệu giao dịch gồm 75 giao dịch với minSupp = 0.11 và minConf = 0.98, ta sẽ nhận đƣợc 40 luật kết hợp âm dƣơng mở rộng phân biệt và không dƣ thừa biểu diễn quan hệ kết hợp của chỉ số chứng khoán VNI với các biến kinh tế - tài chính và một số chỉ số chứng khoán quốc tế đƣợc chọn trong Bảng 3. Bảng 3. Tập các luật âm dƣơng mở rộng phân biệt và không dƣ thừa (minSupp = 0.11, minConf =0.98) 1. {EXP,¬VNI(-1),NIK(-1}=>{¬VNI}(0.176,1.0,1.85) 21. {CPI,¬VNI(-1), NIK(-1)}=>{¬VNI}(0.122,1.0,1.85) 2. {¬EXP, EXP(-1),¬NIK(-1)}=>{VNI}(0.149,1.0,2.18) 22. {EXP,¬USD,¬VNI(-1),¬USD(-1)} 3. {S&P,VNI(-1),¬NIK(-1)}=>{VNI}}(0.149,1.0,2.18) =>{¬VNI}(0.122,1.0,1.85) 4. {¬VNI(-1), OIL(-1), NIK(-1)}=>{¬VNI}}(0.149,1.0,1.85) 23. {CPI,EXP(-1),CPI(-1),NIK(-1)}=>{¬VNI}(0.122,1.0,1.85) 5. {GOLD, S&P,¬NIK(-1)}=>{VNI}(0.135,1.0,2.18) 24. {CPI,EXP(-1),NAS(-1),NIK(-1)} =>{¬VNI}(0.122,1.0,1.85) 6. {NAS,S&P,VNI(-1),¬S&P(-1)}=>{VNI}(0.135,1.0,2.18) 25. {EXP,USD,S&P,NIK(-1),S&P(-1)} =>{¬VNI} 7. {EXP,¬CPI,¬VNI(-1),¬CPI(-1)}=>{¬VNI} (0.135,1.0,1.85) (0.122,1.0,1.85) 8. {EXP, ¬VNI(-1), EXP(-1),¬GOLD(-1)}=>{¬VNI} 26. {CPI,GOLD,¬NIK(-1)} => {VNI}(0.108,1.0,2.18) (0.135,1.0,1.85) 27. {OIL,VNI(-1),¬NAS(-1)}=>{VNI}(0.108,1.0,2.18) 9. {¬EXP,GOLD,¬NIK(-1)}=>{VNI}(0.122,1.0,2.18) 28. {GOLD,NAS ¬NAS(-1)}=>{VNI}(0.108,1.0,2.18) 10. {NAS,VNI(-1),¬NAS(-1)}=>{VNI}(0.122,1.0,2.18) 29. {GOLD,S&P,¬S&P(-1)}=>{VNI}(0.108,1.0,2.18) 11. {VNI(-1),¬CPI(-1),¬NIK(-1)}=>{VNI}(0.122,1.0,2.18) 30. {GOLD,VNI(-1),¬GOLD(-1)} => {VNI} (0.108,1.0,2.18) 12. {VNI(-1),¬CPI(-1),¬S&P(-1)}=>{VNI}(0.122,1.0,2.18) 31. {GOLD,VNI(-1),¬NAS(-1)}=>{VNI} (0.108,1.0,2.18) 13. {VNI(-1),¬GOLD(-1),¬NIK(-1)}=> {VNI} (0.122,1.0,2.18) 32. {S&P,VNI(-1),¬NAS(-1)}=>{VNI} (0.108,1.0,2.18) 14. {VNI(-1),¬NAS(-1),¬NIK(1)}=>{VNI}(0.122,1.0,2.18) 33. {CPI,USD,NIK(-1)}=>{¬VNI} (0.108,1.0,1.85) 15. {VNI(-1),¬NAS(-1),¬S&P(-1)}=>{VNI}(0.122,1.0,2.18) 34. {NIK,S&P,VNI(-1),¬S&P(-1)}=> {VNI}(0.108,1.0,2.18) 16. {EXP,¬CPI,¬VNI(-1),¬GOLD(-1)}=>{¬VNI}(0.122,1.0,1.85) 35. {EXP,¬OIL,¬VNI(-1),¬CPI(-1)}=> {¬VNI} 17. {EXP, ¬OIL, ¬VNI(-1),¬GOLD(-1)} (0.108,1.0,1.85) =>{¬VNI}(0.122,1.0,1.85) 36. {EXP,¬GOLD,NAS,EXP(-1)}=>{¬VNI} (0.108,1.0,1.85) 18. {EXP,¬GOLD,EXP(-1),¬GOLD(-1)}=>{¬VNI}(0.122,1.0,1.85) 37. {EXP,USD,NAS,EXP(-1)}=> {¬VNI} (0.108,1.0,1.85) 19. {EXP,USD,NAS,USD(-1)}=>{¬VNI}(0.122,1.0,1.85) 38. {EXP,USD,NIK,USD(-1)}=>{¬VNI}(0.108,1.0,1.85) 20. {EXP,¬VNI(-1),¬USD(-1)} =>{¬VNI}(0.122,1.0,1.85) 39. {EXP,USD,S&P,USD(-1)}=>{¬VNI (0.108,1.0,1.85) 40. {EXP,NIK,EXP(-1),NAS(-1)}=>{¬VNI}(0.108,1.0,1.85) Các luật kết hợp trong bảng này đƣợc viết dƣới dạng A => B( ), ở đây các tham số tƣơng ứng là độ hỗ trợ, độ tin cậy và giá trị đo tính hay của luật. Các luật đƣợc sắp xếp theo các tiêu chí lần lƣợt là: độ tin cậy, độ hỗ trợ và tính hay của luật. IV. PHÂN TÍCH Ý NGHĨA CỦA LUẬT Bảng 4 giải thích ý nghĩa của 5 luật đầu tiên. Các luật khác cũng đƣợc giải thích theo cách tƣơng tự.
  6. Đỗ Văn Thành, Phạm Ngọc Lâm 427 Bảng 4. Ý nghĩa của các luật kết hợp âm dƣơng mở rộng phân biệt Luật Ý nghĩa 1. {EXP,¬VNI(-1),NIK(-1}=>{¬VNI}(0.176,1.0,1.85) Nếu kim ngạch xuất khẩu ở tháng này là tăng và ở tháng trƣớc lợi suất của VNINDEX không dƣơng và của NIKKEI225 là dƣơng thì lợi suất của VNINDEX ở tháng này cũng không dƣơng, với độ hỗ trợ là 17.6%, độ tin cậy là 100% và tính hay của luật 1.85 hay tƣơng quan giữa tập vế trái và vế phải của luật là tƣơng quan dƣơng. 2. {¬EXP, EXP(-1),¬NIK(-1)}=>{VNI}(0.149,1.0,2.18) Nếu kim ngạch xuất khẩu ở tháng này không tăng, nhƣng ở tháng trƣớc là tăng và lợi suất của NIKKEI225 ở tháng trƣớc không dƣơng thì lợi suất của VNINDEX ở tháng này sẽ dƣơng, với độ hỗ trợ là 14.9%, độ tin cậy là 100% và tính hay của luật là 2.18. 3. {S&P,VNI(-1),¬NIK(-1)}=>{VNI}}(0.149,1.0,2.18) Nếu lợi suất của S&P500 ở tháng này và của VNINDEX ở tháng trƣớc là dƣơng và lợi suất của NIKKEI225 ở tháng trƣớc không dƣơng thì lợi suất của VNINDEX tháng này sẽ dƣơng, với độ hỗ trợ là 14.9%, độ tin cậy là 100% và tính hay là 2.18. 4. {¬VNI(-1), OIL(-1), NIK(-1)}=>{¬VNI}}(0.149,1.0,1.85) Nếu ở tháng trước: lợi suất của VNINDEX không dƣơng, của NIKKEI225 là dƣơng và giá dầu thô không tăng thì ở tháng này lợi suất của VNINDEX sẽ không dƣơng, với độ hỗ trợ 14.9%, độ tin cậy là 100% và tính hay là 1.85. 5. {GOLD, S&P,¬NIK(-1)}=>{VNI}(0.135,1.0,2.18) Nếu ở tháng này giá vàng tăng, lợi suất của S&P500 là dƣơng và ở tháng trƣớc lợi suất của NIKKEI225 không dƣơng thì ở tháng này lợi suất của VNINDEX sẽ dƣơng, với độ hỗ trợ là 13.5%, độ tin cậy 100% và tính hay là 2.18. Bảng 4 cho thấy các luật kết hợp âm dƣơng nhƣ đƣợc hiểu từ trƣớc đến nay chỉ gồm các 9 luật, chiếm 22.5% trong tổng số các luật âm dƣơng mở rộng phân biệt phát hiện đƣợc. Đó là các luật số 19, 23, 24, 25, 33, 37, 38, 39 và 40. Điều này minh chứng sự hạn chế của các luật âm dƣơng trong việc biểu diễn quan hệ của các đối tƣợng trong thế giới thực. Trong số 40 luật phát hiện đƣợc, có 6 luật là số 4, 11, 12, 13, 14, 15 thể hiện quan hệ nhân quả giữa một số biến kinh tế - tài chính và chỉ số chứng khoán quốc tế với chỉ số VNINDEX. Các biến ở bên trái của các luật này đều là các biến trễ - 1 bƣớc nên chúng đƣợc xem là nguyên nhân của VNINDEX. Cụ thể hơn: chỉ dựa vào giá trị của các biến ở bên trái của các luật này ở tháng hiện tại, ta đã có thể kết luận đƣợc lợi suất của VNINDEX ở tháng tiếp theo. Chẳng hạn luật số 4: {¬VNI(-1), OIL(-1), NIK(-1)}=>{¬VNI}}(0.149,1.0,1.85) cho biết rằng nếu lợi suất của chỉ số chứng khoán VNINDEX tháng này không tăng, giá dầu và lợi suất của chỉ số chứng khoán NIKKEI225 tháng này đều tăng thì lợi suất của chỉ số VNINDEX sẽ không tăng với độ hỗ trợ là 14,9%, độ tin cậy là 100%, tính hay của luật là 1.85, tức quan hệ kết hợp này là tƣơng quan dƣơng. Ta có thể thấy các quan hệ nhân quả đƣợc biểu diễn bằng các luật kết hợp âm dƣơng mở rộng phân biệt là rất gần gũi với cách biểu diễn quan hệ nhân quả Granger [8, 18]. V. KẾT LUẬN VÀ THẢO LUẬN Thông qua việc phân tích quan hệ kết hợp giữa chỉ số chứng khoán Việt Nam VNINDEX bằng sử dụng phát hiện các luật kết hợp âm dƣơng mở rộng phân biệt, bài báo này cho thấy: Các luật kết hợp âm dƣơng phân biệt nhƣ đƣợc hiểu từ trƣớc đến nay là còn nhiều hạn chế để biểu diễn các mối quan hệ trong thế giới thực. Các luật âm dƣơng mở rộng phân biệt không chỉ biểu diễn đƣợc đa dạng hơn các quan hệ của thế giới thực mà chúng là khá phù hợp để biểu diễn quan hệ của các yếu tố trong lĩnh vực kinh tế - tài chính có tác động đến biến cần đƣợc nghiên cứu. Vì thế hoàn toàn có thể sử dụng việc phát hiện các luật kết hợp nhƣ vậy để phân tích kết hợp thị trƣờng chứng khoán nói chung và của Việt Nam nói riêng. Bài báo cho thấy các luật kết hợp âm dƣơng mở rộng phân biệt cũng bao gồm các luật thể hiện quan hệ nhân quả giữa các biến gốc và biến đích. Nhƣ đã biết, việc phân tích quan hệ nhân quả Granger và quan hệ đồng tích hợp đƣợc đề xuất bởi nhà toán học giải Nobel kinh tế năm 2003 C. Granger hiện đã trở thành trung tâm của các phân tích kinh tế lƣợng vĩ mô. Việc nhận thấy có sự tƣơng đồng trong biểu diễn quan hệ nhân quả theo nghĩa Granger và bởi luật kết hợp âm dƣơng mở rộng phân biệt đã đặt ra câu hỏi: phải chăng việc sử dụng phát hiện các luật kết hợp âm dƣơng mở rộng phân biệt để tìm ra các quan hệ nhân quả có thể khắc phục đƣợc một số hạn chế của quan hệ nhân quả Granger khi các quan hệ nhân quả giữa các biến gốc và biến đích chỉ tồn tại ở một số rất ít các quan sát (hoặc thể hiện). Trả lời câu hỏi này là trọng tâm nghiên cứu của chúng tôi trong tƣơng lai gần.
  7. 428 PHÂN TÍCH THỊ TRƢỜNG CHỨNG KHOÁN VIỆT NAM BẰNG SỬ DỤNG LUẬT KẾT HỢP ÂM DƢƠNG… VI. TÀI LIỆU THAM KHẢO [1] Agrawal R., Imieliński T., & Swami A.. “Mining association rules between sets of items in large databases”. ACM SIGMOD Record, 22(2):207–216, 1993. [2] Ali K., Manganaris M., & Srikant R.. “Partial Classification using association rules”. Proceedings of the 3rd International Conference on Knowledge Discovery in Databases and Data Mining, Newport Beach, California, USA, pages 115–118, August 14–17, 1997. [3] Antonie M., & Zaïane O.. “An associative Classifier based on positive and negative rules”. Proceedings of the 9th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery. Paris, France: ACM Press, pp. 64–69, 2004. [4] Bouzouita I., & Elloumi S.. “Positive and negative generic classification rules-based Classifier”. International Journal of Knowledge and Learning, Vol. 7, Issue 3-4, pp. 271-293. DOI 10.1504/IJKL.2011.044562, 2011. [5] Chris C., Peng Y., Xing Z., & Guoqing C.. “Mining positive and negative association rules from large databases”. Proc. of CIS, pages 1–6, 2006. [6] Cubero F. J. C., Sánchez N. M. D., Serrano J. M., & Vila A.. “Association rule evaluation for Classification purposes”. Actas del III Taller Nacional de Minería de Datos y Aprendizaje, TAMIDA2005, pp.135-144 ISBN: 84- 9732-449-8, Los autores, Thomson, 2005. [7] Dong J., Niu J., Shi J., Zhang J., & Zhu D. “Mining both Positive and Negative Association Rules from Frequent and Infrequent Itemsets”. ADMA, LNAI 4632, Springer-Verlag Berlin Heidelberg, 2007. [8] Enders, W.. “Applied Econometric Time Series”, Wiley: USA, 2004. [9] Hao W., Xing X., & Guoqing X.. “Mining a complete set of both positive and negative association rules from large databases”. Proc. of PAKDD, pages 777–784, 2008. [10] Idheba M. A. O., Azuraliza A. B., & Anis S. A. K.. “Mining Positive and Negative Association Rules from Interesting Frequent and Infrequent Itemsets”. 9th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD 2012), IEEE, 2012. [11] Li W., Han J., & Pei J.. “CMAR: Accurate and efficient classification based on multiple DGN-association rules”. Proceedings of the 2001 IEEE International Conference on Data Mining (ICDM’01), San Jose, California, USA, pages 208–217, November 29 - December 02, 2001. [12] Liu B., Hsu. W., & Ma Y.. “Integrating classification and association rule mining”. In ACM Int. Conf. on Knowledge Discovery and Data Mining (SIGKDD’98), pages 80–86, New York City, NY, August 1998. [13] Mishra A., & Khare N.. “A Review on Gender Classification Using Association Rule Mining and Classification Based on Fingerprints”. IEEE Xplore: DOI: 10.1109/CSNT.2015.244, 2015. [14] Preethi G. and Santhi B.. “Stock Market Forecasting Techniques: A Survey”. Journal of theoretical and Applied Information technology, Vol 46, No 1, pp 24-30, 2012. [15] Tan, Pang-Ning, Michael Steinbach, and Vipin Kumar. “Association analysis: basic concepts and algorithms”. Introduction to Data mining, pp. 327-414, 2005. [16] Thabtah F., Cowling P., & Peng Y.. “MMAC: A new multi-DGN, multi-label associative Classification approach”. Proceedings of the 4th IEEE International Conference on Data Mining (ICDM’04), Brighton, UK, pp. 217–224, 2004. [17] Thabtah F., Cowling P., & Peng Y.. “MCAR: Multi-DGN Classification based on Association Rule approach”. Proceeding of the 3rd IEEE International Conference on Computer Systems and Applications,Cairo, Egypt, pp. 1– 7, 2005. [18] Thanh D. V., & Hai N. M.. “Phân tích và dự báo thị trƣờng chứng khoán bằng sử dụng chỉ số báo trƣớc”. Kỷ yếu Hội nghị khoa học công nghệ quốc gia lần thứ IX (FAIR), Cần thơ, 559-566. DOI: 10.15625/vap.2016.00069, 4- 5/8/2016. [19] Thuy C. T., & Thanh D. V. “Một giải pháp mới về phân tích thị trƣờng chứng khoán Việt Nam”. Tin học và Điều khiển học, Viện Khoa học Tự nhiên và Công nghệ Quốc gia.Tập 24, số 2, 2008. [20] Xindong W., Chengqi Z., & Shichao Z.. “Efficient mining of both positive and negative association rules”. ACM Trans. on Inf. Syst., 22(3):381–405, 2004. [21] Yin X., & Han J.. “CPAR: Classification based on predictive association rules”. Proceedings of the Third SIAM International Conference on Data Mining, San Francisco, CA, USA, pages 208–217, May 1-3, 2003. [22] Zhang M. L., & Zhou Z. H.. “A Review on Multi-Label Learning Algorithms”. IEEE Trans. Knowl. Data Eng. 26(8), 1819-1837, 2014.
  8. Đỗ Văn Thành, Phạm Ngọc Lâm 429 ANALYSING VIETNAM STOCK MARKET BY USING DISCRIMINANT EXTENDED POSITIVE NEGATIVE ASSOCIATION RULES Thanh Do Van, Lam Pham Ngoc ABSTRACT: Positive and Negative association rules have so far been limited to expressing the ralationships of objects in the real world. A more general form of association rules, called extended Positive and Negative association rules, can overcome these limitations. Unfortunately, it is difficult to build efficient algorithms to detect all those rules. In the extended Positive and Negative association rules, the rules that of the right containing only a positive or negative data items are called discriminant extended Positive and Negative association rules that have very high application meanings in the economic financial field. These rules are promising to be effective solutions in class prediction as well as in the selection of subsets of valuable variables to reduce data dimension. Algorithm for detecting discriminant extended Positive and Negative association rules from transactional databases containing only the positive data items was proposed. The purpose of this paper is to use the discriminant extended Positive and Negative association rules for analyzing the association relations of the VNINDEX stock market index with some economic financial variables and other international stock market indexes. The found association rules show the limitation of Positive and Negative association rules as understood so far, the suitability of these rules in the association analysis of the economic financial field, and many similarities of causality represented by discriminant extended Positive and Negative acsociation rules with the Granger's causality, which is one of the relations of most used in macro-econometric analyzes. Keywords: Stock market, association analysis, Positive and Negative association rule, discriminant association Rule, causality.
nguon tai.lieu . vn