Xem mẫu

  1. Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng Ngô Thùy Linh Khoa Hệ thống thông tin quản lý, Trường Học viện Ngân hàng Ngày nhận: 29/04/2022 Ngày nhận bản sửa: 16/06/2022 Ngày duyệt đăng: 22/06/2022 Tóm tắt: Data lake (hồ dữ liệu) là khái niệm mới xuất hiện những năm gần đây trong thời đại của dữ liệu lớn (big data). Mặc dù chủ đề về big data đã được thảo luận nhưng vẫn còn nhiều thách thức trong nghiên cứu, đặc biệt là sự đa dạng của dữ liệu. Một trong những thách thức đó là làm thế nào để tích hợp và truy vấn khối lượng dữ liệu lớn từ nhiều nguồn khác nhau khi phương thức lưu trữ dữ liệu truyền thống là kho dữ liệu không đáp ứng được. Data lake- Hồ dữ liệu được đề xuất như một giải pháp cho vấn đề này. Bài báo tập trung nghiên cứu kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng dựa trên cơ sở tham chiếu đến mô hình dữ liệu của hãng IBM. Tiếp theo bài báo phân tích vai trò và sự cần thiết của hồ dữ liệu, trình bày về quy trình xây dựng cũng như kiến trúc hồ dữ liệu phù hợp trong các tổ chức tài chính ngân hàng. Cuối cùng là thảo luận về lợi ích của hồ dữ liệu giúp cho các bộ phận nghiệp vụ truy cập và phân tích dữ liệu trên toàn bộ tổ chức, ngoài ra thách thức về công nghệ trong quá Data lake architecture: big data storage and analysis in financial banking organizations Abstract: Data Lake is one of the dominant concepts in the era of big data. Although big data has been discussed, it still has many research challenges, especially the variety of data. It poses a huge difficulty to efficiently integrate and query the large volume of diverse data in information silos with the traditional approaches such as data warehouses. Data lakes have been proposed as a solution to this problem. This paper focuses on studying data lake architecture for banking data model based on reference to IBM’s data model. Next, this paper analyzes the role and necessity of a data lake, presents the data lake execution process and the right data lake architecture in financial banking organizations. Finally, the author discusses the benefits of data lakes in helping business departments access and analyze data across the organization, besides the technological challenges of implementing data lakes in financial and banking institutions also described in this paper. Keywords: data lake architecture, the financial banking organizations, data lake, data warehouse, big data. Ngo, Thuy Linh Email: linhnt@hvnh.edu.vn Faculty of Management Information System, Banking Academy of Vietnam © Học viện Ngân hàng Tạp chí Khoa học & Đào tạo Ngân hàng ISSN 1859 - 011X 59 Số 243- Tháng 8. 2022
  2. Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng trình triển khai hồ dữ liệu tại các tổ chức tài chính ngân hàng cũng được nêu trong bài báo này. Từ khóa: kiến trúc hồ dữ liệu, tổ chức tài chính ngân hàng, hồ dữ liệu, kho dữ liệu, dữ liệu lớn 1. Giới thiệu thông mạng xã hội, các nhận xét, bình luận, các ứng dụng cài đặt trên thiết bị thông Theo báo cáo của tập đoàn dữ liệu quốc minh... Vào đầu những năm 2000, các tổ tế (IDC- International Data Corporation, chức doanh nghiệp chưa nghĩ đến việc phải 2021), năm 2020 có 64,2 ZB (Zettabyte1) theo dõi “lượt thích” của khách hàng trên dữ liệu đã được tạo ra và lượng dữ liệu sinh các kênh mạng xã hội. Nhưng ngày nay, ra mỗi ngày lớn hơn tổng lượng dữ liệu việc nắm bắt và phân tích các thông tin được tạo ra trong cả một năm ở thời điểm thực tế như vậy cũng có thể mang lại cơ những năm 2000. Câu hỏi đặt ra là: nên lưu hội kinh doanh quan trọng. Một lần nữa có trữ bao nhiêu trong số đó? Nhiều tổ chức thể khẳng định dữ liệu là chìa khóa để tạo nhận thấy rằng các phương pháp quản lý ra các quyết định trong các tổ chức doanh dữ liệu truyền thống đang trở nên lỗi thời, nghiệp. Do vậy, giải pháp về hồ dữ liệu quá chậm để đưa ra phản hồi (Michael (data lake) sẽ khắc phục hạn chế mà kho Lock, 2017). Chẳng hạn như với giải pháp dữ liệu chưa làm được. Cụ thể, hồ dữ liệu xây dựng kho dữ liệu (data warehouse) đã cho phép lưu lại đầy đủ các thuộc tính của giúp các tổ chức doanh nghiệp tích hợp dữ dữ liệu nhằm mục đích trả lời các câu hỏi liệu từ nhiều hệ thống khác nhau trong các có thể xuất hiện trong tương lai (Geoffrey bộ phận, phòng ban. Cách thiết kế và triển Keating, 2021). khai kho dữ liệu đã làm đơn giản hóa việc Theo báo cáo tổ chức nghiên cứu thị trường truy cập dữ liệu, đồng thời hỗ trợ cho tổ lớn nhất thế giới năm 2022 (Research and chức trong việc đưa ra câu trả lời cần thiết Markets, 2022), thị trường hồ dữ liệu đạt trong kinh doanh. Tuy nhiên, không thể 7,4 tỷ USD năm 2021. Dự kiến ​​thị trường lường trước được các câu hỏi mang tính này sẽ lên tới 30,2 tỷ USD vào năm 2027, chất quyết định và các báo cáo mà doanh với tốc độ tăng trưởng kép hàng năm nghiệp có thể cần ngay theo thời gian thực, (CAGR- Compounded Annual Growth giải pháp hiện tại mất quá nhiều thời gian Rate) là 26,4% trong giai đoạn 2022- 2027. để đưa ra kết quả chuyên sâu từ dữ liệu thu Hồ dữ liệu vượt xa kho dữ liệu và đã trở thập được. Khối lượng dữ liệu tăng lên mỗi thành một lựa chọn kinh tế cho các tổ chức ngày dẫn đến thách thức ngày càng lớn khi bởi vì chi phí duy trì một hồ dữ liệu thấp kho dữ liệu phải đối mặt với vấn đề này. hơn chi phí xây dựng cơ sở dữ liệu cho các Trong kiến trúc dữ liệu hiện đại, việc thu kho dữ liệu. thập dữ liệu mới phải tương đối dễ dàng để Với tốc độ tăng trưởng dữ liệu ngày một lớn có thể tiến hành phân tích một cách nhanh và đa dạng khiến cho việc lưu trữ dữ liệu chóng. Khối lượng dữ liệu đã bùng nổ khi theo cách truyền thống trong các tổ chức các doanh nghiệp khám phá ra giá trị của gặp nhiều hạn chế như đã đề cập ở trên, có các thông tin trên các phương tiện truyền thể nhận định rằng hồ dữ liệu là giải pháp 1 ZB = 1021 byte thay thế tối ưu hiện nay. Nội dung tiếp theo 60 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
  3. NGÔ THÙY LINH của bài báo sẽ trình bày tổng quan về hồ dữ (2018), hồ dữ liệu có một số đặc điểm quan liệu; kiến trúc hồ dữ liệu cho mô hình dữ trọng sau: liệu ngân hàng; và cuối cùng là thảo luận về - Khả năng mở rộng quy mô cơ sở hạ tầng lợi ích, thách thức khi triển khai hồ dữ liệu. phần cứng. - Tính khả dụng: dữ liệu trong hồ dữ liệu 2. Tổng quan về hồ dữ liệu phải chính xác và sẵn sàng cho tất cả người dùng ngay khi họ cần xử lý thông tin. 2.1. Khái niệm và đặc điểm hồ dữ liệu - Khả năng tiếp cận: các mô hình truy cập được chia sẻ để đảm bảo dữ liệu có thể Vào tháng 10/2010, James Dixon, người được truy cập bởi tất cả các ứng dụng. sáng lập và là cựu giám đốc công nghệ - Khả năng truy xuất nguồn gốc: lưu trữ (Chief Technology Officer- CTO) của toàn bộ dữ liệu của một tổ chức và quản Pentaho, đã đưa ra thuật ngữ “Data Lake” lý dữ liệu được lưu trữ trong suốt vòng đời (Saurabh Gupta & Venkata Giri, 2018). Ý của nó, từ định nghĩa, truy cập và lưu trữ tưởng thiết kế data lake- hồ dữ liệu là khu dữ liệu đến xử lý, phân tích và ứng dụng. vực lưu trữ tập trung, hợp nhất cho các dữ - Các chính sách quản trị dữ liệu không liệu thô, không có cấu trúc, bán cấu trúc được thực thi ràng buộc về dữ liệu. và có cấu trúc, được lấy từ nhiều nguồn Đặc điểm của hồ dữ liệu cho thấy nó thực và không có lược đồ xác định trước. Các sự cần thiết hỗ trợ cho các chiến lược dữ hồ dữ liệu đã được tạo ra để lưu “dữ liệu liệu trong tổ chức doanh nghiệp, đảm bảo có giá trị tiềm ẩn”. Giá trị của dữ liệu và lưu trữ và xử lý với 4 đặc tính của dữ liệu những hiểu biết sâu sắc thu được từ hồ có lớn là khối lượng, vận tốc, tính xác thực thể là những ẩn số và thay đổi tùy theo câu và sự đa dạng nhằm đáp ứng kỳ vọng của hỏi được đặt ra cũng như nghiên cứu đang khách hàng và sự toàn cầu hóa nhanh chóng được thực hiện. Hồ dữ liệu cũng cho phép của các nền kinh tế. người dùng thực hiện các loại phân tích khác nhau trên dữ liệu như ngôn ngữ truy 2.2. Quy trình lập kế hoạch và xây dựng vấn cơ sở dữ liệu SQL (Structured Query hồ dữ liệu Language), phân tích dữ liệu lớn, phân tích dữ liệu theo thời gian thực và học máy để Quy trình lập kế hoạch và xây dựng hồ dữ đưa ra các quyết định tốt hơn. liệu theo các bước như Hình 1. Hồ dữ liệu chứa một lượng lớn dữ liệu thô Quy trình lập kế hoạch xây dựng hồ dữ liệu ở dạng nguyên bản cho đến khi các doanh gồm các bước: xác định thách thức của tổ nghiệp xác định được việc sử dụng dữ liệu chức, xây dựng giải pháp chiến lược, dự đó như thế nào. Nền tảng của hồ dữ liệu là đoán sự tăng trưởng của dữ liệu, lên kế một hệ thống lưu trữ có thể chứa tất cả dữ hoạch về cơ sở hạ tầng, xác định chiến liệu trong một tổ chức, từ thông tin chất lược hoạt động. Sau khi lập kế hoạch thì lượng của nhà cung cấp, giao dịch của các bước cần thực hiện để xây dựng hồ dữ khách hàng, đến dữ liệu hiệu suất sản phẩm liệu: xác định nguồn dữ liệu và người dùng theo thời gian thực. Hơn thế nữa, hồ dữ liệu hệ thống, xây dựng chiến lược thu thập dữ còn cung cấp thông tin chi tiết hữu ích có liệu, thiết lập chiến lược lưu trữ dữ liệu, thể được tùy chỉnh để đáp ứng nhu cầu và xác định các mô hình phân tích dữ liệu, mong muốn của khách hàng. cuối cùng là các mục đích sử dụng dữ liệu. Theo Saurabh Gupta & Venkata Giri Dựa trên cơ sở chung về quy trình lập kế Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 61
  4. Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng khách hàng, lòng trung thành của khách hàng. Các tổ chức tài chính ngân hàng dựa trên quy trình xây dựng hồ dữ liệu được mô tả ở các giai đoạn trên để triển khai thực tế tại tổ chức. 3. Kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng Trước khi đưa ra kiến trúc hồ dữ liệu phục vụ cho lĩnh vực ngân hàng, cần tham chiếu đến một kiến trúc hồ dữ liệu chung, bài viết này tập trung Nguồn: Saurabh Gupta & Venkata Giri (2018) tham chiếu đến mô hình hồ Hình 1. Quy trình lập kế hoạch và xây dựng hồ dữ liệu dữ liệu của hãng International Business Machines (IBM). hoạch và xây dựng hồ dữ liệu, quy trình Ngoài IBM, còn có một số mô hình hồ dữ triển khai hồ dữ liệu cho ngân hàng được liệu của các nhà cung cấp khác như Hewlett đề xuất như sau (Indium Software, 2020): Packard Enterprise (HPE), Microsoft - Xây dựng kiến trúc nghiệp vụ mô tả việc Azure và Amazon Web Services (AWS)… theo dõi thông tin từ khách hàng/người Theo TechTarget (2022), Microsoft Azure dùng cuối cho đến nền tảng kỹ thuật số của và AWS là những nhà cung cấp hồ dữ liệu ngân hàng trên các lớp khác nhau như chức dựa trên đám mây lớn nhất, còn IBM và năng, bảo mật, ứng dụng, dữ liệu và cơ sở HPE cũng là một trong các nhà cung cấp hạ tầng. công nghệ lưu trữ lớn có thể giúp các doanh - Xây dựng mô hình dữ liệu cho hồ dữ liệu nghiệp xây dựng một hồ dữ liệu tại chỗ. sẽ hỗ trợ báo cáo hoạt động, báo cáo tổng IBM cung cấp triển khai hồ dữ liệu thông quan cũng như phân tích nâng cao. qua các sản phẩm Power và Spectrum - Phát triển kiến trúc kỹ thuật của hồ dữ Scale. Các tổ chức doanh nghiệp có thể lựa liệu (hoặc nền tảng dữ liệu kết hợp) để thiết chọn hoặc xây dựng hồ dữ liệu tại chỗ, hoặc lập một khuôn khổ tiêu chuẩn cho việc di trên đám mây hoặc kết hợp cả hai, hơn nữa chuyển dữ liệu. IBM cùng với đối tác Cloudera cung cấp - Phát triển đưa ra các khung để quản trị dữ khả năng phân tích, bảo mật cao và quản trị liệu, bảo mật, tích hợp, quản lý dữ liệu chủ dữ liệu hiệu quả. Việc lựa chọn nhà cung và siêu dữ liệu. cấp phụ thuộc vào loại nền tảng lưu trữ- tại - Xây dựng và triển khai các thành phần chỗ hoặc đám mây- cũng như các loại dữ như đường ống dữ liệu, cơ sở dữ liệu, thành liệu và quản trị dữ liệu của tổ chức. phần hồ dữ liệu, báo cáo, mô hình phân tích Một trong những điểm nổi bật của mô hình và báo cáo tổng quan. dữ liệu IBM so với các mô hình của các nhà - Vận hành các mô hình phân tích vào các cung cấp khác là có sự tách biệt giữa định chức năng nghiệp vụ như tiếp thị, thu hút nghĩa về bộ từ vựng nghiệp vụ hệ thống và 62 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
  5. NGÔ THÙY LINH Nguồn: IBM (2016) Hình 2. Kiến trúc tham chiếu cho Hồ dữ liệu định nghĩa của bất kỳ cấu trúc liên quan liệu thì mô hình dữ liệu IBM với các định nào sẽ được sử dụng trong việc thiết kế hồ nghĩa rõ ràng về cấu trúc dữ liệu sẽ đảm dữ liệu. Việc sử dụng các bộ từ vựng này bảo tính nhất quán của các kho được lưu của IBM cho phép tất cả những người sử trữ trong hồ dữ liệu (IBM, 2016). dụng hồ sơ dữ liệu đều có cái nhìn thống Hình 2 cung cấp tóm tắt về sự tương tác nhất về nghiệp vụ hệ thống. Mặt khác khi chính của các thành phần khác nhau trong tổ chức cần định nghĩa trước về lược đồ dữ mô hình hồ dữ liệu IBM, nơi lưu trữ và xử lý Nguồn: Awadallah and Graham (2011) Hình 3. Hệ thống cùng tồn tại hồ dữ liệu và kho dữ liệu Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 63
  6. Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng Bảng 1. Sự khác nhau giữa kho dữ liệu và hồ dữ liệu Tiêu chí Hồ dữ liệu Kho dữ liệu Kiểu dữ Tất cả dữ liệu được lưu giữ bất kể nguồn và cấu Bao gồm dữ liệu được trích xuất từ ​​các hệ thống liệu trúc ban đầu. Dữ liệu được giữ ở dạng thô, chỉ giao dịch. Dữ liệu được làm sạch và chuyển đổi được chuyển đổi khi đã sẵn sàng để sử dụng. Lịch sử Công nghệ dữ liệu lớn được sử dụng trong hồ dữ Không giống như dữ liệu lớn, khái niệm kho dữ liệu là tương đối mới. liệu đã được sử dụng trong nhiều thập kỷ. Thu thập Tất cả các loại dữ liệu và cấu trúc, bán cấu trúc và Dữ liệu có cấu trúc và sắp xếp chúng trong các dữ liệu không cấu trúc ở dạng ban đầu của chúng từ các lược đồ như được xác định cho mục đích xây hệ thống nguồn. dựng kho dữ liệu Thời gian Các hồ dữ liệu có thể giữ lại tất cả dữ liệu. Điều Trong quá trình phát triển kho dữ liệu, thời gian này không chỉ bao gồm dữ liệu đang được sử đáng kể được dành cho việc phân tích các dụng mà còn bao gồm dữ liệu có thể sử dụng nguồn dữ liệu khác nhau. trong tương lai. Ngoài ra, dữ liệu được lưu giữ mọi lúc để có thể quay ngược thời gian và thực hiện phân tích. Người Hồ dữ liệu lý tưởng cho những người dùng muốn Kho dữ liệu lý tưởng cho người sử dụng vì được dùng phân tích sâu như các nhà khoa học dữ liệu, cấu trúc tốt, dễ sử dụng và dễ hiểu. những người cần các công cụ phân tích tiên tiến với các khả năng như mô hình dự đoán và phân tích thống kê. Chi phí Chi phí lưu trữ rẻ hơn so với kho dữ liệu Tương đối đắt hơn Nhiệm vụ Chứa tất cả các dữ liệu và kiểu dữ liệu; nó cho Cung cấp thông tin chi tiết về các câu hỏi được phép người dùng truy cập dữ liệu trước quá trình xác định trước cho các loại dữ liệu được xác chuyển đổi, làm sạch và có cấu trúc. định trước. Thời gian Thời gian xử lý nhanh. Các hồ dữ liệu trao quyền Thời gian xử lý chậm hơn. Kho dữ liệu cung cấp xử lý cho người dùng truy cập dữ liệu trước khi nó thông tin chi tiết về các câu hỏi được xác định được chuyển đổi, làm sạch và có cấu trúc. Do trước cho các loại dữ liệu đã được xác định. Vì đó, nó cho phép người dùng nhận được kết quả vậy, bất kỳ thay đổi nào đối với kho dữ liệu đều của họ nhanh hơn so với kho dữ liệu truyền cần thêm thời gian. thống. Lợi ích Tích hợp các loại dữ liệu khác nhau để đưa ra Cung cấp các báo cáo và các chỉ số hiệu suất những câu hỏi hoàn toàn mới chính. Hạn chế Dữ liệu được giữ ở dạng thô, chỉ được chuyển đổi Không có khả năng thay đổi. khi dữ liệu đó đã sẵn sàng để sử dụng. Nguồn: David Taylor (2022) dữ liệu lớn sử dụng nền tảng Hadoop cùng Mô hình vật lý Hadoop sử dụng nền tảng một số hệ quản trị dữ liệu quan hệ truyền công nghệ Hadoop để xử lý và làm việc với thống khác để lưu trữ dữ liệu có cấu trúc. khối lượng dữ liệu lớn, mô hình vật lý này Trong kiến trúc tham chiếu Hồ dữ liệu ở triển khai Sandbox hỗ trợ cho công việc Hình 2, bộ từ vựng nghiệp vụ hệ thống phải nghiên cứu và phân tích dữ liệu của các nhà là cơ sở cho bất kỳ hoạt động tìm kiếm hoặc khoa học dữ liệu (IBM, 2016). khám phá nào được thực hiện bởi người Với dữ liệu có cấu trúc thì kho dữ liệu là sự dùng trong các bộ phận phòng ban của tổ lựa chọn phù hợp để xây dựng khi đã biết chức doanh nghiệp và nhà khoa học dữ liệu. lược đồ dữ liệu. Ngược lại, hồ dữ liệu được Mô hình vật lý thứ nguyên để triển khai các triển khai để tích hợp một lượng lớn dữ liệu cấu trúc cần thiết để xây dựng kho dữ liệu. phi cấu trúc như nhật ký, hình ảnh, video 64 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
  7. NGÔ THÙY LINH Nguồn: Darko Golec (2019) Hình 4. Kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng hoặc tài liệu và dữ liệu có cấu trúc. Nếu dự lý và truy xuất dữ liệu đó. Ngược lại hồ dữ kiến dữ liệu của tổ chức tăng trưởng đáng liệu lưu trữ dữ liệu thô, phi cấu trúc, bán kể theo thời gian và được sinh ra với tốc độ cấu trúc và có cấu trúc mà không cần xử lớn, có thể tồn tại ở các dạng khác nhau, và lý trước nên giải pháp về hồ dữ liệu là một tiềm ẩn những thông tin có thể tạo ra giá trị giải pháp thực tế và chi phí thấp. Ngoài ra kinh doanh cao, thì trong trường hợp này, hồ dữ liệu cũng rất linh hoạt và dễ quản lý, kiến trúc hồ dữ liệu thích hợp hơn kiến trúc không có trở ngại nào trong việc giới thiệu kho dữ liệu. Trong nhiều tổ chức, cả hai các kiểu dữ liệu mới, giúp cho tổ chức sử giải pháp này đều cùng tồn tại (Awadallah dụng các ứng dụng khác nhau dễ dàng hơn. and Graham, 2011), thể hiện trong Hình 3. Và vì việc mở rộng quy mô không phải là Sự khác nhau giữa kho dữ liệu và hồ dữ một vấn đề trong hồ dữ liệu nên hồ dữ liệu liệu được trình bày ở Bảng 1. là một trong những kiến ​​trúc được ưa thích Bảng 1 mô tả sự khác nhau giữa kho dữ cho dữ liệu lớn (David Taylor, 2022). Như liệu và hồ dữ liệu. Khác với kho dữ liệu- vậy kho dữ liệu và hồ dữ liệu đều có những chỉ lưu trữ dữ liệu có cấu trúc đã được lựa ưu điểm và hạn chế, do đó chúng không thể chọn và chuẩn hóa cho mục đích cụ thể, thay thế nhau mà cùng tồn tại để bổ sung còn hồ dữ liệu có thể tích hợp và lưu trữ hỗ trợ nhau. mọi loại dữ liệu ở định dạng gốc với bất Dựa trên cơ sở tham chiếu đến các mô hình kỳ quy mô nào để phục vụ cho phân tích ở Hình 2 và Hình 3, Hình 4 thể hiện kiến dữ liệu trong tương lai. Vì việc sử dụng dữ trúc hồ dữ liệu được xây dựng cho mô hình liệu được xác định trước nên kiến ​​trúc kho dữ liệu ngân hàng được đưa ra bởi Ngân dữ liệu yêu cầu lập kế hoạch cẩn thận: loại hàng Thế giới (World Bank). dữ liệu nào sẽ được truy xuất, công cụ nào Kiến trúc hồ dữ liệu cho mô hình dữ liệu sẽ được sử dụng để thu thập, tổ chức, xử ngân hàng được trình bày ở Hình 4 là một Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 65
  8. Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng trong những kiến trúc hồ dữ liệu khả thi Một số lợi ích khi triển khai hồ dữ liệu về chi phí, khả năng mở rộng, bảo mật cho Thứ nhất, hồ dữ liệu cho phép tổ chức tài mô hình dữ liệu ngân hàng (Darko Golec, chính ngân hàng lưu trữ và truy cập các loại 2019). Kiến trúc hồ dữ liệu này bao gồm dữ liệu khác nhau, giúp cho việc chia sẻ và các thành phần chính sau: phân tích dữ liệu trên toàn doanh nghiệp - Vùng lưu trữ (Archive): Thu thập và lưu trở nên nhanh chóng, dễ dàng hơn. Theo trữ dữ liệu từ các nguồn bên ngoài theo lô báo cáo của Erik Nordmark (2020), tập hoặc theo thời gian thực. đoàn ngân hàng Bắc Âu- Baltic mỗi ngày - Vùng quản lý và ánh xạ (Master and có một lượng lớn dữ liệu phi cấu trúc được Map): vùng quản lý dữ liệu chủ và vùng sinh ra từ các kênh tương tác và dữ liệu có quản lý ánh xạ (mapping) dữ liệu. cấu trúc về giao dịch của khách hàng được - Vùng cục bộ (Units): vùng quản lý dữ liệu ghi lại ở các hệ thống nghiệp vụ khiến cho địa phương và vùng quản lý báo cáo. việc lưu trữ, tích hợp và phân tích dữ liệu - Vùng tích hợp và báo cáo (Intergration trở nên khó khăn hơn. Từ thực trạng này, and Report): vùng quản lý kho dữ liệu và ngân hàng đã tiến hành xây dựng triển khai vùng quản lý báo cáo. hồ dữ liệu để quản lý khối lượng lớn dữ - Vùng mô hình và phân tích (Models and liệu từ các nguồn dữ liệu bên trong và bên Analytics): vùng sử dụng công cụ kinh ngoài, cung cấp quyền truy cập dữ liệu trên doanh thông minh và vùng phân tích dữ liệu. toàn ngân hàng, đáp ứng được một số sáng Một cách tổng quát thì toàn bộ dữ liệu lớn kiến về chiến lược ​​kinh doanh của ngân được thu thập, lưu trữ và quản trị, ràng buộc hàng. Ngoài ra, việc phân tích dữ liệu trên bởi các vùng cùng tồn tại (Coexistence hồ dữ liệu còn hỗ trợ xử lý sự kiện theo zone) với nhau trong hệ sinh thái đó, chẳng thời gian thực. Một số kết quả đạt được của hạn như các vùng: “Danh mục và Quản trị” ngân hàng Baltic khi triển khai hồ dữ liệu (Catalog and Governance), Quản lý siêu và sử dụng kỹ thuật phân tích dữ liệu dựa dữ liệu (Metadata), Dòng dữ liệu, Bảo mật trên trí tuệ nhân tạo là: và Truy cập. Dữ liệu cho nhân viên, người + Chống rửa tiền và phân loại rủi ro dùng hệ thống có thể được truy cập tại vùng + Dự đoán dòng tiền và phân nhóm hành “thụ hưởng và phân phát” (Consumption vi tài chính and Delivery). Kiến trúc hồ dữ liệu ở Hình + Thực hiện mô hình chuyển nhượng thế 4 đã trình bày các phân vùng cùng tồn tại chấp trên hồ dữ liệu để lưu trữ, tích hợp dữ liệu từ nhiều nguồn + Các kế hoạch tốt nhất kế tiếp để quản lý bên trong và bên ngoài của tổ chức. Để đáp quan hệ khách hàng. ứng được điều này thì kho dữ liệu được Cho đến nay, ngân hàng Baltic đã trải thiết kế để lưu trữ dữ liệu có cấu trúc từ các nghiệm một số khả năng, lợi thế mới từ hệ thống nghiệp vụ. Như vậy các tổ chức việc lưu trữ và phân tích dữ liệu trên hồ dữ tài chính ngân hàng có thể triển khai thực liệu. Nhờ đó, ngân hàng cũng hiểu rõ hơn hiện đồng thời hai giải pháp kho dữ liệu và về hành vi mua hàng của khách hàng và có hồ dữ liệu để quản trị dữ liệu trong tổ chức thể khai thác dữ liệu giao dịch của họ để đưa của mình như minh họa trong kiến trúc hồ ra “hành động tốt nhất tiếp theo” phù hợp dữ liệu ở Hình 4. với nhu cầu của khách hàng vào đúng thời điểm. Cùng với kỹ thuật phân tích dữ liệu 4. Lợi ích và thách thức triển khai hồ dữ dựa trên trí tuệ nhân tạo, ngân hàng cũng dự liệu đoán được rủi ro khách hàng sẽ chấm dứt 66 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
  9. NGÔ THÙY LINH hợp đồng thế chấp của họ trong vòng hai liệu trong vòng chưa đầy 2 tuần. Nhóm các tháng tiếp theo (Erik Nordmark, 2020). công cụ phái sinh vốn chủ sở hữu toàn cầu Như vậy có thể nhận định rằng hồ dữ liệu (GED- Global Equity Derivatives Group) giúp cho các tổ chức tài chính ngân hàng của ngân hàng quốc gia Canada là đơn vị truy cập và phân tích dữ liệu trên toàn bộ tổ đi đầu trong việc cung cấp các giải pháp chức một cách dễ dàng. Điều này còn được giao dịch chứng khoán nhằm quản lý các thể hiện rõ hơn qua báo cáo của Research chứng khoán được giao dịch trao đổi như and Markets (2021), một số ngân hàng đã cổ phiếu, quỹ, hợp đồng tương lai. GED và đang tăng cường các hồ dữ liệu để tích thu thập và xử lý khối lượng dữ liệu tài hợp dữ liệu trên nhiều lĩnh vực khác nhau chính thị trường chứng khoán đang phát nhằm tạo ra một cơ sở dữ liệu trung tâm. triển nhanh chóng, chẳng hạn như thông Tập đoàn Ngân hàng Úc và New Zealand tin lịch sử thương mại và báo giá. Trước (ANZ) đang thực hiện một dự án tổng hợp đây, tổ chức gặp phải khó khăn trong việc tất cả các kho dữ liệu trên các lĩnh vực để mở rộng nền tảng phân tích dữ liệu khi sử tạo ra một hồ dữ liệu trung tâm cho các hoạt dụng môi trường công nghệ thông tin tại động ngân hàng. Sự gia tăng thanh toán kỹ chỗ, môi trường phần cứng truyền thống thuật số của người tiêu dùng đã thúc đẩy và việc lưu trữ dữ liệu có cấu trúc trên các lượng dữ liệu được lưu trữ với các ngân hệ quản trị cơ sở dữ liệu quan hệ không hàng trong mỗi giao dịch. Do đó, cơ hội thể theo kịp tốc độ tăng trưởng dữ liệu của cho phân tích dữ liệu lớn ngày càng tăng. GED. Ngân hàng cần một môi trường có Hơn nữa, Mox Bank Limited (Mox), một khả năng mở rộng hơn để có thể phân tích ngân hàng ở Hồng Kông, đã đăng ký hơn dữ liệu hiệu quả, đưa ra các thông tin chi 35.000 khách hàng trong tháng đầu tiên, sử tiết có ý nghĩa hơn. GED cũng tìm kiếm dụng các giải pháp từ AWS để thu thập, một cách hiệu quả hơn để xử lý dữ liệu tài lưu trữ, xử lý an toàn và phân tích dữ liệu chính, ngân hàng cần xử lý và phân tích cả giao dịch, tận dụng dữ liệu thông tin chi dữ liệu phi cấu trúc và dữ liệu có cấu trúc, tiết để xây dựng trải nghiệm ngân hàng lấy chẳng hạn như trong trrường hợp có một số khách hàng làm trung tâm khi sử dụng các lượng lớn các tệp nhật ký cần được phân dịch vụ từ Amazon dựa trên hồ dữ liệu. tích dựa trên dữ liệu thị trường được cập Việc triển khai các hồ dữ liệu trong lĩnh nhật. Từ thực trạng này, GED đã tiến hành vực ngân hàng phá vỡ số lượng các thông triển khai xây dựng hồ dữ liệu trong vòng tin silo (thông tin về một thực thể được lưu chưa đầy 2 tuần. Họ đã sử dụng TickVault trữ ở nhiều hệ thống khác nhau nhưng lại trên đám mây AWS, dễ dàng xử lý và phân không giống nhau). Lưu trữ dữ liệu trong tích hàng trăm terabyte dữ liệu thương mại cơ sở hạ tầng được quản lý tập trung như và dữ liệu báo giá lịch sử, bên cạnh đó vẫn cơ sở hạ tầng hồ dữ liệu dựa trên Apache có thể xem xét dữ liệu từ 10 năm trước nếu Hadoop giúp cắt giảm số lượng silo thông cần thiết. Các nhà phân tích kinh doanh của tin trong một tổ chức, giúp người dùng GED hiện có thể tiến hành phân tích giao trong toàn tổ chức có thể truy cập và có cái dịch thương mại nhanh hơn nhiều so với nhìn thống nhất về dữ liệu (Research and trước đây: Các quy trình thao tác dữ liệu Markets, 2021). mất nhiều ngày giờ chỉ còn một phút trên hồ Ngân hàng Quốc gia Canada là một trong dữ liệu. Hơn nữa, việc truy vấn dữ liệu hiện những tổ chức dịch vụ tài chính hàng đầu tại và lịch sử chỉ còn trong vài giờ đồng hồ. của Canada tiếp cận dữ liệu lớn trên hồ dữ Giờ đây, GED có thể phục vụ khách hàng Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 67
  10. Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng của mình tốt hơn. Điều này được thể hiện quản lý tốt cho phép các tổ chức tập hợp tất rõ hơn qua phát biểu của Pascal Bergeron, cả dữ liệu vào một nền tảng thống nhất và Giám đốc giao dịch thuật toán (Director cung cấp cho các nhà tiếp thị quyền truy cập of Algorithmic Trading) của Ngân hàng có kiểm soát vào dữ liệu cần thiết cho việc Quốc gia Canada: “Chúng tôi có khả năng nhắm đến các khách hàng mục tiêu. Nền phân tích sau giao dịch nhanh hơn và tốt tảng trực quan hóa tương tác cung cấp các hơn bằng cách sử dụng TickVault và AWS. góc nhìn khác nhau về dữ liệu và cho phép Nhờ đó, chúng tôi có thể cải thiện và tối ưu các nhà tiếp thị lập hồ sơ khách hàng để hóa hoạt động giao dịch của mình và tạo phân tích (Zaloni, 2016). Cũng theo báo cáo thêm doanh thu cho Ngân hàng Quốc gia của Research and Markets (2021), hơn 60% Canada. Chúng tôi cũng có thể sử dụng dữ tổ chức tài chính ở Hoa Kỳ tin rằng phân liệu để xem cách chúng tôi có thể giao dịch tích dữ liệu lớn mang lại lợi thế cạnh tranh với giá tốt hơn cho khách hàng của mình” đáng kể so với các đối thủ và hơn 90% công (AWS, 2016). ty tin rằng các sáng kiến ​​dữ liệu lớn xác định Từ những minh chứng trên có thể khẳng cơ hội thành công trong tương lai. định rằng, lợi ích đầu tiên khi triển khai Phát hiện và ngăn chặn gian lận trong giao hồ dữ liệu tại các tổ chức tài chính ngân dịch của khách hàng tại ngân hàng là lợi hàng đó là dữ liệu được lưu trữ tập trung ích thứ ba mà hồ dữ liệu đem lại cho các tại một nơi, từ đó giúp cho ngân hàng có tổ chức tài chính ngân hàng. Gian lận giao thể truy cập dữ liệu khác nhau theo thời dịch, gian lận danh tính và rửa tiền là những gian, kể cả truy vấn dữ liệu lịch sử, nhưng mối quan tâm lớn đối với các tổ chức dịch vẫn đảm bảo các bộ phận nghiệp vụ có cái vụ tài chính, ngân hàng. Một lý do là nhiều nhìn chung thống nhất về dữ liệu vì đã khắc kẻ gian lận có thể thao túng việc thanh toán phục được hiện tượng thông tin silo. Việc nhanh hơn mức mà các nhà điều tra có thể chia sẻ dữ liệu trở nên dễ dàng hơn kết hợp kiểm tra. Một hồ dữ liệu được quản lý tốt với ứng dụng của trí tuệ nhân tạo để phân có thể cho phép nhập dữ liệu theo thời gian tích, khai thác dữ liệu trong hồ dữ liệu giúp thực và phát hiện gian lận tự động với các cho ngân hàng thu hút và giữ chân khách thuật toán phát hiện các dạng gian lận tiềm hàng, cũng như phát hiện, ngăn chặn các ẩn trong khối lượng dữ liệu khổng lồ. Tạo rủi ro trong các giao dịch của khách hàng danh mục dữ liệu tập trung cung cấp giao hiệu quả hơn trước khi tổ chức triển khai diện người dùng trực quan để tìm kiếm hồ dữ liệu. và phân tích trên tất cả dữ liệu và hỗ trợ Lợi ích thứ hai mà hồ dữ liệu mang lại là các nhân viên nhanh chóng thực hiện phân cung cấp cái nhìn tổng quan về khách hàng, tích dữ liệu tự phục vụ thông qua giao diện tăng cường khả năng dự đoán các xu hướng người dùng trực quan (Zaloni, 2016). Hơn tài chính cũng như cải thiện và cá nhân hóa nữa, hiệu quả thu hồi nợ của ngân hàng có trải nghiệm của khách hàng. Các tổ chức thể cải thiện đáng kể bằng cách phân tích dịch vụ tài chính triển khai hồ dữ liệu sử hiệu quả thu hồi dựa trên dữ liệu giao dịch dụng nhiều nguồn dữ liệu khác nhau để có của khách hàng được lưu trữ trong hồ dữ được cái nhìn toàn diện về khách hàng, tạo liệu, bên cạnh việc phân nhóm khách hàng ra trải nghiệm khách hàng được cá nhân hóa nhằm xác định và ưu tiên khách hàng nào hơn và hỗ trợ các chương trình giữ chân liên hệ sớm nhất sẽ giúp các tổ chức tài khách hàng, chẳng hạn như chương trình chính ngân hàng nâng cao hiệu quả thu nợ. khách hàng thân thiết. Một hồ dữ liệu được Bên cạnh đó, thị trường của khu vực Bắc 68 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
  11. NGÔ THÙY LINH Mỹ được thúc đẩy bởi các yếu tố như việc trữ trong hồ dữ liệu. Trong những trường ngày càng nhiều dữ liệu được tạo ra từ lượng hợp này, thách thức lớn nhất là lưu trữ nhấp chuột, nhật ký máy chủ, dữ liệu người những dữ liệu đó trong hồ mà không có đăng ký, dữ liệu của các hệ thống quản biện pháp bảo mật và giám sát (Gulbahar lý quan hệ khách hàng (CRM- Customer Karatas, 2021). Không chỉ vấn đề bảo mật Relationship Management) và hệ thống dữ liệu mà vấn đề chất lượng dữ liệu trong hoạch định nguồn lực doanh nghiệp (ERP- hồ dữ liệu cũng cần được quan tâm. Các hồ Enterprise Resource Planning), dự kiến ​​sẽ dữ liệu thu thập dữ liệu từ các nguồn khác thúc đẩy tăng trưởng thị trường với các nhà nhau và tích hợp vào một hệ thống duy cung cấp đưa ra các giải pháp và dịch vụ nhất, do đó quá trình này có thể gây khó hồ dữ liệu khác nhau. Ngoài ra, tỷ lệ áp khăn cho việc kiểm tra chất lượng dữ liệu. dụng trí tuệ nhân tạo và học máy cao hơn Hơn nữa quyền sở hữu và quản lý dữ liệu trong khu vực này cũng dự kiến ​​sẽ thúc đẩy không được xác định rõ ràng cho từng lĩnh tăng trưởng thị trường hồ dữ liệu (Research vực chủ đề dữ liệu hoặc các nguồn dữ liệu and Markets, 2021). Như vậy, khảo sát của ban đầu thì cũng chất lượng dữ liệu cũng bị Research and Markets (2021) cho thấy thị ảnh hưởng. Do đó, nếu chất lượng dữ liệu trường hồ dữ liệu những năm gần đây đã và không được đảm bảo và không chính xác dự kiến sẽ tăng đáng kể trong lĩnh vực tài thì các thông tin phân tích được sẽ không chính ngân hàng. Đặc biệt khu vực Bắc Mỹ hỗ trợ cho việc kinh doanh của tổ chức, gây dự kiến ​​sẽ triển khai các giải pháp về hồ dữ mất niềm tin của nhân viên, người dùng liệu ở mức cao. vào hồ dữ liệu, thậm chí vào cả sự lãnh đạo của các nhà quản lý. Để giải quyết vấn đề Thách thức khi triển khai hồ dữ liệu này, cần có sự cộng tác nhiều hơn giữa các Thách thức gặp phải khi triển khai hồ dữ nhóm quản trị và quản lý dữ liệu để dữ liệu liệu đó là thách thức về công nghệ, thách trong hồ dữ liệu được tổ chức hiệu quả. thức về quy trình, thách thức về nhân sự Ngoài ra cần có các chính sách và hành (Melissa Coates, 2017). động cụ thể để đảm bảo cũng như cải thiện - Về công nghệ, một số khó khăn liên quan chất lượng dữ liệu của tổ chức (Michael đến sự thực thi, phục hồi dữ liệu, quản lý Dixon, 2020). sự thay đổi, kiến trúc đa tầng phức tạp, khả - Về mặt nhân sự có một số khó khăn như năng mở rộng và lưu trữ chưa rõ ràng, làm sự nỗ lực không cần thiết liên quan đến việc với dữ liệu bị lỗi, sai… Các hồ dữ việc chuẩn hóa và xây dựng lược đồ dữ liệu có thể lưu trữ một lượng lớn dữ liệu. liệu, các kỳ vọng về nhà phân tích có thể Vì vậy, các tổ chức cần phải có các chính tự thực hiện các thao tác như chuẩn bị, tích sách quản lý dữ liệu tốt. Nếu không, hồ dữ hợp, làm sạch, phân tích dữ liệu. Mặc dù liệu có thể biến thành “đầm lầy dữ liệu” hồ dữ liệu cung cấp quyền truy cập cho mọi và không thể sử dụng được. Các tổ chức người trong tổ chức nhưng việc tham gia cần cập nhật dữ liệu và thực hiện các thao vào hồ dữ liệu trên thực tế không phải ai tác hợp nhất, xóa dữ liệu khi cần thiết, do cũng có thể tiếp cận được. Vì hồ dữ liệu đó dữ liệu có giá trị sẽ không bị lãng phí cũng lưu trữ cả dữ liệu phi cấu trúc, nên (Gulbahar Karatas, 2021). người dùng không có chuyên môn về công - Thách thức về quy trình bảo mật và quản nghệ thông tin không dễ dàng có thể phân trị dữ liệu, chất lượng dữ liệu… Đôi khi dữ tích cú pháp truy vấn dữ liệu (Gulbahar liệu yêu cầu bảo mật cũng có thể được lưu Karatas, 2021). Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 69
  12. Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng Như vậy bên cạnh những lợi ích mà hồ dữ chức tài chính ngân hàng có thể tiến hành liệu mang lại thì vẫn tồn tại một số thách lên kế hoạch và phát triển dự án hồ dữ liệu thức khi vận hành và triển khai hồ dữ liệu. cho tổ chức của mình. Khắc phục những thách thức đó đòi hỏi Tại Việt Nam, một khảo sát vào tháng tổ chức phải đưa ra các giải pháp kỹ thuật 9/2020 của Ngân hàng Nhà nước Việt Nam toàn diện và có thể phải điều chỉnh một số (NHNN) cũng cho thấy, 50% các ngân quy định nghiệp vụ kinh doanh, dẫn đến hàng đã xây dựng kho dữ liệu tập trung, chuyển đổi cả văn hóa làm việc nếu cần, 27% đã xây dựng các hồ dữ liệu để thu thập để nhận được các giá trị, lợi ích tối đa từ dữ liệu thô đến từ các điểm tiếp xúc số, hồ dữ liệu. khoảng 50% các ngân hàng đã ứng dụng phân tích dữ liệu để tối ưu hóa quy trình 5. Kết luận và một số khuyến nghị cho vận hành, tăng hiệu quả hoạt động, quản Việt Nam trị rủi ro... Tuy nhiên, quá trình xây dựng hệ thống quản trị dữ liệu cũng đang gặp Dữ liệu là chìa khóa tạo ra thông tin chi tiết phải nhiều khó khăn và thách thức như: có giúp tổ chức thiết kế các sản phẩm, dịch rất nhiều loại dữ liệu trong hệ thống; logic vụ và chiến lược tốt hơn, phù hợp hơn với nghiệp vụ phức tạp; nguồn nhân lực chưa nhu cầu khách hàng. Tuy nhiên, bản thân đáp ứng được yêu cầu, khuôn khổ pháp lý dữ liệu có thể đặt ra thách thức vì trên thực hỗ trợ công tác khai thác dữ liệu lớn, bảo tế dữ liệu tồn tại ở nhiều định dạng khác đảm an toàn, bảo mật dữ liệu cho khách nhau như ở dạng có cấu trúc, phi cấu trúc, hàng... (Hồng Anh, 2020). Một số khuyến bán cấu trúc, hoặc dưới dạng văn bản, hình nghị cho các tổ chức tài chính ngân hàng ảnh, video hoặc có thể ở các định dạng ở Việt Nam khi tiến hành triển khai hồ dữ khác khiến cho việc lưu trữ dữ liệu theo liệu là: thứ nhất, tổ chức cần có chiến lược phương thức cũ gặp khó khăn. Cơ sở dữ và chính sách quản trị dữ liệu nội bộ cũng liệu truyền thống không được trang bị để như dữ liệu bên ngoài, dữ liệu có cấu trúc, xử lý một lượng lớn, đa dạng dữ liệu. Do phi cấu trúc để đảm bảo việc tích hợp cũng đó, ngoài kho dữ liệu để lưu trữ dữ liệu có như quản trị dữ liệu trong hồ dữ liệu được cấu trúc và dữ liệu đã được chuyển đổi, các chính xác và hiệu quả; thứ hai, các tổ chức tổ chức tài chính ngân hàng cũng cần có nên đưa ra các chính sách đẩy mạnh việc hồ dữ liệu để lưu trữ và quản lý dữ liệu phi khám phá thông tin tiềm ẩn trong hồ dữ cấu trúc và dữ liệu thô ở tất cả các định liệu bằng cách sử dụng các kỹ thuật học dạng khác nhau. Bài báo đã trình bày tổng máy, học sâu của trí tuệ nhân tạo để đổi quan về hồ dữ liệu, phân tích sự cần thiết mới sáng tạo trong kinh doanh. của việc triển khai hồ dữ liệu ở các tổ chức Trong nghiên cứu này, vấn đề bảo mật dữ ngân hàng hiện nay, quy trình lập kế hoạch liệu và quản trị dữ liệu trong hồ dữ liệu và xây dựng, kiến trúc hồ dữ liệu cho mô chưa được đề cập tới một cách rõ ràng và hình dữ liệu ngân hàng và cuối cùng là thảo chi tiết, đây vừa là hạn chế của nghiên cứu luận về lợi ích và thách thức khi triển khai cũng vừa là hướng nghiên cứu tiếp theo của hồ dữ liệu. Từ những phân tích này, các tổ tác giả khi tìm hiểu sâu hơn về hồ dữ liệu. ■ Tài liệu tham khảo Awadallah and Graham, 2011, “Hadoop and the Data Warehouse: When to Use Which”, [Online: marketing.teradata. com/When-to-Use-Hadoop] 70 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
  13. NGÔ THÙY LINH AWS, 2016, “National Bank of Canada Case Study”, Amazon. [Online: https://aws.amazon.com/vi/partners/featured/ financial-services/data-lakes-analytics/] Darko Golec, 2019, “Data Lake Architecture for a Banking Data Model”, ENTRENOVA. [Online: https://www. thecognizant.com/blog/case-a-banks-new-data-lake-is-built-for-business/] David Taylor, 2022, “Data Lake vs Data Warehouse: What’s the Difference?”, Guru99. Erik Nordmark, 2020, “Case: A Bank’s New Data Lake is Built for Business”, Cognizant Sweden. IBM, 2016, “IBM Industry Model support for a data lake architecture”, ©IBM Corporation. IDC, 2021, “Data Creation and Replication Will Grow at a Faster Rate than Installed Storage Capacity, According to the IDC Global DataSphere and StorageSphere Forecasts”, IDC Corporation. Indium Software, 2020, “Data Lakes for Digital Banks”, ©Indium Software. DIXON J. 2010, “Pentaho, Hadoop, and Data Lake”, [Online: https://jamesdixon.wordpress.com/2010/10/14/pentaho- hadoop-and-data-lakes/]. Geoffrey Keating, 2021, “Data Lakes: What They Are and Why Companies Use Them”, [Online: https://segment.com/ blog/data-lakes/] Gulbahar Karatas, 2021, “Data Lake: What it is, What are the Benefits& Challenges”, Aimultiple. Hồng Anh, 2020, “Quản lý dữ liệu thông minh trong lĩnh vực ngân hàng, tài chính”, [Online: https://nhandan.vn/tin-tuc- kinh-te/quan-ly-du-lieu-thong-minh-trong-linh-vuc-ngan-hang-tai-chinh-618516/] Michael Lock, 2017, “ANGLING FOR INSIGHT IN TODAY’S DATA LAKE”, ABERDEEN. Michael Dixon, 2020, “The challenges of using data lakes in big data management”, Selerity. Research And Markets, 2021, Data Lakes Market - Growth, Trends, COVID-19 Impact, and Forecasts (2021 - 2026) , [Online: https://www.researchandmarkets.com/reports/4602227/data-lakes-market-growth-trends-covid- 19#rela2-5562494 ] Research And Markets, 2022, “Data Lakes Market: Global Industry Trends, Share, Size, Growth, Opportunity and Forecast 2022-2027”, [Online: https://www.researchandmarkets.com/reports/5562494/data-lakes-market-global- industry-trends-share#relc0-4602227] Saurabh Gupta & Venkata Giri, 2018, “Practical Enterprise Data Lake Insights”, Apress. Melissa Coates, 2017, Designing a Modern Data Warehouse + Data Lake, SentryOne. TechTarget, 2022, “Explore top data lake providers for substantial storage use”, [Online; https://www.techtarget.com/ searchstorage/tip/Explore-top-data-lake-providers-for-substantial-storage-use] Zaloni, 2016, “Data Lake 360° Financial Services”, Zaloni’s Arena software. Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 71
nguon tai.lieu . vn