Xem mẫu
- Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn
trong các tổ chức tài chính- ngân hàng
Ngô Thùy Linh
Khoa Hệ thống thông tin quản lý, Trường Học viện Ngân hàng
Ngày nhận: 29/04/2022 Ngày nhận bản sửa: 16/06/2022 Ngày duyệt đăng: 22/06/2022
Tóm tắt: Data lake (hồ dữ liệu) là khái niệm mới xuất hiện những năm gần đây
trong thời đại của dữ liệu lớn (big data). Mặc dù chủ đề về big data đã được
thảo luận nhưng vẫn còn nhiều thách thức trong nghiên cứu, đặc biệt là sự đa
dạng của dữ liệu. Một trong những thách thức đó là làm thế nào để tích hợp và
truy vấn khối lượng dữ liệu lớn từ nhiều nguồn khác nhau khi phương thức lưu
trữ dữ liệu truyền thống là kho dữ liệu không đáp ứng được. Data lake- Hồ dữ
liệu được đề xuất như một giải pháp cho vấn đề này. Bài báo tập trung nghiên
cứu kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng dựa trên cơ sở tham
chiếu đến mô hình dữ liệu của hãng IBM. Tiếp theo bài báo phân tích vai trò và
sự cần thiết của hồ dữ liệu, trình bày về quy trình xây dựng cũng như kiến trúc
hồ dữ liệu phù hợp trong các tổ chức tài chính ngân hàng. Cuối cùng là thảo
luận về lợi ích của hồ dữ liệu giúp cho các bộ phận nghiệp vụ truy cập và phân
tích dữ liệu trên toàn bộ tổ chức, ngoài ra thách thức về công nghệ trong quá
Data lake architecture: big data storage and analysis in financial banking organizations
Abstract: Data Lake is one of the dominant concepts in the era of big data. Although big data has been
discussed, it still has many research challenges, especially the variety of data. It poses a huge difficulty
to efficiently integrate and query the large volume of diverse data in information silos with the traditional
approaches such as data warehouses. Data lakes have been proposed as a solution to this problem. This
paper focuses on studying data lake architecture for banking data model based on reference to IBM’s data
model. Next, this paper analyzes the role and necessity of a data lake, presents the data lake execution
process and the right data lake architecture in financial banking organizations. Finally, the author discusses
the benefits of data lakes in helping business departments access and analyze data across the organization,
besides the technological challenges of implementing data lakes in financial and banking institutions also
described in this paper.
Keywords: data lake architecture, the financial banking organizations, data lake, data warehouse, big data.
Ngo, Thuy Linh
Email: linhnt@hvnh.edu.vn
Faculty of Management Information System, Banking Academy of Vietnam
© Học viện Ngân hàng Tạp chí Khoa học & Đào tạo Ngân hàng
ISSN 1859 - 011X 59 Số 243- Tháng 8. 2022
- Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
trình triển khai hồ dữ liệu tại các tổ chức tài chính ngân hàng cũng được nêu trong
bài báo này.
Từ khóa: kiến trúc hồ dữ liệu, tổ chức tài chính ngân hàng, hồ dữ liệu, kho dữ liệu, dữ
liệu lớn
1. Giới thiệu thông mạng xã hội, các nhận xét, bình luận,
các ứng dụng cài đặt trên thiết bị thông
Theo báo cáo của tập đoàn dữ liệu quốc minh... Vào đầu những năm 2000, các tổ
tế (IDC- International Data Corporation, chức doanh nghiệp chưa nghĩ đến việc phải
2021), năm 2020 có 64,2 ZB (Zettabyte1) theo dõi “lượt thích” của khách hàng trên
dữ liệu đã được tạo ra và lượng dữ liệu sinh các kênh mạng xã hội. Nhưng ngày nay,
ra mỗi ngày lớn hơn tổng lượng dữ liệu việc nắm bắt và phân tích các thông tin
được tạo ra trong cả một năm ở thời điểm thực tế như vậy cũng có thể mang lại cơ
những năm 2000. Câu hỏi đặt ra là: nên lưu hội kinh doanh quan trọng. Một lần nữa có
trữ bao nhiêu trong số đó? Nhiều tổ chức thể khẳng định dữ liệu là chìa khóa để tạo
nhận thấy rằng các phương pháp quản lý ra các quyết định trong các tổ chức doanh
dữ liệu truyền thống đang trở nên lỗi thời, nghiệp. Do vậy, giải pháp về hồ dữ liệu
quá chậm để đưa ra phản hồi (Michael (data lake) sẽ khắc phục hạn chế mà kho
Lock, 2017). Chẳng hạn như với giải pháp dữ liệu chưa làm được. Cụ thể, hồ dữ liệu
xây dựng kho dữ liệu (data warehouse) đã cho phép lưu lại đầy đủ các thuộc tính của
giúp các tổ chức doanh nghiệp tích hợp dữ dữ liệu nhằm mục đích trả lời các câu hỏi
liệu từ nhiều hệ thống khác nhau trong các có thể xuất hiện trong tương lai (Geoffrey
bộ phận, phòng ban. Cách thiết kế và triển Keating, 2021).
khai kho dữ liệu đã làm đơn giản hóa việc Theo báo cáo tổ chức nghiên cứu thị trường
truy cập dữ liệu, đồng thời hỗ trợ cho tổ lớn nhất thế giới năm 2022 (Research and
chức trong việc đưa ra câu trả lời cần thiết Markets, 2022), thị trường hồ dữ liệu đạt
trong kinh doanh. Tuy nhiên, không thể 7,4 tỷ USD năm 2021. Dự kiến thị trường
lường trước được các câu hỏi mang tính này sẽ lên tới 30,2 tỷ USD vào năm 2027,
chất quyết định và các báo cáo mà doanh với tốc độ tăng trưởng kép hàng năm
nghiệp có thể cần ngay theo thời gian thực, (CAGR- Compounded Annual Growth
giải pháp hiện tại mất quá nhiều thời gian Rate) là 26,4% trong giai đoạn 2022- 2027.
để đưa ra kết quả chuyên sâu từ dữ liệu thu Hồ dữ liệu vượt xa kho dữ liệu và đã trở
thập được. Khối lượng dữ liệu tăng lên mỗi thành một lựa chọn kinh tế cho các tổ chức
ngày dẫn đến thách thức ngày càng lớn khi bởi vì chi phí duy trì một hồ dữ liệu thấp
kho dữ liệu phải đối mặt với vấn đề này. hơn chi phí xây dựng cơ sở dữ liệu cho các
Trong kiến trúc dữ liệu hiện đại, việc thu kho dữ liệu.
thập dữ liệu mới phải tương đối dễ dàng để Với tốc độ tăng trưởng dữ liệu ngày một lớn
có thể tiến hành phân tích một cách nhanh và đa dạng khiến cho việc lưu trữ dữ liệu
chóng. Khối lượng dữ liệu đã bùng nổ khi theo cách truyền thống trong các tổ chức
các doanh nghiệp khám phá ra giá trị của gặp nhiều hạn chế như đã đề cập ở trên, có
các thông tin trên các phương tiện truyền thể nhận định rằng hồ dữ liệu là giải pháp
1
ZB = 1021 byte thay thế tối ưu hiện nay. Nội dung tiếp theo
60 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
- NGÔ THÙY LINH
của bài báo sẽ trình bày tổng quan về hồ dữ (2018), hồ dữ liệu có một số đặc điểm quan
liệu; kiến trúc hồ dữ liệu cho mô hình dữ trọng sau:
liệu ngân hàng; và cuối cùng là thảo luận về - Khả năng mở rộng quy mô cơ sở hạ tầng
lợi ích, thách thức khi triển khai hồ dữ liệu. phần cứng.
- Tính khả dụng: dữ liệu trong hồ dữ liệu
2. Tổng quan về hồ dữ liệu phải chính xác và sẵn sàng cho tất cả người
dùng ngay khi họ cần xử lý thông tin.
2.1. Khái niệm và đặc điểm hồ dữ liệu - Khả năng tiếp cận: các mô hình truy cập
được chia sẻ để đảm bảo dữ liệu có thể
Vào tháng 10/2010, James Dixon, người được truy cập bởi tất cả các ứng dụng.
sáng lập và là cựu giám đốc công nghệ - Khả năng truy xuất nguồn gốc: lưu trữ
(Chief Technology Officer- CTO) của toàn bộ dữ liệu của một tổ chức và quản
Pentaho, đã đưa ra thuật ngữ “Data Lake” lý dữ liệu được lưu trữ trong suốt vòng đời
(Saurabh Gupta & Venkata Giri, 2018). Ý của nó, từ định nghĩa, truy cập và lưu trữ
tưởng thiết kế data lake- hồ dữ liệu là khu dữ liệu đến xử lý, phân tích và ứng dụng.
vực lưu trữ tập trung, hợp nhất cho các dữ - Các chính sách quản trị dữ liệu không
liệu thô, không có cấu trúc, bán cấu trúc được thực thi ràng buộc về dữ liệu.
và có cấu trúc, được lấy từ nhiều nguồn Đặc điểm của hồ dữ liệu cho thấy nó thực
và không có lược đồ xác định trước. Các sự cần thiết hỗ trợ cho các chiến lược dữ
hồ dữ liệu đã được tạo ra để lưu “dữ liệu liệu trong tổ chức doanh nghiệp, đảm bảo
có giá trị tiềm ẩn”. Giá trị của dữ liệu và lưu trữ và xử lý với 4 đặc tính của dữ liệu
những hiểu biết sâu sắc thu được từ hồ có lớn là khối lượng, vận tốc, tính xác thực
thể là những ẩn số và thay đổi tùy theo câu và sự đa dạng nhằm đáp ứng kỳ vọng của
hỏi được đặt ra cũng như nghiên cứu đang khách hàng và sự toàn cầu hóa nhanh chóng
được thực hiện. Hồ dữ liệu cũng cho phép của các nền kinh tế.
người dùng thực hiện các loại phân tích
khác nhau trên dữ liệu như ngôn ngữ truy 2.2. Quy trình lập kế hoạch và xây dựng
vấn cơ sở dữ liệu SQL (Structured Query hồ dữ liệu
Language), phân tích dữ liệu lớn, phân tích
dữ liệu theo thời gian thực và học máy để Quy trình lập kế hoạch và xây dựng hồ dữ
đưa ra các quyết định tốt hơn. liệu theo các bước như Hình 1.
Hồ dữ liệu chứa một lượng lớn dữ liệu thô Quy trình lập kế hoạch xây dựng hồ dữ liệu
ở dạng nguyên bản cho đến khi các doanh gồm các bước: xác định thách thức của tổ
nghiệp xác định được việc sử dụng dữ liệu chức, xây dựng giải pháp chiến lược, dự
đó như thế nào. Nền tảng của hồ dữ liệu là đoán sự tăng trưởng của dữ liệu, lên kế
một hệ thống lưu trữ có thể chứa tất cả dữ hoạch về cơ sở hạ tầng, xác định chiến
liệu trong một tổ chức, từ thông tin chất lược hoạt động. Sau khi lập kế hoạch thì
lượng của nhà cung cấp, giao dịch của các bước cần thực hiện để xây dựng hồ dữ
khách hàng, đến dữ liệu hiệu suất sản phẩm liệu: xác định nguồn dữ liệu và người dùng
theo thời gian thực. Hơn thế nữa, hồ dữ liệu hệ thống, xây dựng chiến lược thu thập dữ
còn cung cấp thông tin chi tiết hữu ích có liệu, thiết lập chiến lược lưu trữ dữ liệu,
thể được tùy chỉnh để đáp ứng nhu cầu và xác định các mô hình phân tích dữ liệu,
mong muốn của khách hàng. cuối cùng là các mục đích sử dụng dữ liệu.
Theo Saurabh Gupta & Venkata Giri Dựa trên cơ sở chung về quy trình lập kế
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 61
- Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
khách hàng, lòng trung thành
của khách hàng.
Các tổ chức tài chính ngân
hàng dựa trên quy trình xây
dựng hồ dữ liệu được mô tả ở
các giai đoạn trên để triển khai
thực tế tại tổ chức.
3. Kiến trúc hồ dữ liệu cho
mô hình dữ liệu ngân hàng
Trước khi đưa ra kiến trúc hồ
dữ liệu phục vụ cho lĩnh vực
ngân hàng, cần tham chiếu
đến một kiến trúc hồ dữ liệu
chung, bài viết này tập trung
Nguồn: Saurabh Gupta & Venkata Giri (2018)
tham chiếu đến mô hình hồ
Hình 1. Quy trình lập kế hoạch và xây dựng hồ dữ liệu
dữ liệu của hãng International
Business Machines (IBM).
hoạch và xây dựng hồ dữ liệu, quy trình Ngoài IBM, còn có một số mô hình hồ dữ
triển khai hồ dữ liệu cho ngân hàng được liệu của các nhà cung cấp khác như Hewlett
đề xuất như sau (Indium Software, 2020): Packard Enterprise (HPE), Microsoft
- Xây dựng kiến trúc nghiệp vụ mô tả việc Azure và Amazon Web Services (AWS)…
theo dõi thông tin từ khách hàng/người Theo TechTarget (2022), Microsoft Azure
dùng cuối cho đến nền tảng kỹ thuật số của và AWS là những nhà cung cấp hồ dữ liệu
ngân hàng trên các lớp khác nhau như chức dựa trên đám mây lớn nhất, còn IBM và
năng, bảo mật, ứng dụng, dữ liệu và cơ sở HPE cũng là một trong các nhà cung cấp
hạ tầng. công nghệ lưu trữ lớn có thể giúp các doanh
- Xây dựng mô hình dữ liệu cho hồ dữ liệu nghiệp xây dựng một hồ dữ liệu tại chỗ.
sẽ hỗ trợ báo cáo hoạt động, báo cáo tổng IBM cung cấp triển khai hồ dữ liệu thông
quan cũng như phân tích nâng cao. qua các sản phẩm Power và Spectrum
- Phát triển kiến trúc kỹ thuật của hồ dữ Scale. Các tổ chức doanh nghiệp có thể lựa
liệu (hoặc nền tảng dữ liệu kết hợp) để thiết chọn hoặc xây dựng hồ dữ liệu tại chỗ, hoặc
lập một khuôn khổ tiêu chuẩn cho việc di trên đám mây hoặc kết hợp cả hai, hơn nữa
chuyển dữ liệu. IBM cùng với đối tác Cloudera cung cấp
- Phát triển đưa ra các khung để quản trị dữ khả năng phân tích, bảo mật cao và quản trị
liệu, bảo mật, tích hợp, quản lý dữ liệu chủ dữ liệu hiệu quả. Việc lựa chọn nhà cung
và siêu dữ liệu. cấp phụ thuộc vào loại nền tảng lưu trữ- tại
- Xây dựng và triển khai các thành phần chỗ hoặc đám mây- cũng như các loại dữ
như đường ống dữ liệu, cơ sở dữ liệu, thành liệu và quản trị dữ liệu của tổ chức.
phần hồ dữ liệu, báo cáo, mô hình phân tích Một trong những điểm nổi bật của mô hình
và báo cáo tổng quan. dữ liệu IBM so với các mô hình của các nhà
- Vận hành các mô hình phân tích vào các cung cấp khác là có sự tách biệt giữa định
chức năng nghiệp vụ như tiếp thị, thu hút nghĩa về bộ từ vựng nghiệp vụ hệ thống và
62 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
- NGÔ THÙY LINH
Nguồn: IBM (2016)
Hình 2. Kiến trúc tham chiếu cho Hồ dữ liệu
định nghĩa của bất kỳ cấu trúc liên quan liệu thì mô hình dữ liệu IBM với các định
nào sẽ được sử dụng trong việc thiết kế hồ nghĩa rõ ràng về cấu trúc dữ liệu sẽ đảm
dữ liệu. Việc sử dụng các bộ từ vựng này bảo tính nhất quán của các kho được lưu
của IBM cho phép tất cả những người sử trữ trong hồ dữ liệu (IBM, 2016).
dụng hồ sơ dữ liệu đều có cái nhìn thống Hình 2 cung cấp tóm tắt về sự tương tác
nhất về nghiệp vụ hệ thống. Mặt khác khi chính của các thành phần khác nhau trong
tổ chức cần định nghĩa trước về lược đồ dữ mô hình hồ dữ liệu IBM, nơi lưu trữ và xử lý
Nguồn: Awadallah and Graham (2011)
Hình 3. Hệ thống cùng tồn tại hồ dữ liệu và kho dữ liệu
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 63
- Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
Bảng 1. Sự khác nhau giữa kho dữ liệu và hồ dữ liệu
Tiêu chí Hồ dữ liệu Kho dữ liệu
Kiểu dữ Tất cả dữ liệu được lưu giữ bất kể nguồn và cấu Bao gồm dữ liệu được trích xuất từ các hệ thống
liệu trúc ban đầu. Dữ liệu được giữ ở dạng thô, chỉ giao dịch. Dữ liệu được làm sạch và chuyển đổi
được chuyển đổi khi đã sẵn sàng để sử dụng.
Lịch sử Công nghệ dữ liệu lớn được sử dụng trong hồ dữ Không giống như dữ liệu lớn, khái niệm kho dữ
liệu là tương đối mới. liệu đã được sử dụng trong nhiều thập kỷ.
Thu thập Tất cả các loại dữ liệu và cấu trúc, bán cấu trúc và Dữ liệu có cấu trúc và sắp xếp chúng trong các
dữ liệu không cấu trúc ở dạng ban đầu của chúng từ các lược đồ như được xác định cho mục đích xây
hệ thống nguồn. dựng kho dữ liệu
Thời gian Các hồ dữ liệu có thể giữ lại tất cả dữ liệu. Điều Trong quá trình phát triển kho dữ liệu, thời gian
này không chỉ bao gồm dữ liệu đang được sử đáng kể được dành cho việc phân tích các
dụng mà còn bao gồm dữ liệu có thể sử dụng nguồn dữ liệu khác nhau.
trong tương lai. Ngoài ra, dữ liệu được lưu giữ mọi
lúc để có thể quay ngược thời gian và thực hiện
phân tích.
Người Hồ dữ liệu lý tưởng cho những người dùng muốn Kho dữ liệu lý tưởng cho người sử dụng vì được
dùng phân tích sâu như các nhà khoa học dữ liệu, cấu trúc tốt, dễ sử dụng và dễ hiểu.
những người cần các công cụ phân tích tiên tiến
với các khả năng như mô hình dự đoán và phân
tích thống kê.
Chi phí Chi phí lưu trữ rẻ hơn so với kho dữ liệu Tương đối đắt hơn
Nhiệm vụ Chứa tất cả các dữ liệu và kiểu dữ liệu; nó cho Cung cấp thông tin chi tiết về các câu hỏi được
phép người dùng truy cập dữ liệu trước quá trình xác định trước cho các loại dữ liệu được xác
chuyển đổi, làm sạch và có cấu trúc. định trước.
Thời gian Thời gian xử lý nhanh. Các hồ dữ liệu trao quyền Thời gian xử lý chậm hơn. Kho dữ liệu cung cấp
xử lý cho người dùng truy cập dữ liệu trước khi nó thông tin chi tiết về các câu hỏi được xác định
được chuyển đổi, làm sạch và có cấu trúc. Do trước cho các loại dữ liệu đã được xác định. Vì
đó, nó cho phép người dùng nhận được kết quả vậy, bất kỳ thay đổi nào đối với kho dữ liệu đều
của họ nhanh hơn so với kho dữ liệu truyền cần thêm thời gian.
thống.
Lợi ích Tích hợp các loại dữ liệu khác nhau để đưa ra Cung cấp các báo cáo và các chỉ số hiệu suất
những câu hỏi hoàn toàn mới chính.
Hạn chế Dữ liệu được giữ ở dạng thô, chỉ được chuyển đổi Không có khả năng thay đổi.
khi dữ liệu đó đã sẵn sàng để sử dụng.
Nguồn: David Taylor (2022)
dữ liệu lớn sử dụng nền tảng Hadoop cùng Mô hình vật lý Hadoop sử dụng nền tảng
một số hệ quản trị dữ liệu quan hệ truyền công nghệ Hadoop để xử lý và làm việc với
thống khác để lưu trữ dữ liệu có cấu trúc. khối lượng dữ liệu lớn, mô hình vật lý này
Trong kiến trúc tham chiếu Hồ dữ liệu ở triển khai Sandbox hỗ trợ cho công việc
Hình 2, bộ từ vựng nghiệp vụ hệ thống phải nghiên cứu và phân tích dữ liệu của các nhà
là cơ sở cho bất kỳ hoạt động tìm kiếm hoặc khoa học dữ liệu (IBM, 2016).
khám phá nào được thực hiện bởi người Với dữ liệu có cấu trúc thì kho dữ liệu là sự
dùng trong các bộ phận phòng ban của tổ lựa chọn phù hợp để xây dựng khi đã biết
chức doanh nghiệp và nhà khoa học dữ liệu. lược đồ dữ liệu. Ngược lại, hồ dữ liệu được
Mô hình vật lý thứ nguyên để triển khai các triển khai để tích hợp một lượng lớn dữ liệu
cấu trúc cần thiết để xây dựng kho dữ liệu. phi cấu trúc như nhật ký, hình ảnh, video
64 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
- NGÔ THÙY LINH
Nguồn: Darko Golec (2019)
Hình 4. Kiến trúc hồ dữ liệu cho mô hình dữ liệu ngân hàng
hoặc tài liệu và dữ liệu có cấu trúc. Nếu dự lý và truy xuất dữ liệu đó. Ngược lại hồ dữ
kiến dữ liệu của tổ chức tăng trưởng đáng liệu lưu trữ dữ liệu thô, phi cấu trúc, bán
kể theo thời gian và được sinh ra với tốc độ cấu trúc và có cấu trúc mà không cần xử
lớn, có thể tồn tại ở các dạng khác nhau, và lý trước nên giải pháp về hồ dữ liệu là một
tiềm ẩn những thông tin có thể tạo ra giá trị giải pháp thực tế và chi phí thấp. Ngoài ra
kinh doanh cao, thì trong trường hợp này, hồ dữ liệu cũng rất linh hoạt và dễ quản lý,
kiến trúc hồ dữ liệu thích hợp hơn kiến trúc không có trở ngại nào trong việc giới thiệu
kho dữ liệu. Trong nhiều tổ chức, cả hai các kiểu dữ liệu mới, giúp cho tổ chức sử
giải pháp này đều cùng tồn tại (Awadallah dụng các ứng dụng khác nhau dễ dàng hơn.
and Graham, 2011), thể hiện trong Hình 3. Và vì việc mở rộng quy mô không phải là
Sự khác nhau giữa kho dữ liệu và hồ dữ một vấn đề trong hồ dữ liệu nên hồ dữ liệu
liệu được trình bày ở Bảng 1. là một trong những kiến trúc được ưa thích
Bảng 1 mô tả sự khác nhau giữa kho dữ cho dữ liệu lớn (David Taylor, 2022). Như
liệu và hồ dữ liệu. Khác với kho dữ liệu- vậy kho dữ liệu và hồ dữ liệu đều có những
chỉ lưu trữ dữ liệu có cấu trúc đã được lựa ưu điểm và hạn chế, do đó chúng không thể
chọn và chuẩn hóa cho mục đích cụ thể, thay thế nhau mà cùng tồn tại để bổ sung
còn hồ dữ liệu có thể tích hợp và lưu trữ hỗ trợ nhau.
mọi loại dữ liệu ở định dạng gốc với bất Dựa trên cơ sở tham chiếu đến các mô hình
kỳ quy mô nào để phục vụ cho phân tích ở Hình 2 và Hình 3, Hình 4 thể hiện kiến
dữ liệu trong tương lai. Vì việc sử dụng dữ trúc hồ dữ liệu được xây dựng cho mô hình
liệu được xác định trước nên kiến trúc kho dữ liệu ngân hàng được đưa ra bởi Ngân
dữ liệu yêu cầu lập kế hoạch cẩn thận: loại hàng Thế giới (World Bank).
dữ liệu nào sẽ được truy xuất, công cụ nào Kiến trúc hồ dữ liệu cho mô hình dữ liệu
sẽ được sử dụng để thu thập, tổ chức, xử ngân hàng được trình bày ở Hình 4 là một
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 65
- Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
trong những kiến trúc hồ dữ liệu khả thi Một số lợi ích khi triển khai hồ dữ liệu
về chi phí, khả năng mở rộng, bảo mật cho Thứ nhất, hồ dữ liệu cho phép tổ chức tài
mô hình dữ liệu ngân hàng (Darko Golec, chính ngân hàng lưu trữ và truy cập các loại
2019). Kiến trúc hồ dữ liệu này bao gồm dữ liệu khác nhau, giúp cho việc chia sẻ và
các thành phần chính sau: phân tích dữ liệu trên toàn doanh nghiệp
- Vùng lưu trữ (Archive): Thu thập và lưu trở nên nhanh chóng, dễ dàng hơn. Theo
trữ dữ liệu từ các nguồn bên ngoài theo lô báo cáo của Erik Nordmark (2020), tập
hoặc theo thời gian thực. đoàn ngân hàng Bắc Âu- Baltic mỗi ngày
- Vùng quản lý và ánh xạ (Master and có một lượng lớn dữ liệu phi cấu trúc được
Map): vùng quản lý dữ liệu chủ và vùng sinh ra từ các kênh tương tác và dữ liệu có
quản lý ánh xạ (mapping) dữ liệu. cấu trúc về giao dịch của khách hàng được
- Vùng cục bộ (Units): vùng quản lý dữ liệu ghi lại ở các hệ thống nghiệp vụ khiến cho
địa phương và vùng quản lý báo cáo. việc lưu trữ, tích hợp và phân tích dữ liệu
- Vùng tích hợp và báo cáo (Intergration trở nên khó khăn hơn. Từ thực trạng này,
and Report): vùng quản lý kho dữ liệu và ngân hàng đã tiến hành xây dựng triển khai
vùng quản lý báo cáo. hồ dữ liệu để quản lý khối lượng lớn dữ
- Vùng mô hình và phân tích (Models and liệu từ các nguồn dữ liệu bên trong và bên
Analytics): vùng sử dụng công cụ kinh ngoài, cung cấp quyền truy cập dữ liệu trên
doanh thông minh và vùng phân tích dữ liệu. toàn ngân hàng, đáp ứng được một số sáng
Một cách tổng quát thì toàn bộ dữ liệu lớn kiến về chiến lược kinh doanh của ngân
được thu thập, lưu trữ và quản trị, ràng buộc hàng. Ngoài ra, việc phân tích dữ liệu trên
bởi các vùng cùng tồn tại (Coexistence hồ dữ liệu còn hỗ trợ xử lý sự kiện theo
zone) với nhau trong hệ sinh thái đó, chẳng thời gian thực. Một số kết quả đạt được của
hạn như các vùng: “Danh mục và Quản trị” ngân hàng Baltic khi triển khai hồ dữ liệu
(Catalog and Governance), Quản lý siêu và sử dụng kỹ thuật phân tích dữ liệu dựa
dữ liệu (Metadata), Dòng dữ liệu, Bảo mật trên trí tuệ nhân tạo là:
và Truy cập. Dữ liệu cho nhân viên, người + Chống rửa tiền và phân loại rủi ro
dùng hệ thống có thể được truy cập tại vùng + Dự đoán dòng tiền và phân nhóm hành
“thụ hưởng và phân phát” (Consumption vi tài chính
and Delivery). Kiến trúc hồ dữ liệu ở Hình + Thực hiện mô hình chuyển nhượng thế
4 đã trình bày các phân vùng cùng tồn tại chấp trên hồ dữ liệu
để lưu trữ, tích hợp dữ liệu từ nhiều nguồn + Các kế hoạch tốt nhất kế tiếp để quản lý
bên trong và bên ngoài của tổ chức. Để đáp quan hệ khách hàng.
ứng được điều này thì kho dữ liệu được Cho đến nay, ngân hàng Baltic đã trải
thiết kế để lưu trữ dữ liệu có cấu trúc từ các nghiệm một số khả năng, lợi thế mới từ
hệ thống nghiệp vụ. Như vậy các tổ chức việc lưu trữ và phân tích dữ liệu trên hồ dữ
tài chính ngân hàng có thể triển khai thực liệu. Nhờ đó, ngân hàng cũng hiểu rõ hơn
hiện đồng thời hai giải pháp kho dữ liệu và về hành vi mua hàng của khách hàng và có
hồ dữ liệu để quản trị dữ liệu trong tổ chức thể khai thác dữ liệu giao dịch của họ để đưa
của mình như minh họa trong kiến trúc hồ ra “hành động tốt nhất tiếp theo” phù hợp
dữ liệu ở Hình 4. với nhu cầu của khách hàng vào đúng thời
điểm. Cùng với kỹ thuật phân tích dữ liệu
4. Lợi ích và thách thức triển khai hồ dữ dựa trên trí tuệ nhân tạo, ngân hàng cũng dự
liệu đoán được rủi ro khách hàng sẽ chấm dứt
66 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
- NGÔ THÙY LINH
hợp đồng thế chấp của họ trong vòng hai liệu trong vòng chưa đầy 2 tuần. Nhóm các
tháng tiếp theo (Erik Nordmark, 2020). công cụ phái sinh vốn chủ sở hữu toàn cầu
Như vậy có thể nhận định rằng hồ dữ liệu (GED- Global Equity Derivatives Group)
giúp cho các tổ chức tài chính ngân hàng của ngân hàng quốc gia Canada là đơn vị
truy cập và phân tích dữ liệu trên toàn bộ tổ đi đầu trong việc cung cấp các giải pháp
chức một cách dễ dàng. Điều này còn được giao dịch chứng khoán nhằm quản lý các
thể hiện rõ hơn qua báo cáo của Research chứng khoán được giao dịch trao đổi như
and Markets (2021), một số ngân hàng đã cổ phiếu, quỹ, hợp đồng tương lai. GED
và đang tăng cường các hồ dữ liệu để tích thu thập và xử lý khối lượng dữ liệu tài
hợp dữ liệu trên nhiều lĩnh vực khác nhau chính thị trường chứng khoán đang phát
nhằm tạo ra một cơ sở dữ liệu trung tâm. triển nhanh chóng, chẳng hạn như thông
Tập đoàn Ngân hàng Úc và New Zealand tin lịch sử thương mại và báo giá. Trước
(ANZ) đang thực hiện một dự án tổng hợp đây, tổ chức gặp phải khó khăn trong việc
tất cả các kho dữ liệu trên các lĩnh vực để mở rộng nền tảng phân tích dữ liệu khi sử
tạo ra một hồ dữ liệu trung tâm cho các hoạt dụng môi trường công nghệ thông tin tại
động ngân hàng. Sự gia tăng thanh toán kỹ chỗ, môi trường phần cứng truyền thống
thuật số của người tiêu dùng đã thúc đẩy và việc lưu trữ dữ liệu có cấu trúc trên các
lượng dữ liệu được lưu trữ với các ngân hệ quản trị cơ sở dữ liệu quan hệ không
hàng trong mỗi giao dịch. Do đó, cơ hội thể theo kịp tốc độ tăng trưởng dữ liệu của
cho phân tích dữ liệu lớn ngày càng tăng. GED. Ngân hàng cần một môi trường có
Hơn nữa, Mox Bank Limited (Mox), một khả năng mở rộng hơn để có thể phân tích
ngân hàng ở Hồng Kông, đã đăng ký hơn dữ liệu hiệu quả, đưa ra các thông tin chi
35.000 khách hàng trong tháng đầu tiên, sử tiết có ý nghĩa hơn. GED cũng tìm kiếm
dụng các giải pháp từ AWS để thu thập, một cách hiệu quả hơn để xử lý dữ liệu tài
lưu trữ, xử lý an toàn và phân tích dữ liệu chính, ngân hàng cần xử lý và phân tích cả
giao dịch, tận dụng dữ liệu thông tin chi dữ liệu phi cấu trúc và dữ liệu có cấu trúc,
tiết để xây dựng trải nghiệm ngân hàng lấy chẳng hạn như trong trrường hợp có một số
khách hàng làm trung tâm khi sử dụng các lượng lớn các tệp nhật ký cần được phân
dịch vụ từ Amazon dựa trên hồ dữ liệu. tích dựa trên dữ liệu thị trường được cập
Việc triển khai các hồ dữ liệu trong lĩnh nhật. Từ thực trạng này, GED đã tiến hành
vực ngân hàng phá vỡ số lượng các thông triển khai xây dựng hồ dữ liệu trong vòng
tin silo (thông tin về một thực thể được lưu chưa đầy 2 tuần. Họ đã sử dụng TickVault
trữ ở nhiều hệ thống khác nhau nhưng lại trên đám mây AWS, dễ dàng xử lý và phân
không giống nhau). Lưu trữ dữ liệu trong tích hàng trăm terabyte dữ liệu thương mại
cơ sở hạ tầng được quản lý tập trung như và dữ liệu báo giá lịch sử, bên cạnh đó vẫn
cơ sở hạ tầng hồ dữ liệu dựa trên Apache có thể xem xét dữ liệu từ 10 năm trước nếu
Hadoop giúp cắt giảm số lượng silo thông cần thiết. Các nhà phân tích kinh doanh của
tin trong một tổ chức, giúp người dùng GED hiện có thể tiến hành phân tích giao
trong toàn tổ chức có thể truy cập và có cái dịch thương mại nhanh hơn nhiều so với
nhìn thống nhất về dữ liệu (Research and trước đây: Các quy trình thao tác dữ liệu
Markets, 2021). mất nhiều ngày giờ chỉ còn một phút trên hồ
Ngân hàng Quốc gia Canada là một trong dữ liệu. Hơn nữa, việc truy vấn dữ liệu hiện
những tổ chức dịch vụ tài chính hàng đầu tại và lịch sử chỉ còn trong vài giờ đồng hồ.
của Canada tiếp cận dữ liệu lớn trên hồ dữ Giờ đây, GED có thể phục vụ khách hàng
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 67
- Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
của mình tốt hơn. Điều này được thể hiện quản lý tốt cho phép các tổ chức tập hợp tất
rõ hơn qua phát biểu của Pascal Bergeron, cả dữ liệu vào một nền tảng thống nhất và
Giám đốc giao dịch thuật toán (Director cung cấp cho các nhà tiếp thị quyền truy cập
of Algorithmic Trading) của Ngân hàng có kiểm soát vào dữ liệu cần thiết cho việc
Quốc gia Canada: “Chúng tôi có khả năng nhắm đến các khách hàng mục tiêu. Nền
phân tích sau giao dịch nhanh hơn và tốt tảng trực quan hóa tương tác cung cấp các
hơn bằng cách sử dụng TickVault và AWS. góc nhìn khác nhau về dữ liệu và cho phép
Nhờ đó, chúng tôi có thể cải thiện và tối ưu các nhà tiếp thị lập hồ sơ khách hàng để
hóa hoạt động giao dịch của mình và tạo phân tích (Zaloni, 2016). Cũng theo báo cáo
thêm doanh thu cho Ngân hàng Quốc gia của Research and Markets (2021), hơn 60%
Canada. Chúng tôi cũng có thể sử dụng dữ tổ chức tài chính ở Hoa Kỳ tin rằng phân
liệu để xem cách chúng tôi có thể giao dịch tích dữ liệu lớn mang lại lợi thế cạnh tranh
với giá tốt hơn cho khách hàng của mình” đáng kể so với các đối thủ và hơn 90% công
(AWS, 2016). ty tin rằng các sáng kiến dữ liệu lớn xác định
Từ những minh chứng trên có thể khẳng cơ hội thành công trong tương lai.
định rằng, lợi ích đầu tiên khi triển khai Phát hiện và ngăn chặn gian lận trong giao
hồ dữ liệu tại các tổ chức tài chính ngân dịch của khách hàng tại ngân hàng là lợi
hàng đó là dữ liệu được lưu trữ tập trung ích thứ ba mà hồ dữ liệu đem lại cho các
tại một nơi, từ đó giúp cho ngân hàng có tổ chức tài chính ngân hàng. Gian lận giao
thể truy cập dữ liệu khác nhau theo thời dịch, gian lận danh tính và rửa tiền là những
gian, kể cả truy vấn dữ liệu lịch sử, nhưng mối quan tâm lớn đối với các tổ chức dịch
vẫn đảm bảo các bộ phận nghiệp vụ có cái vụ tài chính, ngân hàng. Một lý do là nhiều
nhìn chung thống nhất về dữ liệu vì đã khắc kẻ gian lận có thể thao túng việc thanh toán
phục được hiện tượng thông tin silo. Việc nhanh hơn mức mà các nhà điều tra có thể
chia sẻ dữ liệu trở nên dễ dàng hơn kết hợp kiểm tra. Một hồ dữ liệu được quản lý tốt
với ứng dụng của trí tuệ nhân tạo để phân có thể cho phép nhập dữ liệu theo thời gian
tích, khai thác dữ liệu trong hồ dữ liệu giúp thực và phát hiện gian lận tự động với các
cho ngân hàng thu hút và giữ chân khách thuật toán phát hiện các dạng gian lận tiềm
hàng, cũng như phát hiện, ngăn chặn các ẩn trong khối lượng dữ liệu khổng lồ. Tạo
rủi ro trong các giao dịch của khách hàng danh mục dữ liệu tập trung cung cấp giao
hiệu quả hơn trước khi tổ chức triển khai diện người dùng trực quan để tìm kiếm
hồ dữ liệu. và phân tích trên tất cả dữ liệu và hỗ trợ
Lợi ích thứ hai mà hồ dữ liệu mang lại là các nhân viên nhanh chóng thực hiện phân
cung cấp cái nhìn tổng quan về khách hàng, tích dữ liệu tự phục vụ thông qua giao diện
tăng cường khả năng dự đoán các xu hướng người dùng trực quan (Zaloni, 2016). Hơn
tài chính cũng như cải thiện và cá nhân hóa nữa, hiệu quả thu hồi nợ của ngân hàng có
trải nghiệm của khách hàng. Các tổ chức thể cải thiện đáng kể bằng cách phân tích
dịch vụ tài chính triển khai hồ dữ liệu sử hiệu quả thu hồi dựa trên dữ liệu giao dịch
dụng nhiều nguồn dữ liệu khác nhau để có của khách hàng được lưu trữ trong hồ dữ
được cái nhìn toàn diện về khách hàng, tạo liệu, bên cạnh việc phân nhóm khách hàng
ra trải nghiệm khách hàng được cá nhân hóa nhằm xác định và ưu tiên khách hàng nào
hơn và hỗ trợ các chương trình giữ chân liên hệ sớm nhất sẽ giúp các tổ chức tài
khách hàng, chẳng hạn như chương trình chính ngân hàng nâng cao hiệu quả thu nợ.
khách hàng thân thiết. Một hồ dữ liệu được Bên cạnh đó, thị trường của khu vực Bắc
68 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
- NGÔ THÙY LINH
Mỹ được thúc đẩy bởi các yếu tố như việc trữ trong hồ dữ liệu. Trong những trường
ngày càng nhiều dữ liệu được tạo ra từ lượng hợp này, thách thức lớn nhất là lưu trữ
nhấp chuột, nhật ký máy chủ, dữ liệu người những dữ liệu đó trong hồ mà không có
đăng ký, dữ liệu của các hệ thống quản biện pháp bảo mật và giám sát (Gulbahar
lý quan hệ khách hàng (CRM- Customer Karatas, 2021). Không chỉ vấn đề bảo mật
Relationship Management) và hệ thống dữ liệu mà vấn đề chất lượng dữ liệu trong
hoạch định nguồn lực doanh nghiệp (ERP- hồ dữ liệu cũng cần được quan tâm. Các hồ
Enterprise Resource Planning), dự kiến sẽ dữ liệu thu thập dữ liệu từ các nguồn khác
thúc đẩy tăng trưởng thị trường với các nhà nhau và tích hợp vào một hệ thống duy
cung cấp đưa ra các giải pháp và dịch vụ nhất, do đó quá trình này có thể gây khó
hồ dữ liệu khác nhau. Ngoài ra, tỷ lệ áp khăn cho việc kiểm tra chất lượng dữ liệu.
dụng trí tuệ nhân tạo và học máy cao hơn Hơn nữa quyền sở hữu và quản lý dữ liệu
trong khu vực này cũng dự kiến sẽ thúc đẩy không được xác định rõ ràng cho từng lĩnh
tăng trưởng thị trường hồ dữ liệu (Research vực chủ đề dữ liệu hoặc các nguồn dữ liệu
and Markets, 2021). Như vậy, khảo sát của ban đầu thì cũng chất lượng dữ liệu cũng bị
Research and Markets (2021) cho thấy thị ảnh hưởng. Do đó, nếu chất lượng dữ liệu
trường hồ dữ liệu những năm gần đây đã và không được đảm bảo và không chính xác
dự kiến sẽ tăng đáng kể trong lĩnh vực tài thì các thông tin phân tích được sẽ không
chính ngân hàng. Đặc biệt khu vực Bắc Mỹ hỗ trợ cho việc kinh doanh của tổ chức, gây
dự kiến sẽ triển khai các giải pháp về hồ dữ mất niềm tin của nhân viên, người dùng
liệu ở mức cao. vào hồ dữ liệu, thậm chí vào cả sự lãnh đạo
của các nhà quản lý. Để giải quyết vấn đề
Thách thức khi triển khai hồ dữ liệu này, cần có sự cộng tác nhiều hơn giữa các
Thách thức gặp phải khi triển khai hồ dữ nhóm quản trị và quản lý dữ liệu để dữ liệu
liệu đó là thách thức về công nghệ, thách trong hồ dữ liệu được tổ chức hiệu quả.
thức về quy trình, thách thức về nhân sự Ngoài ra cần có các chính sách và hành
(Melissa Coates, 2017). động cụ thể để đảm bảo cũng như cải thiện
- Về công nghệ, một số khó khăn liên quan chất lượng dữ liệu của tổ chức (Michael
đến sự thực thi, phục hồi dữ liệu, quản lý Dixon, 2020).
sự thay đổi, kiến trúc đa tầng phức tạp, khả - Về mặt nhân sự có một số khó khăn như
năng mở rộng và lưu trữ chưa rõ ràng, làm sự nỗ lực không cần thiết liên quan đến
việc với dữ liệu bị lỗi, sai… Các hồ dữ việc chuẩn hóa và xây dựng lược đồ dữ
liệu có thể lưu trữ một lượng lớn dữ liệu. liệu, các kỳ vọng về nhà phân tích có thể
Vì vậy, các tổ chức cần phải có các chính tự thực hiện các thao tác như chuẩn bị, tích
sách quản lý dữ liệu tốt. Nếu không, hồ dữ hợp, làm sạch, phân tích dữ liệu. Mặc dù
liệu có thể biến thành “đầm lầy dữ liệu” hồ dữ liệu cung cấp quyền truy cập cho mọi
và không thể sử dụng được. Các tổ chức người trong tổ chức nhưng việc tham gia
cần cập nhật dữ liệu và thực hiện các thao vào hồ dữ liệu trên thực tế không phải ai
tác hợp nhất, xóa dữ liệu khi cần thiết, do cũng có thể tiếp cận được. Vì hồ dữ liệu
đó dữ liệu có giá trị sẽ không bị lãng phí cũng lưu trữ cả dữ liệu phi cấu trúc, nên
(Gulbahar Karatas, 2021). người dùng không có chuyên môn về công
- Thách thức về quy trình bảo mật và quản nghệ thông tin không dễ dàng có thể phân
trị dữ liệu, chất lượng dữ liệu… Đôi khi dữ tích cú pháp truy vấn dữ liệu (Gulbahar
liệu yêu cầu bảo mật cũng có thể được lưu Karatas, 2021).
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 69
- Kiến trúc hồ dữ liệu: lưu trữ và phân tích dữ liệu lớn trong các tổ chức tài chính- ngân hàng
Như vậy bên cạnh những lợi ích mà hồ dữ chức tài chính ngân hàng có thể tiến hành
liệu mang lại thì vẫn tồn tại một số thách lên kế hoạch và phát triển dự án hồ dữ liệu
thức khi vận hành và triển khai hồ dữ liệu. cho tổ chức của mình.
Khắc phục những thách thức đó đòi hỏi Tại Việt Nam, một khảo sát vào tháng
tổ chức phải đưa ra các giải pháp kỹ thuật 9/2020 của Ngân hàng Nhà nước Việt Nam
toàn diện và có thể phải điều chỉnh một số (NHNN) cũng cho thấy, 50% các ngân
quy định nghiệp vụ kinh doanh, dẫn đến hàng đã xây dựng kho dữ liệu tập trung,
chuyển đổi cả văn hóa làm việc nếu cần, 27% đã xây dựng các hồ dữ liệu để thu thập
để nhận được các giá trị, lợi ích tối đa từ dữ liệu thô đến từ các điểm tiếp xúc số,
hồ dữ liệu. khoảng 50% các ngân hàng đã ứng dụng
phân tích dữ liệu để tối ưu hóa quy trình
5. Kết luận và một số khuyến nghị cho vận hành, tăng hiệu quả hoạt động, quản
Việt Nam trị rủi ro... Tuy nhiên, quá trình xây dựng
hệ thống quản trị dữ liệu cũng đang gặp
Dữ liệu là chìa khóa tạo ra thông tin chi tiết phải nhiều khó khăn và thách thức như: có
giúp tổ chức thiết kế các sản phẩm, dịch rất nhiều loại dữ liệu trong hệ thống; logic
vụ và chiến lược tốt hơn, phù hợp hơn với nghiệp vụ phức tạp; nguồn nhân lực chưa
nhu cầu khách hàng. Tuy nhiên, bản thân đáp ứng được yêu cầu, khuôn khổ pháp lý
dữ liệu có thể đặt ra thách thức vì trên thực hỗ trợ công tác khai thác dữ liệu lớn, bảo
tế dữ liệu tồn tại ở nhiều định dạng khác đảm an toàn, bảo mật dữ liệu cho khách
nhau như ở dạng có cấu trúc, phi cấu trúc, hàng... (Hồng Anh, 2020). Một số khuyến
bán cấu trúc, hoặc dưới dạng văn bản, hình nghị cho các tổ chức tài chính ngân hàng
ảnh, video hoặc có thể ở các định dạng ở Việt Nam khi tiến hành triển khai hồ dữ
khác khiến cho việc lưu trữ dữ liệu theo liệu là: thứ nhất, tổ chức cần có chiến lược
phương thức cũ gặp khó khăn. Cơ sở dữ và chính sách quản trị dữ liệu nội bộ cũng
liệu truyền thống không được trang bị để như dữ liệu bên ngoài, dữ liệu có cấu trúc,
xử lý một lượng lớn, đa dạng dữ liệu. Do phi cấu trúc để đảm bảo việc tích hợp cũng
đó, ngoài kho dữ liệu để lưu trữ dữ liệu có như quản trị dữ liệu trong hồ dữ liệu được
cấu trúc và dữ liệu đã được chuyển đổi, các chính xác và hiệu quả; thứ hai, các tổ chức
tổ chức tài chính ngân hàng cũng cần có nên đưa ra các chính sách đẩy mạnh việc
hồ dữ liệu để lưu trữ và quản lý dữ liệu phi khám phá thông tin tiềm ẩn trong hồ dữ
cấu trúc và dữ liệu thô ở tất cả các định liệu bằng cách sử dụng các kỹ thuật học
dạng khác nhau. Bài báo đã trình bày tổng máy, học sâu của trí tuệ nhân tạo để đổi
quan về hồ dữ liệu, phân tích sự cần thiết mới sáng tạo trong kinh doanh.
của việc triển khai hồ dữ liệu ở các tổ chức Trong nghiên cứu này, vấn đề bảo mật dữ
ngân hàng hiện nay, quy trình lập kế hoạch liệu và quản trị dữ liệu trong hồ dữ liệu
và xây dựng, kiến trúc hồ dữ liệu cho mô chưa được đề cập tới một cách rõ ràng và
hình dữ liệu ngân hàng và cuối cùng là thảo chi tiết, đây vừa là hạn chế của nghiên cứu
luận về lợi ích và thách thức khi triển khai cũng vừa là hướng nghiên cứu tiếp theo của
hồ dữ liệu. Từ những phân tích này, các tổ tác giả khi tìm hiểu sâu hơn về hồ dữ liệu. ■
Tài liệu tham khảo
Awadallah and Graham, 2011, “Hadoop and the Data Warehouse: When to Use Which”, [Online: marketing.teradata.
com/When-to-Use-Hadoop]
70 Tạp chí Khoa học & Đào tạo Ngân hàng- Số 243- Tháng 8. 2022
- NGÔ THÙY LINH
AWS, 2016, “National Bank of Canada Case Study”, Amazon. [Online: https://aws.amazon.com/vi/partners/featured/
financial-services/data-lakes-analytics/]
Darko Golec, 2019, “Data Lake Architecture for a Banking Data Model”, ENTRENOVA. [Online: https://www.
thecognizant.com/blog/case-a-banks-new-data-lake-is-built-for-business/]
David Taylor, 2022, “Data Lake vs Data Warehouse: What’s the Difference?”, Guru99.
Erik Nordmark, 2020, “Case: A Bank’s New Data Lake is Built for Business”, Cognizant Sweden.
IBM, 2016, “IBM Industry Model support for a data lake architecture”, ©IBM Corporation.
IDC, 2021, “Data Creation and Replication Will Grow at a Faster Rate than Installed Storage Capacity, According to
the IDC Global DataSphere and StorageSphere Forecasts”, IDC Corporation.
Indium Software, 2020, “Data Lakes for Digital Banks”, ©Indium Software.
DIXON J. 2010, “Pentaho, Hadoop, and Data Lake”, [Online: https://jamesdixon.wordpress.com/2010/10/14/pentaho-
hadoop-and-data-lakes/].
Geoffrey Keating, 2021, “Data Lakes: What They Are and Why Companies Use Them”, [Online: https://segment.com/
blog/data-lakes/]
Gulbahar Karatas, 2021, “Data Lake: What it is, What are the Benefits& Challenges”, Aimultiple.
Hồng Anh, 2020, “Quản lý dữ liệu thông minh trong lĩnh vực ngân hàng, tài chính”, [Online: https://nhandan.vn/tin-tuc-
kinh-te/quan-ly-du-lieu-thong-minh-trong-linh-vuc-ngan-hang-tai-chinh-618516/]
Michael Lock, 2017, “ANGLING FOR INSIGHT IN TODAY’S DATA LAKE”, ABERDEEN.
Michael Dixon, 2020, “The challenges of using data lakes in big data management”, Selerity.
Research And Markets, 2021, Data Lakes Market - Growth, Trends, COVID-19 Impact, and Forecasts (2021 - 2026)
, [Online: https://www.researchandmarkets.com/reports/4602227/data-lakes-market-growth-trends-covid-
19#rela2-5562494 ]
Research And Markets, 2022, “Data Lakes Market: Global Industry Trends, Share, Size, Growth, Opportunity and
Forecast 2022-2027”, [Online: https://www.researchandmarkets.com/reports/5562494/data-lakes-market-global-
industry-trends-share#relc0-4602227]
Saurabh Gupta & Venkata Giri, 2018, “Practical Enterprise Data Lake Insights”, Apress.
Melissa Coates, 2017, Designing a Modern Data Warehouse + Data Lake, SentryOne.
TechTarget, 2022, “Explore top data lake providers for substantial storage use”, [Online; https://www.techtarget.com/
searchstorage/tip/Explore-top-data-lake-providers-for-substantial-storage-use]
Zaloni, 2016, “Data Lake 360° Financial Services”, Zaloni’s Arena software.
Số 243- Tháng 8. 2022- Tạp chí Khoa học & Đào tạo Ngân hàng 71
nguon tai.lieu . vn