Xem mẫu
- KH&CN nước ngoài
Big data và ứng dụng trong bảo mật thông tin
ThS Lò Thị Phương Nhung, ThS Nguyễn Mai Phương
Viện Thông tin Khoa học, Học viện Chính trị quốc gia Hồ Chí Minh
Big data đã và đang là một trong những vấn đề trung tâm, nhận được nhiều sự quan tâm trong cuộc
Cách mạng công nghiệp (CMCN) 4.0. Big data chính là cốt lõi để sử dụng, phát triển internet vạn vật
(IoT) và trí tuệ nhân tạo (AI). Theo dự báo, CMCN 4.0 sẽ tạo ra một lượng lớn dữ liệu (đến năm 2020,
lượng dữ liệu sẽ tăng gấp 50 lần hiện nay) [1]. Thông qua thu thập, phân tích và xử lý lượng dữ liệu
lớn này sẽ tạo ra những tri thức mới, hỗ trợ tích cực trong quản lý, sản xuất kinh doanh và nhiều lĩnh
vực của đời sống xã hội, trong đó có bảo mật thông tin.
Tổng quan về big data
Hiện nay, có nhiều quan điểm
khác nhau về khái niệm big data
- “dữ liệu lớn”. Theo Viện Nghiên
cứu toàn cầu McKinsey (Mỹ), big
data được hiểu là tập hợp dữ liệu
với kích thước vượt xa khả năng
của các công cụ phần mềm thông
thường để thu thập, hiển thị, quản
lý và xử lý dữ liệu trong một thời
gian có thể chấp nhận được. Nhìn
từ góc độ giá trị của dữ liệu, có ý
kiến cho rằng, big data không chỉ
có nghĩa là dung lượng lớn mà còn
có nghĩa thông qua việc tích hợp,
phân tích và xử lý đối với những
Trong xã hội thông tin hiện nay, mỗi người đều là chủ thể tạo ra dữ liệu.
dữ liệu này, con người có thể phát
hiện được tri thức mới và thu được Thiết bị di động ngày càng rẻ và phức tạp và tính không xác định ở
giá trị mới, từ đó mang đến cho con nhiều, anten, nhật ký phần mềm, mức độ cao. Tốc độ nhanh của big
người tri thức, lợi nhuận và sự phát các thiết bị thu hình, thu thanh, đầu data không chỉ thể hiện ở việc dữ
triển lớn hơn. Để có thể hiểu thêm đọc RFID, mạng cảm biến không liệu được tạo ra một cách nhanh
khái niệm big data, chúng ta cần dây… đều góp phần đắc lực cho chóng mà còn thể hiện ở tốc độ
thấy được các thuộc tính kỹ thuật quá trình tạo ra dữ liệu. xử lý thông tin nhanh. Thời đại big
và thuộc tính xã hội của nó. data đòi hỏi phương thức vận hành
Tính đa dạng. Tính đa dạng của
Về thuộc tính kỹ thuật dữ liệu lớn thể hiện ở các phương của dữ liệu cần chuyển từ trạng
diện: đa dạng về loại (dữ liệu kết thái dữ liệu động và tĩnh sang trạng
Dung lượng lớn. Trong xã hội
cấu và dữ liệu phi kết cấu); đa thái dữ liệu đang sử dụng nhằm
thông tin hiện nay, mỗi người đều
dạng về nguồn gốc (tổ chức và cá đạt được mục đích xử lý thông tin
là chủ thể tạo ra dữ liệu. Qua các
nhân trong xã hội đều là chủ thể nhanh chóng.
công cụ khác nhau như tin nhắn,
mạng xã hội, mạng mua sắm điện tạo ra nguồn dữ liệu); nội dung dữ Sự tồn tại đan xen giữa dữ liệu
tử, truyền hình... những hành vi liệu (tất cả các lĩnh vực, các khía có giá trị cao và dữ liệu có giá trị
thường ngày trong công việc và cạnh của đời sống xã hội).
thấp. Chỉ những dữ liệu đã được
cuộc sống của mỗi cá nhân đều Tốc độ nhanh. Một đặc trưng phân tích, xử lý và chọn lọc thì mới
có thể trở thành nguồn dữ liệu. nổi bật của xã hội thông tin là tính là những dữ liệu có giá trị thật sự.
57
Soá 12 naêm 2019
- KH&CN nước ngoài
Trong thời đại big data, bên cạnh thông tin càng nhiều, lượng thông dùng để phân tích, xác định hoặc
dữ liệu có giá trị thì cũng tồn tại tin được tạo ra sẽ càng lớn. Có dự báo về quan điểm, mối quan
những dữ liệu ít có ý nghĩa đối với thể nói, trong thời đại big data, kỹ tâm, tình cảm của khách hàng về
chúng ta. thuật và công nghệ liên quan đến các sản phẩm và dịch vụ mà họ
big data trở thành nguồn lực cốt lõi đã sử dụng. Ví dụ như hệ thống dữ
Về thuộc tính xã hội
quan trọng nhất của một quốc gia liệu thu thập từ nhật ký máy chủ
Thứ nhất, big data là một loại [2]. (Log Server), hệ thống dữ liệu từ
năng lực và kỹ thuật. Ưu thế của các sự kiện nhấp chuột trên các
Thứ tư, big data là một phương
thời đại big data chính là ở chỗ con website, hệ thống dữ liệu thu thập
thức tư duy. Big data không chỉ là
người có thể tiến hành phân tích, từ các máy cảm biến (Sensors), hệ
trạng thái dữ liệu lớn, một loạt kỹ
lưu trữ và sử dụng nguồn dữ liệu thống dữ liệu thu thập từ hệ thống
thuật thông tin tiên tiến mà còn là
khổng lồ mà kỹ thuật truyền thông thông tin địa lý (GIS)… Việc bảo
một quan niệm và phương pháp
không thể thực hiện được. Thông đảm an toàn cho hệ thống big data
liên ngành trong nhận thức và cải
qua việc phân tích đối với nguồn được các doanh nghiệp nhỏ và vừa
tạo thế giới. Nó tạo điều kiện để
dữ liệu khổng lồ, con người không rất quan tâm, bởi dữ liệu càng lớn
thực hiện một xã hội mở với mức
chỉ tận dụng được giá trị tiềm năng càng là mục tiêu tấn công của các
độ cao; nhấn mạnh việc chia sẻ và
của dữ liệu mà còn sử dụng nó vào tội phạm công nghệ cao.
tương tác về mặt thông tin. Chính
việc đổi mới và sáng tạo.
điều này góp phần vào việc đổi Sự xuất hiện của big data với
Thứ hai, big data là kết cấu hạ mới quan niệm, phương pháp nhận những công nghệ ứng dụng mới
tầng. Trong xã hội nông nghiệp, thức của con người đối với thế giới. cũng giúp mở rộng quy mô của các
đất đai và thủy lợi là những hạ Big data làm cho tư duy của con hệ thống dữ liệu để sử dụng một
tầng chủ yếu; trong xã hội công người trở nên biện chứng hơn, giúp tập hợp các nguồn tài nguyên phân
nghiệp, năng lượng, đường bộ, nhìn nhận vấn đề và sự việc một tán với các bộ vi xử lý nhanh hơn
đường sắt, hàng không... là những cách đa chiều hơn. và lưu trữ nhiều dữ liệu hơn, giúp
kết cấu hạ tầng chủ yếu. Trong bối tận dụng được tất cả các nguồn dữ
Thứ năm, big data là “một thời
cảnh của CMCN 4.0, thông tin trở liệu sẵn có, để cung cấp các phân
đại”. Thời đại big data lấy dữ liệu
thành nguồn lực chiến lược quan tích tốt hơn và nhanh hơn đối với
làm nguyên tố cơ bản, làm nguồn
trọng; điện toán đám mây (cloud việc phát hiện tấn công và phản
lực chiến lược, chỉ cần nắm được
computing), trung tâm dữ liệu, ứng các sự cố. Big data sẽ chuyển
dữ liệu thì sẽ có được năng lực
mạng di động tốc độ cao... sẽ trở đổi phân tích an toàn thông tin
cạnh tranh cốt lõi. Trong thời đại
thành kết cấu hạ tầng quan trọng. bằng cách thu thập dữ liệu ở một
big data, mỗi một cá thể đều là
Việc xây dựng kết cấu hạ tầng này quy mô lớn từ nhiều nguồn (các
“nguồn” của dữ liệu, thông qua
vừa cần vai trò quy hoạch và đầu bản ghi nhật ký hệ thống đến các
những phương thức khác nhau mỗi
tư của nhà nước, vừa cần sự tham cơ sở dữ liệu về lỗ hổng bảo mật,
cá thể đều có thể thể hiện tiếng nói
gia và đầu tư của doanh nghiệp. dữ liệu về tấn công mạng, dữ liệu
của mình. Thời đại dữ liệu lớn cũng
Thứ ba, big data là nguồn lực có nghĩa là thời đại xã hội mở, một mã độc…), sau đó được sử dụng với
cốt lõi. Các loại nguồn lực vật chất thời đại mà quyền lực trở nên phân các ứng dụng chính như:
truyền thống như đất đai, năng tán hơn, đời sống xã hội trở nên tự Một là, theo dõi và phát hiện
lượng... đều là những nguồn lực do và dân chủ hơn [3]. Botnet. Botnet hiện đang là một
khan hiếm, người này sử dụng trong những mối đe dọa lớn và là
sẽ ảnh hưởng đến việc sử dụng Ứng dụng trong bảo mật thông tin một thách thức đối với các chuyên
của người khác. Nhưng đặc tính Các nhà cung cấp các giải pháp gia an toàn thông tin. Việc phát hiện
của nguồn thông tin là ở chỗ, việc an toàn thông tin cho các doanh Botnet đòi hỏi phải thu thập một
người này sử dụng và tiêu dùng nghiệp nhỏ và vừa đều xem big lượng lớn dữ liệu mạng để phân tích.
không ảnh hưởng đến việc sử data là yếu tố không thể tách rời Với việc ứng dụng big data, dự án
dụng của người khác, không hề với các kết quả phân tích nguy cơ nghiên cứu Botcloud do nhóm của
làm giảm đi mà còn làm tăng thêm và rủi ro của hệ thống, đặc biệt các Jer’ome Fraçois và đồng nghiệp tại
giá trị của nó. Quan trọng hơn là, hệ thống thông tin thương mại điện Đại học Luxembourg thực hiện đã
quá trình tiêu dùng thông tin cũng tử với nguồn dữ liệu khổng lồ từ các sử dụng mô hình MapReduce để
đồng thời là quá trình tạo ra thông phương tiện truyền thông xã hội. phân tích một lượng lớn các dữ liệu
tin mới, người sử dụng và tiêu dùng Đây là nhóm dữ liệu thường được Netflow để xác định các máy tính
58
Soá 12 naêm 2019
- KH&CN nước ngoài
trình độ chuyên môn cao thực hiện, khắp thế giới (dữ liệu điện thoại,
được hậu thuẫn bởi những tổ chức email, hình ảnh, video, trạng thái
có tiềm lực. Một thách thức trong trên các trang mạng xã hội…), từ đó
việc dò tìm các cuộc tấn công APT phân tích và đưa ra các cảnh báo
là việc lọc toàn bộ số lượng dữ liệu về các dấu hiệu khủng bố có thể
nhằm phát hiện những bất thường xảy ra. Với sự trợ giúp của những
đang xảy ra. Vì thế phân tích big gã khổng lồ công nghệ thông tin
data là một tiếp cận phù hợp trong như Microsoft, Yahoo, Google,
việc dò tìm các cuộc tấn công Facebook, PalTalk, AOL, Skype,
Phân tích một lượng lớn các dữ liệu APT. Tại Phòng thí nghiệm RSA YouTube, và Apple cùng với việc
Netflow để xác định các máy tính bị (chuyên nghiên cứu để giải quyết hợp tác với FBI để thu thập dữ liệu
lây nhiễm đang tham gia trong một các vấn đề về an ninh mạng cấp điện thoại (cuộc gọi, tin nhắn, danh
mạng Botnet. bách trên thế giới), một hệ thống bạ...) thì cơ quan này đang giám
dò tìm tấn công APT được nghiên sát dữ liệu thông qua PRISM [6] ?
bị lây nhiễm đang tham gia trong cứu có tên là Beehive. Các kết
một mạng Botnet. Dự án này đã TÀI LIỆU THAM KHẢO
quả nghiên cứu ban đầu cho thấy,
mở ra nhiều hướng mới trong việc
Beehive cung cấp khả năng để xử [1] Marek Obitko, Industry 4.0 and
xây dựng các hệ thống thông minh
lý khoảng 1 tỷ các thông điệp bản big data, http://www.stech.cz/Portals/0/
để phát hiện Botnet. MapReduce Konference/2015/03%20Industr y-/
ghi sự kiện trong một giờ và nhận
được sử dụng cho dự án này, vì một PDF/03_obitko.pdf.
lượng lớn các dữ liệu Netflow được diện các hành động vi phạm chính
thu thập cần phải phân tích. 720 sách, cũng như sự lây nhiễm phần [2] Li Shuqing, Jiao Fusen, Zhang
triệu bản ghi Netflow (77 GB) được mềm độc hại. Yong, Xu Xia (2019), “Problems and
changes in digital libraries in the age
thu thập chỉ trong 23 giờ đồng hồ. Ba là, ứng dụng big data trong of big data from the perspective of user
BotCloud được xây dựng dựa trên phát hiện tấn công Zero-day. Tại services”, Journal of Academic Librari-
kiến trúc BotTrack. Kiến trúc này Symantec, bằng việc ứng dụng anship, 45(1), pp.22-30.
được thiết kế để theo dõi và phát big data, các kỹ sư an ninh mạng [3] Astrid Mager (2019), “The poli-
hiện Botnet bằng việc sử dụng đã đưa ra một nền tảng WINE tics of big data. Big data, big brother?”,
Netflow và thuật toán PageRan, (Worldwide Intelligence Network Information, Communication & Society,
thực hiện việc theo dõi các kênh Enviornment) cho việc tiến hành 22(10), pp.1523-1525.
C&C (command - and - control) phân tích dữ liệu, trên phạm vi rộng,
trong Botnet [4]. [4] Alguliyev Rasim, Imamverdiyev
sử dụng các dữ liệu thu thập được. Yadigar (2014), “Big Data: Big Promises
Hai là, ứng dụng big data trong Nền tảng WINE đã từng được sử for Information Security”, Conference
phát hiện tấn công APT*. Tấn công dụng để đo thời gian của 18 cuộc Proceedings, Publisher: IEEE.
APT thường do những đối tượng có tấn công Zero-day bằng cách kết [5] N. Miloslavskaya, A. Makhmudo-
hợp các hệ nhị phân tin cậy và tập va (2016), “Survey of Big Data Informa-
dữ liệu về các dấu hiệu ngăn chặn tion Security”, Conference Proceedings,
*APT là tên viết tắt của Advanced Persistent mã độc từ xa, tiến hành phân tích Publisher: IEEE.
Threat - thuật ngữ rộng dùng để mô tả một
chiến dịch tấn công, thường do một nhóm sử các trường dữ liệu được thu thập [6] United States National Security
dụng những kỹ thuật tấn công nâng cao để trên 11 triệu máy chủ (host) trên Agency (2013), PRISM Collection Man-
có thể hiện diện và tồn tại lâu dài trên mạng khắp thế giới, các tấn công này ager.
Internet nhằm khai thác dữ liệu có độ nhạy kéo dài từ 19 ngày đến 30 tháng.
cảm cao. Mục tiêu chính của những vụ tấn
công này thường được lựa chọn và nghiên
Hơn nữa, 60% các lỗ hổng bảo mật
cứu cẩn thận. Chúng thường bao gồm các được xác định trong nghiên cứu
doanh nghiệp lớn, các cơ quan chính phủ. này đã bị khai thác trong các tấn
Thực hiện tấn công APT đòi hỏi nhiều tài công Zero-day mà trước đó chưa
nguyên hơn tấn công ứng dụng web bình
thường. Những kẻ phạm tội thường là những
tìm ra [5]…
nhóm tội phạm mạng có kinh nghiệm và có Ngoài ra, Chương trình PRISM
hỗ trợ tài chính rất lớn. Một số cuộc tấn công
APT còn được chính phủ tài trợ và được sử
của cơ quan tình báo Mỹ đã ứng
dụng làm vũ khí chiến tranh mạng, phục vụ dụng công nghệ big data để thu
công tác tình báo. thập lượng thông tin khổng lồ trên
59
Soá 12 naêm 2019
nguon tai.lieu . vn