Xem mẫu

  1. i BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- LÊ HẢI VIỆT NGHIÊN CỨU XÂY DỰNG HỆ THỐNG V-SANDBOX TRONG PHÂN TÍCH VÀ PHÁT HIỆN MÃ ĐỘC IOT BOTNET LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH HÀ NỘI – 2022
  2. ii BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- Lê Hải Việt NGHIÊN CỨU XÂY DỰNG HỆ THỐNG V-SANDBOX TRONG PHÂN TÍCH VÀ PHÁT HIỆN MÃ ĐỘC IOT BOTNET Chuyên ngành: Hệ thống thông tin Mã số: 9 48 01 04 LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. TS. Ngô Quốc Dũng 2. GS.TS. Vũ Đức Thi Hà Nội – Năm 2022
  3. iii LỜI CAM ĐOAN Tôi xin cam đoan Luận án Tiến sĩ với tiêu đề “Nghiên cứu xây dựng hệ thống V- Sandbox trong phân tích và phát hiện mã độc IoT Botnet” là một công trình nghiên cứu của riêng tôi, dưới sự hướng dẫn khoa học của TS. Ngô Quốc Dũng và GS.TS. Vũ Đức Thi, trừ những kiến thức tham khảo từ các tài liệu liên quan ở trong nước và quốc tế đã được trích dẫn trong luận án. Các kết quả, số liệu được trình bày trong luận án là hoàn toàn trung thực, một phần kết quả đã được công bố trên các Tạp chí và Kỷ yếu Hội thảo khoa học chuyên ngành (tại Danh mục công trình của tác giả), phần còn lại chưa từng được công bố trong bất kỳ công trình nào khác. Hà Nội, Ngày tháng Năm 2022 Tác giả luận án
  4. iv LỜI CẢM ƠN Luận án này được nghiên cứu sinh (NCS) thực hiện trong quá trình học tập Tiến sĩ tại Học viện Khoa học và Công nghệ thuộc Viện Hàn lâm Khoa học và Công nghệ Việt Nam. Tại đây, NCS đã được các thầy, cô trong Học viện Khoa học và Công nghệ, Viện Công nghệ thông tin chỉ dạy và trang bị những kiến thức nền tảng cần thiết trong suốt quá trình thực hiện luận án, đồng thời NCS có cơ hội tiếp xúc chuyên sâu về lĩnh vực mới và cấp thiết trong an toàn thông tin liên quan tới phát hiện mã độc nói chung và mã độc Botnet nói riêng trên các thiết bị IoT dân sự. Trước hết, xin trân trọng cảm ơn hai Thầy đã hướng dẫn nghiên cứu sinh là TS. Ngô Quốc Dũng và GS.TS. Vũ Đức Thi, các Thầy đã tận tình hướng dẫn nghiên cứu sinh trong quá trình nghiên cứu cũng như hoàn thành luận án. Tiếp đó, NCS muốn gửi lời cảm ơn tới TS. Trần Nghi Phú, người đồng nghiệp và là người anh cả gợi mở các ý tưởng cho phương phướng phát triển nghiên cứu khoa học của NCS. Bên cạnh đó, NCS cũng muốn gửi lời cảm ơn chân thành đến các cộng sự TS. Nguyễn Huy Trung, Lê Văn Hoàng, Nguyễn Doãn Hiếu, Lương Đức Tuấn Đạt đã có nhiều hỗ trợ và giúp đỡ NCS trong quá trình thực hiện luận án. NCS xin gửi lời cảm ơn tới Ban Giám đốc, Lãnh đạo Khoa An ninh thông tin và các Phòng ban liên quan của Học viện An ninh nhân dân đã tạo điều kiện để NCS có thể tập trung nghiên cứu và thực hiện luận án này. Cuối cùng, NCS xin gửi lời cảm ơn chân thành đến gia đình, luôn luôn là nguồn động lực phấn đấu, khuyến khích và động viên NCS trong quá trình thực hiện luận án. Luận án này có một phần đóng góp to lớn của sự ủng hộ, động viên và giúp đỡ của gia đình. Xin chân thành cảm ơn!
  5. v MỤC LỤC LỜI CAM ĐOAN ...........................................................................................................i LỜI CẢM ƠN ...............................................................................................................iv MỤC LỤC ...................................................................................................................... v DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT .............................................ix DANH MỤC CÁC BẢNG............................................................................................. x DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .....................................................................xi MỞ ĐẦU ......................................................................................................................... 1 1. Tính cấp thiết của luận án ................................................................................... 1 2. Mục tiêu nghiên cứu của luận án........................................................................ 2 3. Đối tượng và phạm vi nghiên cứu ...................................................................... 2 3.1. Đối tượng nghiên cứu .................................................................................. 2 3.2. Phạm vi nghiên cứu ..................................................................................... 3 4. Nội dung và phương pháp nghiên cứu ............................................................... 3 4.1. Nội dung nghiên cứu.................................................................................... 3 4.2. Phương pháp nghiên cứu ............................................................................ 4 4.2.1. Nghiên cứu lý thuyết ............................................................................. 4 4.2.2. Nghiên cứu thực nghiệm ....................................................................... 4 5. Các đóng góp chính của luận án ......................................................................... 5 6. Bố cục của luận án ............................................................................................... 5 CHƯƠNG 1. TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET ..... 7 1.1. Tổng quan về thiết bị IoT ................................................................................. 7 1.1.1. Khái niệm thiết bị IoT ............................................................................... 7 1.1.2. Phân loại thiết bị IoT ................................................................................ 9 1.1.3. Các vấn đề bảo mật tồn tại trên thiết bị IoT hạn chế tài nguyên .......... 11 1.2. Tổng quan về mã độc IoT Botnet .................................................................. 12
  6. vi 1.2.1. Khái niệm mã độc IoT Botnet ................................................................. 12 1.2.2. Đặc điểm của mã độc IoT Botnet............................................................ 14 1.3. Quy trình phát hiện mã độc IoT Botnet ....................................................... 19 1.3.1. Tổng quan ................................................................................................ 19 1.3.2. Thu thập dữ liệu ...................................................................................... 23 1.3.3. Tiền xử lý dữ liệu..................................................................................... 30 1.3.3.1. Tiền xử lý dữ liệu luồng mạng ......................................................... 30 1.3.3.2. Tiền xử lý dữ liệu lời gọi hệ thống ................................................... 33 1.3.3.2. Tiền xử lý dữ liệu tương tác với tài nguyên của hệ thống ............... 39 1.3.4. Phân tích và phát hiện ............................................................................ 41 1.3.4.1. Ứng dụng học máy trong phát hiện mã độc IoT Botnet .................. 41 1.3.4.2 Ứng dụng học sâu trong phát hiện mã độc IoT Botnet ..................... 43 1.4. Kết luận Chương 1 .......................................................................................... 45 CHƯƠNG 2. XÂY DỰNG MÔI TRƯỜNG SANDBOX THU THẬP HIỆU QUẢ DỮ LIỆU HÀNH VI CỦA MÃ ĐỘC IOT BOTNET .............................................. 47 2.1. Phát biểu bài toán ........................................................................................... 47 2.1. Kiến trúc tổng quan mô hình đề xuất ........................................................... 48 2.2. Các thành phần chính ..................................................................................... 50 2.2.1. Trích xuất thông tin thuộc tính cơ bản của ELF (EME) ...................... 50 2.2.2. Sinh cấu hình hoạt động Sandbox (SCG) .............................................. 53 2.2.3. Môi trường Sandbox (SE) ....................................................................... 54 2.2.4. Tiền xử lý dữ liệu thô thu thập được (RDP) .......................................... 57 2.2.5. Tính toán khả năng thực thi lại Sandbox (SR) ...................................... 58 2.2.6. Giả lập máy chủ C&C (C&C simulator) ................................................ 59 2.2.7. Cơ sở dữ liệu thư viện liên kết động (Share Object DB) ....................... 60 2.2.8. Sinh báo cáo tự động (Report) ................................................................ 61
  7. vii 2.3. Thử nghiệm và đánh giá ................................................................................. 61 2.3.1. Bộ dữ liệu thử nghiệm............................................................................. 61 2.3.2. Triển khai thử nghiệm ............................................................................ 62 2.3.3. Kết quả kiểm nghiệm V-Sandbox ........................................................... 63 2.3.4. So sánh hiệu quả V-Sandbox với các IoT Sandbox khác...................... 66 2.4. Kết luận Chương 2 .......................................................................................... 69 CHƯƠNG 3. ĐẶC TRƯNG ĐỒ THỊ LỜI GỌI HỆ THỐNG CÓ HƯỚNG TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET ..................................................................... 71 3.1. Phát biểu bài toán ........................................................................................... 71 3.1.1. Lựa chọn nguồn dữ liệu động phục vụ tiền xử lý và phân tích ............ 71 3.1.2. Bài toán xây dựng đặc trưng từ lời gọi hệ thống ................................... 72 3.1.3. Sơ đồ và ý tưởng phương pháp đề xuất .................................................. 73 3.2. Đồ thị lời gọi hệ thống có hướng DSCG ........................................................ 75 3.2.1. Khái niệm đồ thị lời gọi hệ thống có hướng DSCG ............................... 75 3.2.1. Xây dựng đồ thị lời gọi hệ thống có hướng DSCG ................................ 76 3.3. Tiền xử lý dữ liệu đồ thị DSCG ..................................................................... 79 3.4. Thực nghiệm và đánh giá ............................................................................... 81 3.4.1. Bộ dữ liệu thực nghiệm ........................................................................... 81 3.4.2. Triển khai thử nghiệm ............................................................................ 82 3.4.3. Các chỉ số đánh giá ................................................................................. 84 3.4.4. Kết quả thử nghiệm và đánh giá ............................................................. 85 3.5. Kết luận Chương 3 .......................................................................................... 88 CHƯƠNG 4. MÔ HÌNH HỌC MÁY CỘNG TÁC PHÁT HIỆN SỚM MÃ ĐỘC IOT BOTNET .............................................................................................................. 90 4.1. Phát biểu bài toán ........................................................................................... 90 4.1.1. Vấn đề phát hiện sớm mã độc IoT Botnet .............................................. 90 4.1.2. Mô hình học máy cộng tác trong phát hiện sớm mã độc ...................... 91
  8. viii 4.1.3. Khảo sát và đánh giá các nghiên cứu liên quan .................................... 93 4.1.3.1. Mô hình học máy cộng tác trong phát hiện mã độc ........................ 93 4.1.3.2. Các mô hình phát hiện sớm trong nghiên cứu mã độc .................... 95 4.1.4. Bài toán phát hiện sớm mã độc IoT Botnet............................................ 98 4.2. Mô hình đề xuất .............................................................................................. 98 4.2.1. Kiến trúc tổng quan ................................................................................. 98 4.2.2. Môi trường Sandbox (SC) .....................................................................100 4.2.3. Tiền xử lý dữ liệu (PPDC) ....................................................................100 4.2.4. Chuẩn hóa dữ liệu tiền xử lý (DNC) ....................................................103 4.2.5. Trích chọn đặc trưng phù hợp ..............................................................104 4.2.6. Bộ phân lớp học máy (MLC) ................................................................105 4.2.7. Hàm hợp nhất (FC) ...............................................................................105 4.3. Thực nghiệm và đánh giá .............................................................................106 4.3.1. Tập mẫu thực nghiệm ...........................................................................106 4.3.2. Triển khai thử nghiệm ..........................................................................106 4.3.3. Kết quả thử nghiệm ...............................................................................107 4.3.4. Đánh giá kết quả thử nghiệm ...............................................................112 4.4. Kết luận Chương 4 ........................................................................................113 KẾT LUẬN ................................................................................................................114 DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ ........................................................117 TÀI LIỆU THAM KHẢO.........................................................................................119
  9. ix DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu, Từ nguyên gốc Nghĩa tiếng Việt đầy đủ chữ viết tắt IoT Internet of Things Vạn vật kết nối Internet Linux Executable and Linkable Định dạng tệp tin thực thi và liên kết ELF Format động trong Linux DSCG Directed System Call Graph Đồ thị lời gọi hệ thống có hướng Cơ quan chuyên trách về công nghệ International ITU thông tin và truyền thông của Liên Telecommunication Union hiệp quốc Supervisory Control And Data Hệ thống giám sát và điều khiển tập SCADA Acquisition trung P2P Peer to Peer network Mạng ngang hàng Distributed Denial of Service Tấn công từ chối dịch vụ phân tán DDoS attack CPU Central Processing Unit Bộ xử lý trung tâm C&C server Command and Control server Máy chủ ra lệnh và điều khiển KNN K-nearest neighbors Thuật toán K điểm gần nhất SVM Support vector machines Thuật toán học máy vector hỗ trợ DT Decision Tree Thuật toán cây quyết định FR Random Forest Thuật toán rừng cây ngẫu nhiên
  10. x DANH MỤC CÁC BẢNG Bảng 1.1 So sánh đặc điểm Botnet truyền thống và IoT Botnet ................................... 15 Bảng 1.2 So sánh đặc điểm các phương pháp phát hiện mã độc IoT Botnet ................ 22 Bảng 1.3 Các nguồn dữ liệu động được thu thập cho phát hiện mã độc IoT Botnet ... 26 Bảng 1.4 Tóm tắt chức năng các IoT Sandbox ............................................................. 29 Bảng 1.5 So sánh đặc điểm các IoT Sandbox hiện có ................................................... 30 Bảng 1.6 Các nghiên cứu liên quan sử dụng đồ thị lời gọi hệ thống ............................ 36 Bảng 2.1 Các tham số cấu hình mặc định cho SE ......................................................... 53 Bảng 2.2 Thống kê kết quả chạy V-Sandbox ................................................................ 63 Bảng 2.3 Thống kê kết quả chạy LiSa Sandbox............................................................ 67 Bảng 2.4 So sánh các chức năng của các IoT Sandbox................................................. 67 Bảng 2.5 Các mẫu được lựa chọn ngẫu nhiên từ dataset .............................................. 67 Bảng 2.6 Kết quả so sánh giữa LiSa, Cuckoo và V-Sandbox ....................................... 68 Bảng 3.1 Mô tả chi tiết về Dataset ................................................................................ 81 Bảng 3.2 Các tham số mô hình học máy được điều chỉnh ............................................ 82 Bảng 3.3 Kịch bản phân chia tập dữ liệu thử nghiệm ................................................... 84 Bảng 3.4 Giá trị các chỉ số đánh giá mô hình đề xuất ................................................... 86 Bảng 3.5 So sánh mô hình đề xuất và các nghiên cứu liên quan .................................. 88 Bảng 4.1 Khảo sát các nghiên cứu về phát hiện sớm mã độc ....................................... 97 Bảng 4.2 Mô tả chi tiết về Dataset ..............................................................................106 Bảng 4.3 Các tham số thuật toán học máy được sử dụng ...........................................107 Bảng 4.4 Độ chính xác các mô hình học máy đơn lẻ huấn luyện trên Dataset ...........109 Bảng 4.5 Các mô hình học máy sau khi tối ưu trên Dataset .......................................109 Bảng 4.6 Kết quả thử nghiệm với các mẫu nằm ngoài Dataset ..................................111 Bảng 4.7 So sánh với các nghiên cứu liên quan ..........................................................112
  11. xi DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1 Số lượng các thiết bị được kích hoạt trên toàn cầu .......................................... 8 Hình 1.2 Phân loại thiết bị IoT dựa trên chức năng hoạt động [13] ................................ 9 Hình 1.3 Phân lớp các thiết bị IoT [18] ......................................................................... 10 Hình 1.4 Các bước trong vòng đời của mã độc IoT Botnet .......................................... 18 Hình 1.5 Vòng đời của IoT Botnet ................................................................................ 19 Hình 1.6 So sánh quy trình phân tích tĩnh và phân tích động mã độc........................... 22 Hình 1.7 Kiến trúc cơ bản của Cuckoo Sandbox [50] ................................................... 27 Hình 1.8 Kiến trúc của IoTBox [44] ............................................................................. 28 Hình 1.9 Một đồ thị PSI-graph được xây dựng ............................................................. 35 Hình 1.10 Đồ thị con PSI-Rooted graph từ đỉnh 11 với độ sâu d=2 ............................ 36 Hình 1.11 Mô hình CBOW và Skip-gram ..................................................................... 38 Hình 1.12 Minh họa kết quả biểu diễn không gian các từ trong word2vec .................. 38 Hình 1.13 Kiến trúc mạng nơ-ron của word2vec .......................................................... 38 Hình 2.1 Kiến trúc của V-Sandbox ............................................................................... 48 Hình 2.2 Sử dụng Readelf đọc Header ELF .................................................................. 52 Hình 2.3 Sử dụng Readelf liệt kê các yêu cầu thư viện động ....................................... 52 Hình 2.4 Đầu ra của khối EMF ..................................................................................... 52 Hình 2.5 Đầu ra của khối SCG ...................................................................................... 54 Hình 2.6 Kiến trúc bên trong SE ................................................................................... 55 Hình 2.7 Lệnh khởi động môi trường SE ...................................................................... 55 Hình 2.8 Thông tin thư viện liên kết động xác định bởi ldd ......................................... 57 Hình 2.9 Thông tin thư viện liên kết động xác định bởi readelf ................................... 57 Hình 2.10 Khối RDP cập nhật nội dung tệp “Configuration file” ................................ 58 Hình 2.11 Kiến trúc kết nối chung của IoT Botnet [2].................................................. 60 Hình 2.12 Các thư mục được trích xuất từ firmware của Router Netgear WNAP320 . 61 Hình 2.13 Thiết bị C500-Extractor ................................................................................ 61 Hình 2.14 Mô hình triển khai thử nghiệm của V-Sandbox ........................................... 63 Hình 2.15 Thông tin thu thập bởi các tác tử của V-Sandbox ........................................ 64 Hình 2.16 Thông tin thu thập lời gọi hệ thống bởi SystemCall agent ........................... 64 Hình 2.17 Thông tin thu thập bởi File agent ................................................................. 64 Hình 2.18 Thông tin thu thập bởi Host performance agent ........................................... 65
  12. xii Hình 2.19 Thông tin thu thập bởi Network agent ......................................................... 65 Hình 2.20 Thông tin thư viện liên kết động được yêu cầu ............................................ 65 Hình 2.21 Báo cáo tổng thể về hành vi của mẫu được chạy ......................................... 66 Hình 3.1 Quy trình phương pháp đề xuất phát hiện mã độc IoT Botnet dựa trên DSCG ....................................................................................................................................... 75 Hình 3.2 Chuỗi lời gọi hệ thống của mã độc Mirai thu từ V-Sandbox ......................... 78 Hình 3.3 Đồ thị DSCG cho mẫu mã độc Mirai ............................................................. 78 Hình 3.4 Lưu trữ đồ thị DSCG dưới định dạng “gexf” ................................................. 79 Hình 3.5 So sánh Doc2vec và Graph2vec ..................................................................... 81 Hình 3.6 Các kịch bản thử nghiệm điều chỉnh tham số các mô hình học máy ............. 83 Hình 3.7 Đồ thị ROC đối với kịch bản thứ nhất............................................................ 86 Hình 3.8 Đồ thị ROC đối với kịch bản thứ hai.............................................................. 87 Hình 3.9 Đồ thị ROC đối với kịch bản thứ ba ............................................................... 87 Hình 4.1 Phương pháp hợp nhất sớm ............................................................................ 91 Hình 4.2 Phương pháp hợp nhất muộn .......................................................................... 92 Hình 4.3 Mô hình hợp nhất trung gian .......................................................................... 92 Hình 4.4 Kiến trúc của mô hình đề xuất ......................................................................100 Hình 4.5 Thống kê số lượng lời gọi hệ thống của IoT Botnet trong Dataset ..............101 Hình 4.6 Thống kê số lượng lời gọi hệ thống của mẫu lành tính trong Dataset .........102 Hình 4.7 Thống kê số lượng gói tin luồng mạng của IoT Botnet trong Dataset .........102 Hình 4.8 Thống kê số lượng gói tin luồng mạng của mẫu lành tính trong Dataset ....102 Hình 4.9 Thống kê đặc trưng chiếm dụng tài nguyên thiết bị của IoT Botnet trong Dataset .....................................................................................................................................103 Hình 4.10 Thống kê đặc trưng chiếm dụng tài nguyên thiết bị của mẫu lành tính trong Dataset .........................................................................................................................103 Hình 4.11 Thành phần học cộng tác các dữ liệu đặc trưng .........................................105 Hình 4.12 Kết quả đánh giá các thuật toán học máy cộng tác ....................................109 Hình 4.13 Kết quả phát hiện mã độc 1 pha phân tích .................................................110 Hình 4.14 Kết quả phát hiện mã độc 2 pha phân tích .................................................110 Hình 4.15 Kết quả phân tích tệp lành tính ...................................................................111
  13. 1 MỞ ĐẦU 1. Tính cấp thiết của luận án Theo thống kê của công ty chuyên về thiết bị mạng Cisco [1], vào năm 2020 có hơn 50 tỷ thiết bị kết nối Internet, các thiết bị này sẽ có mặt ở khắp mọi nơi mà đặc biệt là trong nhà thông minh như: Các hệ thống cảm biến môi trường, CameraIP, VoIP, IP TV, Router SOHO,… Sự phát triển của công nghệ vạn vật kết nối Internet (IoT - Internet of Things) đã mang lại các tiện ích trong quản lý năng lượng tối ưu, theo dõi sức khoẻ, giao thông, đô thị thông minh. Để có được sự phát triển mạnh mẽ của IoT phải kể đến đóng góp lớn của cơ sở hạ tầng nhúng (embedded system) cho phép tích hợp và biến mọi đồ vật trở nên “thông minh” khi có thể tương tác và kết nối với nhau thông qua Internet. Tuy nhiên, những nghiên cứu, chính sách về bảo mật, an ninh an toàn thông tin chưa được quan tâm đúng mức so với sự phát triển nhanh và rộng của thiết bị IoT. Kết quả nghiên cứu gần đây cũng đã chỉ ra rằng lỗ hổng bảo mật và đặc biệt là mã độc xuất hiện nhiều trên phần sụn (firmware) của các thiết bị IoT hạn chế tài nguyên và là nguyên nhân chính cho những mối nguy cơ an ninh an toàn thiết bị IoT [2]–[5]. Việc bỏ ngỏ các biện pháp đảm bảo an ninh, an toàn cho các thiết bị IoT đã vô hình tạo cơ hội cho tin tặc dễ dàng tấn công và chiếm quyền điều khiển các thiết này này trên toàn thế giới. Theo nhận định của tập đoàn Gartner [6], 25% các cuộc tấn công mạng sẽ liên quan đến các thiết bị IoT vào năm 2020. Tại Việt Nam, tháng 6/2016, tập đoàn BKAV đã công bố kết quả khảo sát 21 triệu thiết bị định tuyến trên Internet, trong đó có tới 5,6 triệu thiết bị trên thế giới (Việt Nam chiếm 5,9%) bị nhiễm lỗ hổng PetHole, dẫn đến nguy cơ mất quyền điều khiển thiết bị [7]. Lợi dụng các lỗ hổng bảo mật nghiêm trọng trên các thiết bị này [3, 5] các cuộc tấn công từ chối dịch vụ quy mô lớn đã được ghi nhận [8]. Điều này đã làm thay đổi nhận thức về mạng lưới Botnet truyền thống. Khác với Botnet truyền thống, mã độc IoT Botnet có những đặc điểm khác biệt như phương thức lây lan, hiệu quả tấn công,… Với tình hình nêu trên, vấn đề nghiên cứu giải pháp bảo vệ cho các thiết bị IoT hạn chế tài nguyên trước sự lây nhiễm của mã độc IoT Botnet là một yêu cầu cấp thiết.
  14. 2 2. Mục tiêu nghiên cứu của luận án Từ những nội dung được nêu trong tính cấp thiết của luận án, nghiên cứu sinh xác định mục tiêu nghiên cứu của luận án là “nghiên cứu, xây dựng hệ thống thu thập dữ liệu hành vi và phát hiện mã độc IoT Botnet dựa trên mô hình học máy nhằm nâng cao độ chính xác và giảm độ phức tạp trong phát hiện mã độc IoT Botnet trên các thiết bị IoT hạn chế tài nguyên theo phương pháp phân tích động”. Để đạt được mục tiêu nghiên cứu này, nghiên cứu sinh xác định các mục tiêu cụ thể như sau: - Nghiên cứu, xây dựng hệ thống thu thập dữ liệu hành vi tương tác của mã độc IoT Botnet với các thiết bị IoT hạn chế tài nguyên thông qua môi trường Sandbox tự xây dựng. - Nghiên cứu, xây dựng mô hình học máy phát hiện mã độc IoT Botnet đảm bảo độ chính xác, tỉ lệ âm tính giả thấp và yêu cầu tối thiểu lượng dữ liệu cần thu thập. - Nghiên cứu, kết hợp hệ thống thu thập dữ liệu bằng Sandbox tự xây dựng với mô hình học máy đề xuất thành hệ thống phát hiện mã độc IoT Botnet hoàn chỉnh ứng dụng được trong thực tế. 3. Đối tượng và phạm vi nghiên cứu 3.1. Đối tượng nghiên cứu Với mục tiêu nghiên cứu của luận án, nghiên cứu sinh lựa chọn đối tượng nghiên cứu là các tệp thực thi được (Executable file) trên các thiết bị IoT hạn chế tài nguyên. Cụ thể, theo kết quả nghiên cứu của Costin và cộng sự [9] đối với các thiết bị IoT hạn chế tài nguyên thì hệ điều hành phổ biến là Linux. Trong nền tảng hệ điều hành Linux, tệp thực thi được thường tồn tại dưới dạng tệp ELF. Các tệp ELF này có thể là tệp tin mã độc (Malware) hoặc tệp tin lành tính (Benign). Các tệp tin ELF sẽ được nghiên cứu sinh thu thập để làm đối tượng nghiên cứu, thử nghiệm và đánh giá kết quả của luận án. Nguồn thu thập các tệp tin ELF này từ các Honeypot, kho dữ liệu nghiên cứu được các tác giả trên thế giới chia sẻ và quá trình tự thu thập, trích xuất từ bản ảnh (firmware) của các thiết bị IoT hạn chế tài nguyên do nghiên cứu sinh thực hiện.
  15. 3 3.2. Phạm vi nghiên cứu Trong phạm vi nghiên cứu của mình, nghiên cứu sinh lựa chọn nghiên cứu giải quyết bài toán phát hiện mã độc, cung cấp khả năng phân biệt các tập tin thực thi là mã độc (malware) hay lành tính (benign). Luận án này trình bày hướng tiếp cận mới trong phát hiện mã độc IoT Botnet với những phạm vi nghiên cứu sau: - Lựa chọn nghiên cứu phát hiện các mẫu mã độc IoT Botnet xuất hiện trên các thiết bị IoT hạn chế tài nguyên với lý do: mặc dù có nhiều dòng mã độc lây nhiễm trên thiết bị IoT (như Trojan, Ransomware, Spyware,…) nhưng với đặc điểm hạn chế về mặt tài nguyên, xuất hiện rộng khắp trên toàn thế giới và tồn tại các lỗ hổng bảo mật cơ bản thì tỉ lệ mã độc Botnet chiếm tỉ lệ đa số theo thống kê của Kaspersky [4]. Do đó, vấn đề nghiên cứu giải pháp phát hiện mã độc IoT Botnet là cấp thiết và có ý nghĩa thực tiễn. - Theo cách phân loại của Bencheton [9], thiết bị IoT được chia làm 2 loại chính gồm thiết bị hạn chế tài nguyên (constrained) và hiệu năng cao (high-capacity). Các thiết bị IoT hạn chế tài nguyên có thể kể đến như IP Camera, Wifi Router, Smart Hub,… Cũng theo thống kê của Kaspersky [4, 10] thì mục tiêu lây nhiễm chủ yếu của mã độc IoT Botnet chính là các thiết bị IoT này. Vì vậy, luận án này tập trung tìm hiểu, nghiên cứu phương pháp phát hiện mã độc IoT Botnet cho các thiết bị IoT hạn chế tài nguyên như trong tiêu chí phân loại của Bencheton. - Để giải quyết bài toán phát hiện mã độc IoT Botnet, nghiên cứu sinh lựa chọn hướng tiếp cận sử dụng phương pháp phân tích động để giải quyết các hạn chế của phân tích tĩnh như đóng gói mã nguồn, làm rối mã, độ phức tạp trong phân tích nội dung mã nguồn tệp thực thi,… 4. Nội dung và phương pháp nghiên cứu 4.1. Nội dung nghiên cứu Với mục tiêu nghiên cứu trình bày ở trên, nghiên cứu sinh xác định các nội dung nghiên cứu chính có 5 nội dung, được trình bày tại các chương của luận án, cụ thể gồm: - Khảo sát, nghiên cứu về đặc điểm thiết bị IoT nói chung và thiết bị IoT hạn chế tài nguyên nói riêng; từ đó xác định các đặc điểm và khảo sát phương pháp phát hiện mã độc IoT Botnet xuất hiện trên loại thiết bị này.
  16. 4 - Nghiên cứu, xây dựng môi trường sandbox đảm bảo các điều kiện để có thể thu thập đầy đủ dữ liệu hành vi của mã độc IoT Botnet. - Nghiên cứu, đề xuất đặc trưng mới từ đồ thị lời gọi hệ thống có hướng DSCG (Directed System Call Graph) trong phát hiện mã độc IoT Botnet. - Nghiên cứu, đề xuất mô hình học máy kết hợp các đặc trưng phù hợp có khả năng phát hiện sớm mã độc IoT Botnet. - Đánh giá đặc trưng và mô hình học máy đã đề xuất về độ chính xác và hiệu quả trong phát hiện mã độc IoT Botnet dựa trên tập dữ liệu (dataset) đủ lớn và tin cậy. Thực hiện so sánh kết quả thực nghiệm, đánh giá với các nghiên cứu có liên quan để làm nổi bật đóng góp khoa học của luận án. 4.2. Phương pháp nghiên cứu 4.2.1. Nghiên cứu lý thuyết Thực hiện khảo sát, nghiên cứu, tổng hợp, đánh giá các kết quả nghiên cứu khoa học đã được công bố trong và ngoài nước về các nội dung liên quan tới mục tiêu nghiên cứu của luận án. Nguồn tài liệu phục vụ cho nghiên cứu lý thuyết được nghiên cứu sinh sử dụng tại hai nguồn chính là kho dữ liệu trực tuyến (như Google Scholar, IEEE Xplore, ACM Digital Library, Crossref,…) và nội dung báo cáo tại các hội thảo khoa học uy tín trong và ngoài nước như USENIX, Blackhat, SOICT, ICCM, FAIR,… Trên cơ sở đó hệ thống hóa các vấn đề còn tồn tại trong bài toán phát hiện mã độc IoT Botnet trên các thiết bị IoT hạn chế tài nguyên, đưa ra các vấn đề cần phân tích, đánh giá và thực hiện đảm bảo đúng mục tiêu nghiên cứu đã đề ra. 4.2.2. Nghiên cứu thực nghiệm Thực nghiệm xây dựng đặc trưng của mã độc IoT Botnet từ đồ thị lời gọi hệ thống có hướng DSCG trên tập hợp các tập tin ELF của thiết bị IoT (gồm tệp lành tính và mã độc). Thực nghiệm đánh giá tính hiệu quả của đặc trưng đồ thị DSCG được đề xuất với thuật toán học máy. Thực nghiệm xây dựng và đánh giá trên tập dữ liệu đã thu thập cho mô hình học máy kết hợp các đặc trưng trong bài toán phát hiện sớm mã độc IoT Botnet.
  17. 5 5. Các đóng góp chính của luận án Luận án tập trung vào giải quyết các nội dung nghiên cứu đã nêu ở trên. Các đóng góp có thể được liệt kê như kết quả của luận án này, cụ thể bao gồm: - Đóng góp 1: Luận án xây dựng được một môi trường V-Sandbox đảm bảo mô phỏng đầy đủ các yêu cầu cần thiết để mã độc IoT Botnet có thể thực thi trọn vẹn vòng đời của mình. Môi trường sandbox được xây dựng cho phép thu thập đầy đủ dữ liệu hành vi của mã độc, hoạt động hoàn toàn tự động, mã nguồn mở và cài đặt dễ dàng, có tính thực tiễn. - Đóng góp 2: Luận án đề xuất đặc trưng đồ thị lời gọi hệ thống có hướng (Directed System Call Graph - DSCG) để cấu trúc hoá một cách tuần tự các lời gọi hệ thống thu được từ môi trường V-Sandbox đề xuất ở trên. Phương pháp tiền xử lý dữ liệu lời gọi hệ thống được đề xuất sẽ có độ phức tạp thấp, dễ áp dụng với những thuật toán học máy đơn giản. - Đóng góp 3: Luận án đề xuất được một mô hình phát hiện mã độc IoT Botnet mới, có khả năng kết hợp nhiều nguồn đặc trưng khác nhau để có thể phát hiện sớm mã độc IoT Botnet. Mô hình đề xuất dựa trên việc thu thập mức tối thiểu các dữ liệu động cần thiết mà vẫn có thể đưa ra dự báo có độ chính xác cao, góp phần giảm thiểu thời gian phát hiện mã độc IoT Botnet. 6. Bố cục của luận án Với những kết quả nghiên cứu đã thực hiện, luận án được trình bày với bố cục gồm phần mở đầu, 4 chương nội dung và phần kết luận, hướng phát triển của đề tài. Cụ thể bố cục của luận án như sau: Phần mở đầu: Luận án trình bày tính cấp thiết và ý nghĩa khoa học của đề tài nghiên cứu, trên cơ sở đó xác định mục tiêu nghiên cứu, đối tượng, phạm vi nghiên cứu, nội dung và phương pháp nghiên cứu của luận án. Chương 1: Luận án trình bày hai nội dung chính gồm tổng quan về thiết bị IoT và mã độc IoT Botnet. Trong nội dung tổng quan về thiết bị IoT, luận án trình bày khái niệm, đặc điểm, phân loại, sự tiến hóa, các vấn đề bảo mật và các kiểu tấn công phổ biến với thiết bị IoT. Tiếp theo, luận án trình bày khái niệm, đặc điểm và các phương pháp phát hiện mã độc IoT Botnet. Đồng thời, luận án cũng đánh giá đặc điểm của mã độc
  18. 6 IoT Botnet so với mã độc Botnet truyền thống. Từ những nội dung đánh giá kể trên, luận án xác định vấn đề nghiên cứu đặt ra với bài toán phát hiện mã độc IoT Botnet. Chương 2: Luận án trình bày phương pháp luận về xây dựng môi trường môi trường V-Sandbox đảm bảo các điều kiện để có thể thu thập đầy đủ dữ liệu hành vi của mã độc IoT Botnet. Môi trường sandbox được xây dựng hoạt động hoàn toàn tự động, mã nguồn mở và cài đặt dễ dàng, có tính thực tiễn. Chương này gồm 3 phần. Phần thứ nhất trình bày tổng quan về mô hình đề xuất. Phần thứ hai mô tả chi tiết các thành phần của mô hình. Phần thứ ba trình bày nội dung thử nghiệm và đánh giá hiệu quả của mô hình đề xuất, đồng thời so sánh với các nghiên cứu liên quan. Chương 3: Luận án trình bày phương pháp luận về giải pháp đề xuất đặc trưng từ đồ thị DSCG phục vụ nâng nâng cao độ chính xác trong phát hiện mã độc IoT Botnet. Chương này gồm 3 phần. Phần thứ nhất trình bày tổng quan về quy trình hoạt động của phương pháp đề xuất. Phần thứ hai giới thiệu về cách thức xây dựng đặc trưng đồ thị DSCG từ dữ liệu thu thập được của V-Sandbox. Cuối cùng là đánh giá tính hiệu quả của phương pháp đề xuất dựa trên tiêu chí về độ chính xác, đồng thời so sánh với các nghiên cứu đã có. Chương 4: Luận án trình bày phương pháp luận về mô hình học máy mới, có khả năng kết hợp nhiều nguồn đặc trưng khác nhau để có thể phát hiện sớm và độ chính xác cao trong vấn đề nhận diện mã độc IoT Botnet. Chương này gồm 3 phần chính. Phần thứ nhất, luận án trình bày tổng quan về quy trình hoạt động của mô hình đề xuất. Phần thứ hai trình bày về cách thức xây dựng các thành phần của mô hình đề xuất. Cuối cùng là đánh giá tính hiệu quả của phương pháp đề xuất dựa trên tiêu chí về độ chính xác và thời gian phát hiện, đồng thời so sánh với các nghiên cứu đã có. Cuối cùng, luận án được kết luận, cùng với đó là các định hướng nghiên cứu trong tương lai.
  19. 7 CHƯƠNG 1. TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET 1.1. Tổng quan về thiết bị IoT 1.1.1. Khái niệm thiết bị IoT Khái niệm thuật ngữ “Internet of Things” (IoT) đã được nhiều nhà nghiên cứu đưa ra ý kiến của mình trong từng lĩnh vực chuyên biệt. Tuy nhiên, tất cả đều thống nhất việc sử dụng thuật ngữ này lần đầu vào năm 1999 do Kevin Ashton. Theo Kevin Ashton [11], “Internet of Things” là “tập hợp các cảm biến và bộ điều khiển nhúng trong các thiết bị được liên kết thông qua mạng có dây và không dây”. Tại thời điểm này, các thiết bị “IoT” được sử dụng để chỉ các thiết bị nhúng được điều khiển bởi con người thông qua mạng có dây hoặc không dây. Đến năm 2015, Madakam [12] đưa ra cách hiểu IoT là “một mạng lưới mang tính mở và toàn diện kết nối các đối tượng thông minh có khả năng tự động tổ chức, chia sẻ thông tin, dữ liệu và tài nguyên, phản ứng và hành động khi đối mặt với các tình huống và thay đổi của môi trường”. Madakam nhấn mạnh về đặc điểm “thông minh” của các thiết bị IoT bao gồm: Tự tổ chức hoạt động; Chia sẻ thông tin, dữ liệu và tài nguyên; Có khả năng phản ứng lại với các thay đổi của môi trường xung quanh. Theo sự phát triển của công nghệ hiện đại, IoT đã phát triển từ sự hội tụ của công nghệ kết nối không dây, công nghệ vi cơ điện tử và sự phát triển của Internet. Sau khi xem xét các định nghĩa của các tổ chức khác nhau, ITU (International Telecommunication Union) đã định nghĩa IoT như sau: “Internet of Things là một cơ sở hạ tầng toàn cầu cho xã hội thông tin, cho phép các dịch vụ tiên tiến hoạt động bằng cách kết nối các vật thể (vật lý và ảo) dựa trên các công nghệ thông tin truyền thông tương thích hiện có và đang phát triển” [13]. Theo khái niệm này, vạn vật (Things) là đối tượng của thế giới thực (vật chất tồn tại) hoặc của thế giới thông tin (thực thể ảo), có khả năng được định danh, tích hợp vào mạng thông tin và truyền thông. Bên cạnh đó, ITU cũng xác định thiết bị IoT là “thiết bị có khả năng kết nối và có thể tích hợp cảm biến, cơ cấu truyền động, chức năng thu thập, lưu trữ và xử lý dữ liệu”. Các thiết bị IoT thu thập các loại thông tin khác nhau và cung cấp cho các mạng thông tin và truyền thông để xử lý, làm giàu thêm thông tin thu được. Một số thiết bị IoT cũng thực hiện các hoạt động dựa trên thông tin nhận được từ mạng thông tin và truyền thông.
  20. 8 Với kết quả nghiên cứu của mình, nghiên cứu sinh nhận thấy vẫn chưa có một khái niệm thống nhất chung về thiết bị IoT. Tuy nhiên, các khái niệm đã có đều cơ bản chỉ ra đặc điểm nổi bật nhất của loại thiết bị này là khả năng kết nối vào Internet. Vì vậy, nghiên cứu sinh đưa ra khái niệm thiết bị IoT được sử dụng trong luận án này như sau: Khái niệm 1.1. Thiết bị IoT là các thiết bị có khả năng kết nối, chia sẻ dữ liệu, tài nguyên dựa trên trên các công nghệ thông tin truyền thông tương thích hiện có và đang phát triển, tự phản ứng với thay đổi của môi thường để đạt được một mục tiêu nhất định. Sự tăng trưởng nhanh chóng về số lượng thiết bị IoT so với các thiết bị kết nối Internet truyền thống như máy tính điện tử được chứng minh thông qua số liệu thống kê của IoT Analytics [14], được minh họa tại Hình 1.1. Qua số liệu dự báo thống kê cho thấy, từ năm 2018 đến năm 2025 số lượng thiết bị truyền thống tăng lên không nhiều (chỉ khoảng 18%) từ 10,8 tỉ lên 12,7 tỉ. Trong khi đó, thiết bị IoT tăng hơn 200% từ 7 tỉ lên 21,5 tỉ thiết bị kết nối vào Internet. Không chỉ tăng nhanh về số lượng, chủng loại thiết bị IoT cũng tăng lên nhanh chóng theo mục đích sử dụng. Thiết bị IoT xuất hiện trong nhiều lĩnh vực như nhà thông minh, chăm sóc sức khỏe, tự động hóa quá trình sản xuất công nghiệp, vận chuyển hàng hóa,… Tuy nhiên, khi số lượng của nó tăng lên, các thiết bị IoT bị hạn chế về tài nguyên ngày càng lộ ra nhiều lỗ hổng bảo mật hơn [3, 15]. Vì vậy, các thiết bị này đã trở thành mục tiêu ưa thích của các kẻ tấn công. Số lượng các thiết bị được kích hoạt toàn cầu (đơn vị tỉ thiết bị) 35.0 30.0 12.7 25.0 12.4 12.1 20.0 11.9 11.6 15.0 11.3 11.1 10.8 10.6 21.5 10.0 10.1 10.3 18.5 15.8 13.5 11.6 5.0 8.3 9.9 5.9 7.0 3.8 4.7 0.0 2015 2016 2017 2018 2019 2020 2021 2022 2023 2024 2025 Thiết bị IoT Thiết bị truyền thống Hình 1.1 Số lượng các thiết bị được kích hoạt trên toàn cầu
nguon tai.lieu . vn