Phân loại mã độc dựa trên các kỹ thuật N-gram và học máy

Bài viết nghiên cứu và cải tiến giải thuật trích rút điểm mẫu trong quy trình phân loại mở mã độc dựa trên điểm mẫu được đề xuất bởi Rieck và các cộng sự. Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Tóm tắt: Mã độc đang là mối đe dọa lớn đến an ninh Nhược điểm của phân tích tĩnh là khó phân tích với các của các

Thể loại Tài liệu miễn phí An ninh - Bảo mật

Số trang 10

Ngày tạo 3/30/2020 11:58:13 AM +00:00

Loại tệp PDF

Kích thước 1.56 M

Tên tệp

Tải Phân loại mã độc dựa trên các kỹ thuật N-gram và h... (.pdf)

Xem mẫu

Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Tóm tắt: Mã độc đang là mối đe dọa lớn đến an ninh Nhược điểm của phân tích tĩnh là khó phân tích với các của các hệ thống máy tính. Vì vậy phân loại mã độc để có phần mềm sử dụng kỹ thuật che giấu, mã hóa và đóng gói. những biện pháp đối phó thích hợp là một phần quan Phân tích động tiến hành thực thi các phần mềm độc trọng trong lĩnh vực an toàn thông tin. Trong bài báo này, hại trong môi trường sandbox được giám sát để thu thập chúng tôi cải tiến giải thuật trích rút điểm mẫu trong quy các hành vi của mã độc. Vì vậy sandbox cần phải an toàn. trình phân loại mở mã độc dựa trên điểm mẫu được đề Trong loại phân tích này, có thể thu thập được tất cả các xuất bởi Rieck và các công sự [1]. Chúng tôi áp dụng tư thuộc tính của hành vi, chẳng hạn như các tệp tin đc được tưởng của hai phương pháp phân loại dựa trên điểm đặc mở, tạo mutexes, các hàm chính xác được gọi, các đối số trưng là Dendroid [2] và phương pháp được đề xuất bởi của hàm. Ưu điểm của phân tích động là nó nhanh hơn P.Shrestha và các cộng sự [3], trích rút các điểm mẫu trên nhiều phân tích tĩnh. Nhược điểm của phân tích động, từng họ mã độc thay vì dựa trên toàn bộ các họ mã độc. chúng ta chỉ nhìn thấy một kịch bản có liên quan đến hiện Thực nghiệm cho thấy phương pháp của chúng tôi cho tại của hệ thốngvà không phải hành vi nào cũng được kết quả phân loại tốt với khả năng nhận biết mã độc là phân tích (ví dụ như virus chờ đến một thời điểm nào đó 0.981% và phát hiện mã độc mới là 0.988% cao hơn mới hoạt động). phiên bản gốc của phương pháp dựa trên điểm mẫu [1].1 Theo [6], phân tích tự động mã độc hướng tới một Từ khóa: Phân loại mã độc, n-gram, điểm mẫu. trong ba mục tiêu là phát hiện, phân tích độ tương tự và phân loại.Chúng tôi chú tâm nghiên cứu đến vấn đề phân I. GIỚI THIỆU loại mã độc. Trong nghiên cứu, người ta thường sử dụng Phần mềm độc hại (hay mã độc) là một chương trình các phương pháp học máy có giám sát để giải quyết bài được chèn vào hệ thống, thường là cố tình, với mục đích toán phân loại một cách tự động. Theo [7] có hai cách tiếp xâm phạm tính bảo mật, toàn vẹn, hoặc tính khả dụng của cận nổi bật là dựa trên mô hình (model-based learning) và dữ liệu, ứng dụng, hệ điều hành của nạn nhân hoặc gây dựa trên thể hiện (instance-based learning). Với học máy phiền nhiễu, làm gián đoạn nạn nhân [4]. Phần mềm độc dựa trên mô hình (SVM, cây quyết định, Naive Bayes hại có nhiều loại như virus, Trojan, worm, phần mềm gián v.v.), các giải thuật này sẽ tạo ra mô hình khái quát hoá dữ điệp, rootkit, v.v. Cùng với sự phát triển nhanh chóng của liệu huấn luyện vì vậy không thích hợp với các bài toán có Internet, phần mềm độc hại cũng đang ngày một gia tăng. dữ liệu phức tạp. Mặt khác, các phương pháp học máy Theo thống kê của Kaspersky, 21.643.947 đối tượng phần dựa trên thể hiện (k-NN,..) không khái quát hoá dữ liệu mềm độc hại đã được phát hiện vào năm 2018 gấp hơn 5 mà sử dụng luôn dữ liệu để phân loại bằng cách so sánh lần so với năm 2015 [5]. Mặc dù có sự cải thiện đáng kể dữ liệu cần phân loại với dữ liệu huấn luyện, vì vậy có thể của các cơ chế an ninh, nhưng các phần mềm độc hại tối ưu hoá những trường hợp cụ thể và thích hợp hơn với đang ngày một tinh vi và có các cơ chế lẩn trốn nên chúng các bài toán phức tạp như phân loại. Với học máy dựa trên vẫn đang là một trong những mối đe dọa lớn nhất đối với thể hiện có thể sử dụng toàn bộ tập dữ liệu huấn luyện để các hệ thống máy tính. Vì vậy phát hiện và phân tích hành phân loại, nhưng nhược điểm là thời gian phân loại lâu. Vì vi của các phần mềm độc hại là một nhiệm vụ rất quan vậy người ta sử dụng một phương pháp khác của học máy trọng để làm giảm tối đa những thiệt hại do chúng gây ra.2 dựa trên thể hiện là phương pháp sử dụng các điểm mẫu để đại diện cho tập dữ liệu huấn luyện và phân loại dựa Phân tích mã độc đề cập đến quá trình xác định mục trên các điểm mẫu này thay vì sử dụng toàn bộ tập dữ liệu đích, hành vi, phương pháp tấn công và cách thức lan huấn luyện. Vì những lý do trên, chúng tôi chọn sử dụng truyền của chúng. Phân tích mã độc được chia làm hai loại phương pháp học máy dưạ trên thể hiện có sử dụng các là phân tích tĩnh và phân tích động. điểm mẫu để phân loại mã độc” Phân tích tĩnh hay còn được gọi là phân tích mã tĩnh Ba công trình nghiên cứu về phân loại mã độc sử dụng để cố gắng suy ra các hành vi của phần mềm, là quá trình điểm mẫu được chúng tôi quan tâm đến là: phương pháp phân tích phần mềm mà không cần thực thi mã hoặc là phân loại mở dựa trên điểm mẫu của Rieck cùng các chương trình. Các mẫu phát hiện có thể được trích xuất cộng sự [1],hai phương pháp dựa trên điểm đặc trưng là trong phân tích tĩnh như: các Lời gọi hệ thống, API, phương pháp Dendroid- áp dụng với các mã độc trên signature, biểu đồ điều khiển, opcode, bytecode, các file Android [2] và phương pháp được đề suất bởi P. Shrestha DLL được gọi...Ưu điểm phân tích tĩnh là an toàn và và các cộng sự[3]. Phương pháp thứ nhất sử dụng thông chúng ta có thể quan sát hết các phần của chương trình. tin về các n-gram của chuỗi các lời gọi hệ thống, đặc trưng là sự xuất hiện hay không của các n-gram và sử Tác giả liên hệ: Nguyễn Đại Thọ dụng điểm mẫu (prototype) để đại diện cho các cụm mã Email: nguyendaitho@vnu.edu.vn độc. Phương pháp này có ba thành phần chính là: trích rút Đến tòa soạn: 8/2019, chỉnh sửa 11/2019, chấp nhận đăng 12/2019 điểm mẫu giúp tìm ra các điểm mẫu đại diện cho các cụm, SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 62
PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY phân cụm sử dụng điểm mẫu giúp gộp nhóm các cụm Đầu tiên mã độc được chạy trong môitrườngsandbox tương tự nhau thành một cụm lớn hơn, phân lớp sử dụng để giám sát các hành vi và thu thập các chuỗi lời gọi hệ điểm mẫu để dự báo nhãn lớp cho mã độc chưa biết và thống đặc trưng cho các hành vi của chúng. phát hiện ra những mẫu mã độc mới. Phương pháp thứ hai – Dendroid [2] là một phương pháp phân loại dựa trên 2) Giai đoạn 2: Nhúng các hành vi vào không gian điểm đặc trưng, áp dụng các kỹ thuật của lĩnh vực phân vector loại văn bản. Điểm đặc biệt của phương pháp này là sử • Đầu vào:Chuỗi các lời gọi hệ thống dụng một điểm đặc trưng được tạo ra từ các mã độc trong • Đầu ra: Vector đặc trưng đại diện cho mãđộc cùng một họ để đại diện cho toàn bộ họ đó. Kết quả của Chuỗi lời gọi hệ thống sau đó được nhúng vào không quá trình trích rút đặc trưng là một vector đại diện chung gian vector sử dụng n-gram. Mỗi thành phần của một cho một họ mã độc thay vì đại diện cho từng mã độc cụ vector đặc trưng thể hiện sự xuất hiện hay không của n- thể. Các điểm đặc trưng được dùng kết hợp với thuật toán gram tương ứng trong chuỗi lời gọi hệ thống. 1NN (One Nearest Neighbor) để phân loại mã độc. Mã độc mới được phân vào họ của điểm đặc trưng gần nó Giả sử tập S= {(x1,x2,x3,x4, ..., xn)| xi Є A với 1≤ i≤ n} nhất. Phương pháp này là phân loại đóng. Một điểm dữ là tập tất cả n-gram có thể có liệu khi được cho vào phân loại sẽ chắc chắn được phân A là tập tất cả các lời gọi hệ thống khác nhau. vào một lớp đã biết. Phương pháp thứ 3 cũng xây dựng các điểm đặc trưng từ các mã độc trong cùng một họ và Với mỗi báo cáo x, hành vi mã độc có thể nhúng vào mỗi họ mã độc được đại diện bởi một điểm điểm đặc một không gian vector có |S| chiều. Mỗi chiều sẽ tương trưng giống như phương pháp Dendroid. Sau đó mẫu mã ứng với một n-gram. Giá trị các chiều của vector được độc cần phân loại được tính độ tương tự với các điểm đặc tính như sau: trưng của các họ và được phân vào họ có độ tương tự lớn φ(x) = (φs(x))sЄS (1) nhất. Trong đó: φs(x) = 1 nếu mẫu báo cáo hành vi x chứa n- Chúng tôi vận dụng tư tưởng phương pháp thứ hai và gram s, ngược lại φs(x) = 0 ba để cải tiến giải thuật trích rút điểm mẫu của phương pháp thứ nhất. Trong quá trình trích rút điểm mẫu, thay vì Ví dụ: A = {a1, a2} trích rút điểm mẫu dựa trên toàn bộ dữ liệu huấn luyện, → S= {a1a1, a1a2, a2a1, a2a2} chúng tôi sẽ trích rút điểm mẫu trên dữ liệu của từng họ. Khi đó một họ có thể có một hoặc nhiều điểm mẫu. Chúng Mẫu báo cáo x = a1a2a1a1a2 tôi vẫn giữ quy trình tổng quát chung như phương pháp dựa trên điểm mẫu [1] để phân loại mở các mã độc, phân Bảng I. Sự xuất hiện của các 2-gram loại các mã độc đã biết và nhận biết được các mã độc có 2-gram a1a1 a1a2 a 2a 1 a2a2 hành vi mới. Chúng tôi đánh giá hiệu quả của phương pháp đề xuất theo cả hai khả năng phân loại đúng những xuất hiện 1 1 1 0 mã độc đã biết và nhận biết nhưng mã độc mới sử dụng →Vector đặc trưng cho mẫu báo cáo x là: cùng độ đo F1micro (tổng hợp của hai thông số phổ biến là độ chính xác và độ hồi tưởng). Kết quả thực nghiệm cho x=(1, 1, 1, 0) thấy phương pháp của chúng tôi đạtF1microlà 98.1% đối Chuẩn hóa vector: Sau khi thu được vector đặc trưng với các mã độc đã biết và 98.8% đối với các mã độc mới, của mẫu báo cáo x, chúng ta chuẩn hóa vector để đưa nó đều cao hơn các độ đo tương ứng của phiên bản gốc của về vector có độ dài bằng 1 bằng cách chia cho độ dài phương pháp thứ nhất. Euclid của vector đó: II. CÁC CÔNG TRÌNH LIÊN QUAN A. Phương pháp dựa trên điểm mẫu Theo phương pháp dựa trên điểm mẫu [1], đầu tiên Sau bước 2, ta thu được các vector đặc trưng cho mỗi mẫu mã độc cần phân loại được đưa vào sandbox (một mã độc. môi trường thực thi giả lập) để thu thập các hành vi. Thông tin của hành vi mã độc được nhúng vào không gian 3) Giai đoạn 3: Phân loại sử dụng điểm mẫu vector đặc trưng sau đó được đưa vào thành phần phân loại sử dụng điểm mẫu. Nếu phân loại thành công thì mã • Đầu vào: Vector đặc trưng đại diện cho mã độc độc sẽ được gán nhãn về một họ mã độc đã biết, nếu • Đầu ra: Nhãn lớp dự đoán cho mã độc không nó sẽ được đưa vào tập mã độc chưa biết để làm Sau bước 2, vector đặc trưng cho mã độc được đưa đầu vào cho giai đoạn trích rút điểm mẫu để tìm ra điểm vào mô hình phân lớp để dự đoán nhãn lớp cho mã độc mẫu đại diện cho các mã độc. Thành phần phân cụm sử đó. Thuật toán được sử dụng để phân lớp là 1NN và một dụng các điểm mẫu thu được để phân cụm các điểm mẫu. ngưỡng dr để loại ra những mẫu mã độc mới. Khi một Tập điểm mẫu của các cụm còn được sử dụng cho quá điểm dữ liệu được đưa vào, chúng ta sẽ xem khoảng cách trình phân loại tiếp theo. Quy trình tổng thể của phương của nó tới các điểm mẫu. Nếu khoảng cách của nó đến pháp được mô tả trong Hình 1. điểm mẫu gần nhất nhỏ hơn ngưỡng dr thì điểm dữ liệu Cụ thể, ta có quy trình như sau: mới đó sẽ được phân vào lớp của điểm mẫu gần nó nhất và đưa ra báo cáo lớp dự đoán được, ngược lại sẽ đưa nó 1) Giai đoạn 1: Chạy mã độc trong môi trường sandbox vào tập mã độc chưa biết và đưa vào giai đoạn trích rút • Đầu vào: File thực thi mã độc điểm mẫu. Tại thời điểm đầu tiên, chưa có điểm mẫu nào • Đầu ra:Chuỗi các lời gọi hệ thống nên giai đoạn này không được thực hiện. SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 63
Nguyễn Thị Thu Tra ang, Nguyễ ễn Đại Thọ, Vũ Duy Lợii 4) Giai đoạnn 4: Trích rút điểm mẫu • Đầu vào:: Tập các mã độc đ chưa biết nhãn lớp • Đầu ra: Tập T các điểm mẫu đại diện cho các mã độộc Rieck và v các cộng sự ự sử dụng giải thuật được đềề xuất bởi Gonzalezz trong công trình [9] để trícht rút các điểm mẫu từ tập cáác mã độc chư ưa biết nhãn lớ ớp.Bằng cách tham chiếu khoảngg cách tới điểểm mẫu gần nó nhất, ta tììm ra được các điểểm mẫu đại diiện cho các mã m độc đó. Phư ương pháp dựa trêên ý tưởng mã m độc có khooảng các càngg gần nhau thì khả năng thuộc mộtm cùng họ cààng cao. Do chúng tôi tập trung vào cải tiến giải g thuật tríchh rút điểm mẫuu nên chúng tôi trìnnh bày giải thuuật này ở Hìnhh2và giải thíchh bên dưới. 5) Giai đoạnn 5: Phân cụm m sử dụng điểm m mẫu • Đầu vào:: Tập các điểm m mẫu đại diệnn cho các mã độc • Đầu ra: Tập T các cụm điểm đ mẫu Phân cụm v trên toàn bộ tập m trên các điểểm mẫu thay vì dữ liệu để goom nhóm các cụm thành một cụm lớn hơ ơn sử dụng phân cụụm phân cấp (hierarchical ( c clustering) [8]. Kết quả được sử dụng trong quuá trình phân lớp l tiếp theo. Giải thích giải thuật trích rút điểm mẫum của Gonzzalez [9]: Bước 1: Khởi K tạo tập prototypes p = Ø, Ø biến protottypes lưu các điểmm mẫu và mảnng distance lư ưu khoảng cácch có Hìình 1. Giải thuật trích rút đi điểm mẫu của Gonzalez giá trị bằng ∞ lưu lại khooảng cách củaa điểm dữ liệuu đến điểm mẫu gầần nó nhất. Nhận N xét phư ương pháp: P Phương pháp phân loại dựaa Bước 2: Kiểm tra khooảng cách lớnn nhất có lớnn hơn trên điểm mẫu [1] là phươngg pháp phân loại l mở, giúpp ngưỡng dp khhông và lặp đếến khi điều kiiện đó không được chúnng ta có thể phân p loại và pphát hiện ra nh hững mẫu mãã thỏa mãn thìì kết thúc. Tạii vòng lặp đầuu tiên, các khhoảng độc mới. Bên cạạnh đó phươnng pháp này sử s dụng điểm m cách là ∞ nêên ta chọn nggẫu nhiên mộtt điểm z làm điểm mẫuu (tương tự nhhư nén dữ liệuu) làm giảm dữ ữ liệu phải xử ử mẫu. Với cáác vòng lặp tiếp theo ta chhọn điểm mẫuu z là lý nên n giảm thời gian phân loại. Phương ph háp này cũngg điểm dữ liệu có khoảng cáách lớn nhất. có tíính năng học tăng cường ccho phép cập nhật mô hìnhh Bước 3: Với các điểm m dữ liệu khhác điểm mẫuu lưu phânn loại khi có thêm dữ liệuu mới mà khô ông cần huấnn trong biến prototypes, p tínnh khoảng cáách của tất cảả các luyệện lại. Nhược điểm của nó làcác điểm mẫu m được tríchh điểm dữ liệuu đó so với điểm đ mẫu mới được tìm. Nếu rút trên t toàn bộ tậập dữ liệu có thể dẫn đến những n dữ liệuu khoảng cách vừa tính đượcc nhỏ hơn khooảng cách với điểm khônng cùng một họ h mã độc có thể thuộc chu ung một cụm,, mẫu trước đóó, chúng ta cậpp nhật lại khoảng cách của điểm hoặcc điểm mẫu chưa c chắc đã ccùng lớp với đại đa số cácc dữ liệu đó và v thêm z vào tập các protootypes và quaay lại điểm m dữ liệu trongg cụm nhưng lại được dùng g làm đại diệnn bước 2. Sau mỗi lần lặp chúng c ta sẽ thhu được một điểm cho cụm đó, điều đó là không nnên. mẫu đại diệnn cho một cụm m dữ liệu. Hình 2. Quy trình của phương pháp p sử dụng g điểm mẫu Từ T tất cả các mẫu m mã độc ttrong một họ, phương phápp B. Cáác phương pháp dựa trên điểm đ đặc trưngg tổng t hợp và tíính ra một vecctor đặc trưng g đại diện choo a, Phương P pháp Dendroid họ h đó thay vì từng vector đđặc trưng đại diện cho mỗii mẫu m mã độc (ví ( dụ có 6 họọ mã độc sẽ có ó 6 vector đặcc Phhương pháp dựa d trên điểm m đặc trưng Dendroid D trưng). t Vectorr đặc trưng nnày có thể là một điểm ảoo [2] làà một phươngg pháp dựa trêên kỹ thuật khai k thác hoặc h có thể trùùng với điểm thật, nó đượcc tính dựa trênn văn bản và truy xuuất thông tin trrên nền tảng Android. A SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 64
PHÂN N LOẠI MÃ ĐỘ ỘC DỰA TRÊN CÁC KỸ TH HUẬT N-GRAM M VÀ HỌC MÁ ÁY tiếp cận khai thác văn v bản. Sau đóđ sử dụng veector đặc đoán đ thuộc họọ đó. Quy trìnnh phương phháp được trìnhh trưng đại diện cho họ để phân looại. Điểm dữ liệu mới bày b trong Hìnhh 3 và được diiễn giải như saau: gần với v vector đặc trưng của họọ nào nhất sẽ được dự Hình 3. Quy trính phươn ng pháp sử dụ ụng điểm đặc trưng - Dendrroid 1) Giai đoạnn mô hình hóaa o Cấu trúc t mã lệnh ccủa mã độc cầần phân loại Bước 1: Trích T rút các cấu c trúc mã lệnh o Tập cácc cấu trúc m mã lệnh của cáác họ • Đầu ra: Vector V đặc trưưng cho mẫu u mã độc cầnn • Đầu vào: v Tập các mẫu mã độc huấn luyện (được phân loại gán nhhãn theo họ) • Đầu ra: r Tập các cấu c trúc mã lệnh theo từngg mã Sử dụng độ đoo tf-idf trong khai phá văn n bản và truyy độc xuấtt thông tin để tạo ra vector đđặc trưng cho mẫu mã độc. Đầu tiênn tất cả mẫu dữ d liệu huấn luyện l của họ phần Bước B 3: Phân loại mềm độc hạii được đưa vàoo giai đoạn tríích rút các cấuu trúc • Đầu vào: mã lệnh. Troong bước này phương p pháp trích t rút ra cácc cấu o Vectorr đặc trưng chho mẫu mã độcđ cần phânn trúc mã lệnh của từng mẫuu mã độc. loại Bước 2: Mô M hình hóa và v trích rút đặặc trưng o Các veector đặc trưnng đại diện ch ho các họ mãã độc • Đầu vào: v Tập các cấu trúc mã lệnhl theo từngg mã • Đầu ra:Nhhãn lớp dự đoáán được độc • Đầu ra: r Các vectorr đặc trưng đạại diện cho cáác họ Trong T bước nàày sử dụng thhuật toán 1-NN N để dự đoánn mã độộc (không phảải cho từng mã m độc) và tậpp cấu nhãn n lớp của mẫuu mã độc mới. trúc mã m lệnhcủa cácc họ. b,, Phương phááp được đề xuuất bởi P. Shrrestha và cácc Trong giaai đoạn này, từ t các mẫu mãã độc đơn lẻ thuộc t cộng g sự[3] cùng một họọ, chúng ta tổnng hợpcác cấuu trúc mã lệnnhcủa cả họ để tínhh vector đặc trrưng cho họ đó. đ Các thành phần Phương pháp nàyn cũng sử ddụng điểm đặcc trưng để đạii của vector đặặc trưng đượcc tính theo cônng thức tf-idf trong t n cho các họ, mỗi diện m họ mã độộc sẽ được đạii diện bởi mộtt khai phá vănn bản và truy xuất thông tinn áp dụng vớ ới các vecttor đặc trưng giống g như phư ương pháp Deendroid. cấu trúc mã lệnh. l 1) Giai G đoạn xâyy dựng điểm m mẫu 2) Giai đoạnn phân tích • Đầu vào:T Tập các mẫu m mã độc huấn luyện l • Đầu vào:Các v vectoor đặc trưng chho các họ mã độc đ • Đầu ra: Các C vector đặặc trưng đại diện d cho từngg • Đầu ra:Cây r phân cấp của các họọ mã độc họ mã độc Trong giiai đoạn này sử dụng thuậật toán phân cụm Cũng C tương tự ự như phươngg pháp Dendrroid, chúng taa phân cấp và phân tích liênn kết để tìm raa mối quan hệ giữa gộp tất cả những file mã độc thhuộc cùng mộ ột họ, trích rútt các họ mã độộc. ra các c chuỗi có thể t in được ((printable strin ng) trong cácc 3) Giai đoạnn phân loại file mã độc của cả c họ, sau đó ttính trọng số của c các chuỗii bằng g giá trị tf-idff và xây dựngg vector đặc trưng t đại diệnn Bước 1: Trích rút các cấu trúc mã lệnh (giống trong t cho họ với mỗi chiềuc là giá trị trọng số củaa chuỗi tươngg giai đoạn môô hình hóa) nhhưng đầu vào chỉ là một mãã độc tứngg. Trong phươ ơng pháp này, người ta xây dựng hai loạii cần phân loại điểmm đặc trưng. Điểm Đ đặc trưnng thứ nhất đưược tập hợp từừ Bước 2: Trích T rút đặc trưng t tất cả c các chuỗi có c thể có, điểểm đặc trưng thứ hai đượcc • Đầu vào: v xây dựng từ nhữnng chuỗi nổi bbật trong từng họ mã độc (kk SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 65
Nguyễn Thị Thu Tra ang, Nguyễ ễn Đại Thọ, Vũ Duy Lợii chuỗi có trọnng số cao nhấất), các chuỗii nổi bật trongg các Sau S đây là hìnnh minh họa điểm mẫu, điiểm đặc trưngg họ mã độc khhác nhau có thhể khác nhau. của các phương pháp p để phân bbiệt được sự khác k nhau củaa các phương p pháp dựa trên điểmm mẫu [1], các phương phápp 2) Giai đoạn n phân loại dựa trên điểm đặcc trưng Dendrooid [2], phươnng pháp [3] vàà • Đầu vào: v Mã độc cần c phân loại phươơng pháp cải tiến. t • Đầu rra: Nhãn lớp dự đoán đượcc của mã độc đó đ C thích: Δ: lớp 1,O: lớp 22, ☐: lớp 3 Chú Đầu tiên, người n ta tính danh sách tf-iidf của từng chuỗi c Các điểm được tôô đậm là nhữnng điểm mẫu hoặch điểm đặcc có thể in đượ ợc trong mẫu mã m độc cần phhân loại. ng của các lớp trong tập dữ lliệu huấn luyệện. trưn Với mỗi chuuỗi xuất hiện trong điểm đặc trưng, chúnng ta chọn các giáá trị tf-idf củaa chuỗi trong danh sách trêên để tạo ra một vector v đặc trưưng đại diện cho mã độc chưa biết. Nếu mộột chuỗi có troong điểm mẫuu nhưng khônng có trong mã độcc cần phân loại thì giá trị của c chiều đó trong t vector đặc trrưng tương ứnng bằng 0. Mỗỗi điểm đặc trrưng, chúng ta sẽ tìm t được mộtt vector khác nhau đại diệnn cho mã độc chưaa biết. Cuối cùùng, tính độ tưương tự cosin giữa vector đó vớ ới vector đặc trưng. Mã độộc được phânn vào lớp của điểm m đặc trưng màà nó có độ tươ ơng tự cao nhấất. Nhận xétt các phươn ng pháp dựaa trên điểm đặc trưng: Denddroid [2] và phương phápp đề xuất bở ởi P. Shrestha và các cộng sự ự[3] đưa ra phhương pháp huấn Hìình 4. Minh họ ọa điểm mẫu ccủa phương ph háp trích rút luyện khá khhác biệt so vớ ới thông thườờng. Xây dựngg mô điểm m mẫu [1] hình từ tất cảả các điểm dữ ữ liệu huấn luuyện cùng mộột lúc (xử lý theo lôô) thay vì huấnn luyện dần dần d với mỗi dữ ữ liệu Hình h 4 mô tả trườ ờng hợp có thhể xảy ra là điiểm thuộc lớpp tại một thờii điểm (xử lý l theo luồngg). Ưu điểm m của Δ có ó thể bị phân vào nhóm cóó điểm mẫu làà lớp O, hoặcc phương phápp này là vectoor đặc trưng được đ xây dựnng từ điểm m thuộc lớp Δ là đại diện chho nhiều điểm thuộc lớp O. tất cả các tậpp dữ liệu tronng một họ vì vậy v nó có tínhh đại diện riêng chho họ đó. Và mỗim vector đạại diện cho mộột họ mã độc thayy vì đại diện cho một mã độc như phư ương pháp thông thường t giúp giảm g thời giaan xử lý trongg quá trình phân looại. Nhược điiểm của phươnng pháp này là l chỉ sử dụng duy nhất một điểm m để đại diệnn cho tất cả dữ ữ liệu của một họ khik đó sẽ bị mất m mát nhiềuu thông tin cóó thể làm cho quá trình phân loạại không đượcc chính xác. III. ĐỀ XUẤ ẤT PHƯƠNG G PHÁP TRÍC CH RÚT ĐIỂM M MẪU CẢ ẢI TIẾN Với phươơng pháp phânn loại dựa trên điểm mẫu [1]], các điểm mẫu đư ược trích rút ra trên toàn bộộ tập dữ liệu thhì có thể có nhữngg sai sót vì khik đó có nhữ ững dữ liệu không k Hình H 5. Minh họa h điểm đặc trưng của phư ương pháp cùng một họ có thể thuộc chung c một cụụm, hoặc điểm m mẫu Denddroid và phươn ơng pháp đề xuuất bởi P. chưa chắc đã đ cùng lớp với v đại đa số các điểm dữ ữ liệu Shrestha vàà các cộng sự[ ự[3] trong nhóm nhưng n lại đượ ợc dùng làm đạiđ diện cho nhóm n đó. Trong khhi đó, ý tưởng của phương pháp p phân loại dựa C thích: ✸ là điểm đặc trrưng cho 1 lớp Chú p. trên điểm đặc trưng là lấyy ra điểm đặc trưng trong tậập dữ Từ T Hình 5, một m điểm đặc trưng được tổng t hợp mộtt liệu thuộc cùùng một lớp. Vì V vậy, chúngg tôi muốn theeo tư điểm m đặc trưng được đ tổng hợpp từ tất cả các điểm dữ liệuu tưởng của phhương pháp Dendroid D [2] vàà phương phááp [3] tron ng một lớp. Điiểm đặc trưngg đó có thể làà một điểm đãã áp dụng và cảic tiến phươnng pháp dựa trên t điểm mẫuu [1]. tồn tại t hoặc một điểm đ ảo khôngg tồn tại trong g các điểm dữ ữ Chúng tôi muốn m lấy ra nhhững điểm mẫu từ những điểm liệu đã biết. Và một m lớp chỉ ccó một điểm đặc trưng đạii trong cùng một m họ mã độcc. Khi đó mộtt điểm mẫu chhỉ đại n cho nó. diện diện cho mộtt họ mà nó thhuộc vào, khônng đại diện chho họ khác. Từ đó sẽ khắc phụcc được nhược điểm của phư ương pháp dựa trêên điểm mẫu [1] nói trên. Ngoài ra sauu quá trình trích rúút chúng ta sẽẽ thu được mộột hay nhiều điểm mẫu để đại diện cho mộtt họ mã độc, khác với phư ương pháp Dendrooid [2] và phhương pháp được đ đề xuấtt bởi P.Shrestha [33] là với mỗi họ chỉ trích rútr được một điểm đại diện, giúpp giảm sự mấtt mát thông tinn. SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 66
PHÂN LOẠI MÃ ĐỘC DỰA A TRÊN CÁC KỸ THUẬT N-GRAM N VÀ HỌC H MÁY thêmm cải tiến tronng giai đoạn hhuấn luyện để thu được quyy trình h cải tiến đượcc trình bày troong Hình 7. Quy Q trình gồm m 2 giai đoạn là giai đoạn huấn h luyện vàà giai đoạn dự đoánn. Trong T giai đooạn huấn luyệện: • Giữ nguyêên giải thuật phhân loại sử dụ ụng điểm mẫu • Thay đổi giải g thuật tríchh rút điểm mẫẫu có áp dụngg ý tưởng củủa phương pháp sử dụng điiểm đặc trưngg – Dendroiid [2]. Chúngg tôi sẽ trích rút các điểmm mẫu trên tậập dữ liệu củaa mỗi họ mã độc đ riêng biệt.. Một họ mã m độc chỉ đư ược đại diện bởi một hayy nhiều điểmm dữ liệu thuộộc họ mã độc đó. Giải thuậtt được trìnhh bày trong sơ ơ đồ khối ở Hìình 8 và đượcc Hình 6. Min nh họa điểm mẫu m của phươ ơng pháp cải tiến ti giải thích bên b dưới. Hình 6 chho thấy tất cả các điểm mẫẫu đại diện củaa các • Không sử ử dụng giải thhuật phân cụ ụm trong giaii lớp ☐ là điểểm dữ liệu thuuộc lớp ☐. Các C điểm mẫuu của đoạn huấn luyện. lớp O là điểm m dữ liệu thuuộc lớp O vàccác điểm mẫuu của Trong T giai đooạn dự đoán: lớp Δ là điểmm dữ liệu thuộộc lớp Δ. Mặc dù có một điểểm Δ một mình, nóó tự đại diện cho c chính nó, không bị các điểm • Giữ nguyêên giải thuật trích rút điểm m mẫu tạo raa dữ liệu của lớp l khác đại diện d nhầm. Vì V vậy trích rúút đặc điểm mẫu trên tập dữ liiệu chưa phân n loại được đểể trưng trong phương p pháp cải tiến luôn đạt trường hợợp tốt tìm ra các cụm mã độc m mới. nhất, tất cả các c điểm trongg cụm được đặcđ trưng bởi điểm • Sử dụng giải g thuật phâân cụm sử dụ ụng các điểm m mẫu thuộc chhính lớp đó. mẫuđược trích t rút ở trênn trong quá trrình phân tíchh gia tăng Từ tư tưởởng trên, cải tiến của chúnng tôi sẽ can thiệp • Giải thuậtt phân cụm cchỉ áp dụng trênt các điểm m vào giai đoạạn trích rút điểm đ mẫu tronng quá trình huấn mẫu được xây dựng từ ddữ liệu chưa phân p loại đượcc luyện, còn quá q trình dự đoán vẫn đượ ợc thực hiện theo vào các lớớp đã biết, khhông áp dụng phân cụm sử ử phương thứ ức truyền thốống sử dụngg độ đo khhoảng dụng điểmm mẫu cho cáác điểm mẫu của tập huấnn cách.Chúng tôi dựa trên quy trình tổnng quát chungg của luyện do các c điểm mẫuu này đã thuộcc đúng các họọ phương phápp phân loại dựa d trên điểm m mẫu và bổ xung mã độc, khhông cần phânn cụm nữa. Hình 7. Quy trìn nh cải tiến SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 67
Nguyễn Thị Thu Tra ang, Nguyễ ễn Đại Thọ, Vũ Duy Lợii IV. THỰC T NGHIIỆM VÀ ĐÁN NH GIÁ A. Chuẩn C bị dữ liệu l Chúng C tôi sử dụng bộ dữ liệu referencce dataset củaa phươ ơng pháp dựaa trên điểm m mẫu [1] cho công trình củaa mình h. Tập dữ liệuu này gồm toàn mã độc tríích xuất từ cơ ơ sở dữ d liệu lớn về v phần mềm m độc hại đượ ợc duy trì tạii CWWSandbox webbsite và được gán nhãn bở ởi 6 sản phẩm m Antiivirus khác nhhau và loại bỏỏ các lớp có ít hơn 20 mẫuu và lấấy trên một lớ ớp tối đa 300 m mẫu thực thi nhị n phân. Phầnn mã nhị n phân đượcc thực thi và ggiám sát bằng g CWSandboxx thu được 3133 mẫu m báo cáo hành vi thỏa mãn chuẩnn MISST với 24 mẫẫu mã độc vàà 85 lời gọi hệ thống. Vìì phươ ơng pháp củaa chúng tôi vàà phương phááp [1] đều tậpp trun ng vào phân looại mã độc thhay vì phát hiiện nên bộ dữữ liệu được sử dụngg chỉ chứa nhữ ững mẫu mã độc, đ không cóó mã sạch. s Hìn nh 9. Mô tả ttập dữ liệu B. Trích T rút đặc trưng Trên T tập dữ liệu, l chúng tôôi thực hiện trích t xuất cácc chuỗỗi lời gọi hệ thống t theo chhuẩn MIST leever 1 (chỉ cóó tên của các lời gọọi hệ thống, kkhông có thôn ng tin đối số)) và thu t được có 85 8 lời gọi hệ thống khác nhau trong tậpp dữ liệu. l Sau khi thu được cáác chuỗi lời gọi g hệ thống,, Hình 8. Giiải thuật đề xu uất chúnng tôi tiến hànnh trích xuất vector theo 2-gram 2 các lờii Giải th hích giải thuậtt đề xuất: gọi hệ thống (2 lờ ời gọi hệ thốnng liên tiếp tro ong báo cáo).. Sau khi thực nghiiệm, chúng tôôi thấy kết quảả trên trích rútt Bước 1:: Khởi tạo tậpp prototypes = Ø, mảng disttance đặc trưng dựa trên sự xuất hiệnn của các lời gọi hệ thốngss có giá trị bằng b ∞ để lưuu khoảng cáchh của các điểmm dữ đạt hiệu h quả cao hơn trích rút đđặc trưng dựaa trên tần suấtt liệu trong cùng một họọ đến điểm mẫu m gần nó nhhất ở xuấtt hiện của cácc lời gọi hệ thốống. Do đó, chúng c tôi tríchh thời điểm hiện tại. rút đặc đ trưng dựaa trên sự xuất hhiện hay khôn ng của các lờii Bước 2:((cải tiến). gọi hệ h thống. Trong tập dữ liệuu có 85 các lờii gọi hệ thốngg khácc nhau nên khhông gian củaa 1 vector là 85*85. 8 Nhưngg • Bướ ớc 2.1: Chọn tất cả các vecctor đặc trưngg của vì có c nhiều chiềuu bằng 0 nênn có thể khai thác để tríchh mộtt lớp để tiến hành h trích rút điểm mẫu trêên họ xuấtt đặc trưng vàà so sánh các vvector trong th hời gian tuyếnn mã độc đ đó tính. Thảo luận chi tiết của phhương pháp th hời gian tuyếnn • Bướ ớc 2.2: Kiểm tra khoảng cáách lớn nhất trong t tính cho trích xuấất đặc trưng đư ược cung cấp p bởi Rieck vàà mảnng distance cóc nhỏ hơn dp hay không,, nếu Laskkov [10]. khônng nghĩa là tấất cả các điểm m trong họ mãã độc đã được đ một điểm m mẫu đại diệện cho chúng thì t ta C. Đánh Đ giá và so s sánh tiến hành thực hiệện bước 2 vớii các họ mã độộ còn Chúng C tôi đánnh giá giai đoạn phân loại sử dụng điểm m lại, nếu n có ta tiến hành tìm điểmm mẫu mới. mẫuu được trích rúút theo phươnng pháp cải tiiến của chúngg Bước 3: Chọn C điểm cóó khoảng cáchh lớn nhất đếnn các tôi mà m không đánnh giá các giaai đoạn trích rútr điểm mẫuu điểm mẫu tìm m được trướcc đó làm điểm m mẫu tiếp theeo và và phân p cụm như ư trong bài báoo [1] vì với giai g đoạn tríchh thêm nó vàoo tập prototypes. Sau đó cậập nhật lại khhoảng rút điểm đ mẫu, theeo phương phháp cải tiến thhì độ đo chínhh cách của cácc điểm dữ liệuu trong họ đó với điểm mẫuu gần xác (precision) củủa các cụm luuôn đạt giá trịị tốt nhất là 1 nhất. Lặp lại bước 2.2 đến khi điều kiện không thỏa mãn. m SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 68
PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY do chúng tôi trích rút điểm mẫu từ dữ liệu trong cùng một hơn so với những mẫu mã độc đã biết nên chúng tôi đã cụm thay vì trên toàn bộ tập dữ liệu. chia như trên. Những thể hiện của 6 lớp để đánh giá khả năng nhận biết lớp mới chỉ được dùng để đánh giá không Do sử dụng bộ dữ liệu của phương pháp dựa trên được cho vào giai đoạn huấn luyện. Còn tập 18 lớp chúng điểm mẫu [1] nên chúng tôi sử dụng ngưỡng dp(được tôi sẽ chia tiếp theo tỷ lệ 70 :30 với 70% dùng để huấn trình bày trong giải thuật trích rút điểm mẫu ở Hình 2) luyện và 30% là dùng để đánh giá khả năng phân lớp. bằng 0.65 (là ngưỡng tốt nhất để chọn ra các điểm mẫu Chúng tôi thực hiện 10 lần và lấy kết quả trung bình với đã được thực nghiệm và nêu ra trong bài báo [1]) để trích cả phương pháp cải tiến và phương pháp [1]. rút ra các điểm mẫu trong một lớp trong phương pháp cải tiến của chúng tôi. Kết quả của phương pháp dựa trên điểm mẫu [1] : Bảng II. Kết quả phương pháp dựa trên điểm mẫu [1] Sau đó, chúng tôi tiến hành phân loại và đánh giá trên khả năng phân loại những lớp đã biết và khả năng nhận dr Fk Fu biết những lớp mới. 0.3 0.830 0.994 Để đánh giá khả năng phân lớp, chúng tôi sử dụng độ 0.4 0.890 0.992 đo phân lớp F1microlà độ đo tổng hợp từ hai độ đo là độ đo 0.5 0.932 0.901 chính xác P (precision) và độ hồi tưởng R (recall). 0.6 0.94 0.80 0.7 0.943 0.716 Định nghĩa các độ đo: • TPi: Số mẫu thuộc lớp i và được phân đúng vào Do mục tiêu của chúng tôi là chọn ngưỡng dr sao cho lớp i cả hai độ đo Fk, Fu đạt giá trị cao. Với dr= 0.7 thì độ đo • FPi: Số mẫu không thuộc lớp i nhưng bị phân sai Fu giảm mạnh trong khi Fk chỉ tăng được ít nên chúng tôi vào lớp i dừng thực nghiệm ở ngưỡng dr= 0.7. Từ bảng II, ta thấy • TNi: Số mẫu không thuộc lớp i và được phân giá trị dr để cả Fkvà Fu đều đạt giá trị cao là dr = 0.5, Fk = đúng không thuộc lớp i 0.932, Fu = 0.901. • FNi: Số mẫu thuộc lớp i nhưng bị phân sai vào lớp không phải i. Độ chính xác trung bình: (2) Độ hồi tưởng trung bình: (3) Độ đo F1micro: (4) Hình 10. Biểu đồ kết quả phương pháp [1] Kết quả phương pháp đề xuất F1micronằm trong khoảng [0;1] và giá trị càng cao thì Bảng III. Kết quả phương pháp cải tiến thể hiện độ phân lớp càng tốt. Độ đo được chúng tôi lựa chọn để đánh giálà: dr Fk Fu Fk: là F1microtrên tập dữ liệu đã biết nhãn để đánh giá 0.3 0.777 0.999 khả năng phân lớp của thuật toán. 0.4 0.962 0.994 Fu: là F1microtrên tập dữ liệu chưa biết nhãn nhằm 0.5 0.981 0.988 đánh giá khả năng nhận biết những lớp mới chưa xuất 0.6 0.989 0.854 hiện trong tập huấn luyện. 0.7 0.995 0.728 Khả năng nhận biết các mã độc mới (Fu) và khả năng phân loại các mã độc đã biết (Fk) đều phụ thuộc vào việc Tương tự, chúng tôi dừng ở ngưỡng dr= 0.7 do độ đo chọn ngưỡng khoảng cách đểxác định một mẫu mã độc Fu giảm mạnh.Từ bảng III, trường hợp tốt nhất với dr = mới (dr). Nếu chúng ta chọn drcàng lớn, độ loại mã độc ra 0.5, Fk = 0.981, Fu = 0.988 vì cả hai Fkvà Fuđều cao. càng thấp nên độ đo Fu càng thấp, còn độ đo Fk càng cao, ngược lại drcàng nhỏ thì Fu càng cao và Fk càng thấp. Mục tiêu của chúng tôi là chọn ngưỡng drsao cho cả hai độ đo đều cao. Tập dữ liệu thử nghiệm có 24 lớp. Chúng tôi sẽ sử dụng tập dữ liệu của 18 lớp để huấn luyện và đánh giá khả năng phân lớp với độ đo Fk. Dữ liệu của 6 lớp còn lại sẽ được đưa vào để đánh giá khả năng nhận biết lớp mới với độ đo Fu. Chúng tôi không chia tập dữ liệu trong bài báo [1], do sự xuất hiện của các mã độc mới thường ít SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 69
Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi [2] Suarez-Tangil, Guillermo et al. “Dendroid: A text mining approach to analyzing and classifying code structures in Android malware families.” Expert Syst. Appl. 41 (2014): 1104-1117. [3] Prasha Shrestha,Suraj Maharajan,Gabriela Ramirez de la Rosa, Alan Sprague, Thamar Solorio and Gracy Warner, "Using String Information for Malware Family Identification" @Springer International Publishing Switzerland 2014,A.L.C.Bazzan and K.Pichara(Eds.): IBERAMIA 2014, LNAI 8864,pp.686- 697, 2014.DOI:10.1007/978-3-319- 12027-0_55 [4] Souppaya, M., and Scarfone, K. Guide to Malware Incident Prevention and Handling for Desktops and Laptops. NIST Special Publication SP 800-83, July 2013. [5] https://securelist.com/it-threat-evolution-q3-2018- statistics/88689/ Hình 11. Biểu đồ kết quả phương pháp đề xuất [6] Daniele Ucci, Leonardo Aniello, Roberto Baldoni: Survey of machine learning techniques for malware analysis. Computers & Security 81: 123-147 (2019). [7] Quinlan, J. Ross. “Combining Instance-Based and Model-Based Learning.” ICML (1993). [8] R. Duda, P.E.Hart, and D.G.Stork. Pattern classification. John Wiley & Sons, second edition, 2001. [9] T. Gonzalez. Clustering to minimize the maximum intercluster distance. Theoretical Computer Science 38, pages 293–306, 1985. [10] K. Rieck and P. Laskov. Linear-time computation of similarity measures for sequential data. Journal of Machine Learning Research, 9(Jan):23–48, 2008. MALWARE CLASSIFICATION BASED ON N- GRAM AND MACHINE LEARNING TECHNIQUES Hình 12. Biểu đồ so sánh kết quả hai phương pháp So sánh hai trường hợp tốt nhất, ta thấy giải thuật cải Abstract: Malware is oneof the biggest threats to the tiến cho kết quả tốt hơn với Fk = 0.981, Fu = 0.988 (tương security of computer systems. Therefore, accurate đương Fk = 98.1%, Fu = 98.8%). classification of malware is important for appropriate responses. In this paper, we present an improvement to V. KẾT LUẬN the prototype extraction algorithm in the prototype based framework for malware clustering and classification Bài báo cáo trên của chúng tôi trình bày về một cải proposed by Rieck et al [1]. In our improvement, the tiến trong giai đoạn trích rút điểm mẫu của quy trình phân prototype extraction is performed on each malware family loại mở mã độc dựa trên điểm mẫu được đề xuất bởi instead of the whole malware collection. The idea is Rieck và các cộng sự vào năm 2011. Kết quả thực nghiệm inspired from the two previous methods for malware cho thấy phương pháp cải tiến của chúng tôi cho hiệu quả classification using representative points [2, 3]. khá tốt - đạt độ đo F1micro bằng 98.1% với khả năng phân Experimental results show that our methodis more loại và khả năng nhận biết mã độc mới là 98.8%, khắc efficient than the original methodwith F1-score of 0.981% phục được nhược điểm của phương pháp sử dụng điểm on known malware and 0.988% on unknown malware. mẫu [1]. Tuy nhiên, phương phápcủachúng tôi vẫn còn hạn chế do chọn các điểm mẫu hoàn toàn theo khoảng Keyword: Malware classification, n-gram, prototype cách có thể dẫn thiên lệch về hướng trong không gian nhiều chiều. Để khắc phục vấn đề này, chúng tôi sẽ nghiên cứu sử dụng mô hình siêu lập phương và chọn các SƠ LƯỢC VỀ TÁC GIẢ điểm mẫu theo các hướng của siêu lập phương để hoàn thiện hơn quy trình cải tiến được đề xuất trong báo cáo này. Ngoài ra, vấn đề an ninh của các điện thoại thông NguyễnThịThu Trang, Hiện công tác tại Trường đại học Công nghệ - Đại học minh cũng là một mối quan tâm lớn. Vì vậy, trong tương Quốc Gia Hà Nội. Lĩnh vực nghiên cứu: An lai chúng tôi sẽ nghiên cứu và áp dụng phương pháp này toàn thông tin cho các thiết bị điện thoại thông minh sử dụng hệ điều hành Android. TÀI LIỆU THAM KHẢO [1] “Automatic Analysis of Malware Behavior using Machine Learning” KonradRieck, Philipp Trinius, Carsten Willems, and Thorsten Holz Journal of ComputerSecurity (JCS), 19 (4) 639-668, 2011. SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 70
PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY Nguyễn Đại Thọ, Bảo vệ luận án Tiến sỹ tại Trường Đại học Công nghệ Compiegne, Cộng hòa Pháp, năm 2000. Hiện công tác tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Lĩnh vực nghiên cứu: An toàn thông tin, mạng máy tính, tính toán phân tán Vũ Duy Lợi, Nhận học vị Tiến sỹ năm 1989 tại Đại học Karlsruhe, CHLB Đức, học hàm Phó giáo sư năm 2003. Từ 1981-2001 công tác tại Viện Công nghệ thông tin, Viện KHVN, nay là Viện HLKHCNVN. Từ 2001-2015 công tác tại Trung tâm CNTT, Văn phòng Trung ương Đảng. Hiện là cộng tác viên tại khoa CNTT, trường ĐHCN, ĐHQGHN. Lĩnh vực nghiên cứu: Mạng máy tính; Mạng thế hệ mới; Đánh giá hiệu suất mạng; An toàn thông tin SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 71

nguon tai.lieu . vn

Tin học văn phòng Đồ họa - Thiết kế - Flash Quản trị Web Cơ sở dữ liệu Quản trị mạng Kỹ thuật lập trình Hệ điều hành Phần cứng An ninh - Bảo mật Chứng chỉ quốc tế Thủ thuật máy tính Điện - Điện tử Kinh tế học Hoá học Xã hội học Môi trường