Xem mẫu
- Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi
PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC
KỸ THUẬT N-GRAM VÀ HỌC MÁY
Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi
Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Tóm tắt: Mã độc đang là mối đe dọa lớn đến an ninh Nhược điểm của phân tích tĩnh là khó phân tích với các
của các hệ thống máy tính. Vì vậy phân loại mã độc để có phần mềm sử dụng kỹ thuật che giấu, mã hóa và đóng gói.
những biện pháp đối phó thích hợp là một phần quan Phân tích động tiến hành thực thi các phần mềm độc
trọng trong lĩnh vực an toàn thông tin. Trong bài báo này, hại trong môi trường sandbox được giám sát để thu thập
chúng tôi cải tiến giải thuật trích rút điểm mẫu trong quy các hành vi của mã độc. Vì vậy sandbox cần phải an toàn.
trình phân loại mở mã độc dựa trên điểm mẫu được đề Trong loại phân tích này, có thể thu thập được tất cả các
xuất bởi Rieck và các công sự [1]. Chúng tôi áp dụng tư thuộc tính của hành vi, chẳng hạn như các tệp tin đc được
tưởng của hai phương pháp phân loại dựa trên điểm đặc mở, tạo mutexes, các hàm chính xác được gọi, các đối số
trưng là Dendroid [2] và phương pháp được đề xuất bởi của hàm. Ưu điểm của phân tích động là nó nhanh hơn
P.Shrestha và các cộng sự [3], trích rút các điểm mẫu trên nhiều phân tích tĩnh. Nhược điểm của phân tích động,
từng họ mã độc thay vì dựa trên toàn bộ các họ mã độc. chúng ta chỉ nhìn thấy một kịch bản có liên quan đến hiện
Thực nghiệm cho thấy phương pháp của chúng tôi cho tại của hệ thốngvà không phải hành vi nào cũng được
kết quả phân loại tốt với khả năng nhận biết mã độc là phân tích (ví dụ như virus chờ đến một thời điểm nào đó
0.981% và phát hiện mã độc mới là 0.988% cao hơn mới hoạt động).
phiên bản gốc của phương pháp dựa trên điểm mẫu [1].1 Theo [6], phân tích tự động mã độc hướng tới một
Từ khóa: Phân loại mã độc, n-gram, điểm mẫu. trong ba mục tiêu là phát hiện, phân tích độ tương tự và
phân loại.Chúng tôi chú tâm nghiên cứu đến vấn đề phân
I. GIỚI THIỆU loại mã độc. Trong nghiên cứu, người ta thường sử dụng
Phần mềm độc hại (hay mã độc) là một chương trình các phương pháp học máy có giám sát để giải quyết bài
được chèn vào hệ thống, thường là cố tình, với mục đích toán phân loại một cách tự động. Theo [7] có hai cách tiếp
xâm phạm tính bảo mật, toàn vẹn, hoặc tính khả dụng của cận nổi bật là dựa trên mô hình (model-based learning) và
dữ liệu, ứng dụng, hệ điều hành của nạn nhân hoặc gây dựa trên thể hiện (instance-based learning). Với học máy
phiền nhiễu, làm gián đoạn nạn nhân [4]. Phần mềm độc dựa trên mô hình (SVM, cây quyết định, Naive Bayes
hại có nhiều loại như virus, Trojan, worm, phần mềm gián v.v.), các giải thuật này sẽ tạo ra mô hình khái quát hoá dữ
điệp, rootkit, v.v. Cùng với sự phát triển nhanh chóng của liệu huấn luyện vì vậy không thích hợp với các bài toán có
Internet, phần mềm độc hại cũng đang ngày một gia tăng. dữ liệu phức tạp. Mặt khác, các phương pháp học máy
Theo thống kê của Kaspersky, 21.643.947 đối tượng phần dựa trên thể hiện (k-NN,..) không khái quát hoá dữ liệu
mềm độc hại đã được phát hiện vào năm 2018 gấp hơn 5 mà sử dụng luôn dữ liệu để phân loại bằng cách so sánh
lần so với năm 2015 [5]. Mặc dù có sự cải thiện đáng kể dữ liệu cần phân loại với dữ liệu huấn luyện, vì vậy có thể
của các cơ chế an ninh, nhưng các phần mềm độc hại tối ưu hoá những trường hợp cụ thể và thích hợp hơn với
đang ngày một tinh vi và có các cơ chế lẩn trốn nên chúng các bài toán phức tạp như phân loại. Với học máy dựa trên
vẫn đang là một trong những mối đe dọa lớn nhất đối với thể hiện có thể sử dụng toàn bộ tập dữ liệu huấn luyện để
các hệ thống máy tính. Vì vậy phát hiện và phân tích hành phân loại, nhưng nhược điểm là thời gian phân loại lâu. Vì
vi của các phần mềm độc hại là một nhiệm vụ rất quan vậy người ta sử dụng một phương pháp khác của học máy
trọng để làm giảm tối đa những thiệt hại do chúng gây ra.2 dựa trên thể hiện là phương pháp sử dụng các điểm mẫu
để đại diện cho tập dữ liệu huấn luyện và phân loại dựa
Phân tích mã độc đề cập đến quá trình xác định mục trên các điểm mẫu này thay vì sử dụng toàn bộ tập dữ liệu
đích, hành vi, phương pháp tấn công và cách thức lan huấn luyện. Vì những lý do trên, chúng tôi chọn sử dụng
truyền của chúng. Phân tích mã độc được chia làm hai loại phương pháp học máy dưạ trên thể hiện có sử dụng các
là phân tích tĩnh và phân tích động. điểm mẫu để phân loại mã độc”
Phân tích tĩnh hay còn được gọi là phân tích mã tĩnh Ba công trình nghiên cứu về phân loại mã độc sử dụng
để cố gắng suy ra các hành vi của phần mềm, là quá trình điểm mẫu được chúng tôi quan tâm đến là: phương pháp
phân tích phần mềm mà không cần thực thi mã hoặc là phân loại mở dựa trên điểm mẫu của Rieck cùng các
chương trình. Các mẫu phát hiện có thể được trích xuất cộng sự [1],hai phương pháp dựa trên điểm đặc trưng là
trong phân tích tĩnh như: các Lời gọi hệ thống, API, phương pháp Dendroid- áp dụng với các mã độc trên
signature, biểu đồ điều khiển, opcode, bytecode, các file Android [2] và phương pháp được đề suất bởi P. Shrestha
DLL được gọi...Ưu điểm phân tích tĩnh là an toàn và và các cộng sự[3]. Phương pháp thứ nhất sử dụng thông
chúng ta có thể quan sát hết các phần của chương trình. tin về các n-gram của chuỗi các lời gọi hệ thống, đặc
trưng là sự xuất hiện hay không của các n-gram và sử
Tác giả liên hệ: Nguyễn Đại Thọ dụng điểm mẫu (prototype) để đại diện cho các cụm mã
Email: nguyendaitho@vnu.edu.vn độc. Phương pháp này có ba thành phần chính là: trích rút
Đến tòa soạn: 8/2019, chỉnh sửa 11/2019, chấp nhận đăng 12/2019
điểm mẫu giúp tìm ra các điểm mẫu đại diện cho các cụm,
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 62
- PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY
phân cụm sử dụng điểm mẫu giúp gộp nhóm các cụm Đầu tiên mã độc được chạy trong môitrườngsandbox
tương tự nhau thành một cụm lớn hơn, phân lớp sử dụng để giám sát các hành vi và thu thập các chuỗi lời gọi hệ
điểm mẫu để dự báo nhãn lớp cho mã độc chưa biết và thống đặc trưng cho các hành vi của chúng.
phát hiện ra những mẫu mã độc mới. Phương pháp thứ hai
– Dendroid [2] là một phương pháp phân loại dựa trên 2) Giai đoạn 2: Nhúng các hành vi vào không gian
điểm đặc trưng, áp dụng các kỹ thuật của lĩnh vực phân vector
loại văn bản. Điểm đặc biệt của phương pháp này là sử • Đầu vào:Chuỗi các lời gọi hệ thống
dụng một điểm đặc trưng được tạo ra từ các mã độc trong • Đầu ra: Vector đặc trưng đại diện cho mãđộc
cùng một họ để đại diện cho toàn bộ họ đó. Kết quả của
Chuỗi lời gọi hệ thống sau đó được nhúng vào không
quá trình trích rút đặc trưng là một vector đại diện chung
gian vector sử dụng n-gram. Mỗi thành phần của một
cho một họ mã độc thay vì đại diện cho từng mã độc cụ
vector đặc trưng thể hiện sự xuất hiện hay không của n-
thể. Các điểm đặc trưng được dùng kết hợp với thuật toán
gram tương ứng trong chuỗi lời gọi hệ thống.
1NN (One Nearest Neighbor) để phân loại mã độc. Mã
độc mới được phân vào họ của điểm đặc trưng gần nó Giả sử tập S= {(x1,x2,x3,x4, ..., xn)| xi Є A với 1≤ i≤ n}
nhất. Phương pháp này là phân loại đóng. Một điểm dữ là tập tất cả n-gram có thể có
liệu khi được cho vào phân loại sẽ chắc chắn được phân A là tập tất cả các lời gọi hệ thống khác nhau.
vào một lớp đã biết. Phương pháp thứ 3 cũng xây dựng
các điểm đặc trưng từ các mã độc trong cùng một họ và Với mỗi báo cáo x, hành vi mã độc có thể nhúng vào
mỗi họ mã độc được đại diện bởi một điểm điểm đặc một không gian vector có |S| chiều. Mỗi chiều sẽ tương
trưng giống như phương pháp Dendroid. Sau đó mẫu mã ứng với một n-gram. Giá trị các chiều của vector được
độc cần phân loại được tính độ tương tự với các điểm đặc tính như sau:
trưng của các họ và được phân vào họ có độ tương tự lớn φ(x) = (φs(x))sЄS (1)
nhất.
Trong đó: φs(x) = 1 nếu mẫu báo cáo hành vi x chứa n-
Chúng tôi vận dụng tư tưởng phương pháp thứ hai và gram s, ngược lại φs(x) = 0
ba để cải tiến giải thuật trích rút điểm mẫu của phương
pháp thứ nhất. Trong quá trình trích rút điểm mẫu, thay vì Ví dụ: A = {a1, a2}
trích rút điểm mẫu dựa trên toàn bộ dữ liệu huấn luyện, → S= {a1a1, a1a2, a2a1, a2a2}
chúng tôi sẽ trích rút điểm mẫu trên dữ liệu của từng họ.
Khi đó một họ có thể có một hoặc nhiều điểm mẫu. Chúng Mẫu báo cáo x = a1a2a1a1a2
tôi vẫn giữ quy trình tổng quát chung như phương pháp
dựa trên điểm mẫu [1] để phân loại mở các mã độc, phân Bảng I. Sự xuất hiện của các 2-gram
loại các mã độc đã biết và nhận biết được các mã độc có 2-gram a1a1 a1a2 a 2a 1 a2a2
hành vi mới. Chúng tôi đánh giá hiệu quả của phương
pháp đề xuất theo cả hai khả năng phân loại đúng những xuất hiện 1 1 1 0
mã độc đã biết và nhận biết nhưng mã độc mới sử dụng →Vector đặc trưng cho mẫu báo cáo x là:
cùng độ đo F1micro (tổng hợp của hai thông số phổ biến là
độ chính xác và độ hồi tưởng). Kết quả thực nghiệm cho x=(1, 1, 1, 0)
thấy phương pháp của chúng tôi đạtF1microlà 98.1% đối Chuẩn hóa vector: Sau khi thu được vector đặc trưng
với các mã độc đã biết và 98.8% đối với các mã độc mới, của mẫu báo cáo x, chúng ta chuẩn hóa vector để đưa nó
đều cao hơn các độ đo tương ứng của phiên bản gốc của về vector có độ dài bằng 1 bằng cách chia cho độ dài
phương pháp thứ nhất. Euclid của vector đó:
II. CÁC CÔNG TRÌNH LIÊN QUAN
A. Phương pháp dựa trên điểm mẫu
Theo phương pháp dựa trên điểm mẫu [1], đầu tiên Sau bước 2, ta thu được các vector đặc trưng cho mỗi
mẫu mã độc cần phân loại được đưa vào sandbox (một mã độc.
môi trường thực thi giả lập) để thu thập các hành vi.
Thông tin của hành vi mã độc được nhúng vào không gian 3) Giai đoạn 3: Phân loại sử dụng điểm mẫu
vector đặc trưng sau đó được đưa vào thành phần phân
loại sử dụng điểm mẫu. Nếu phân loại thành công thì mã • Đầu vào: Vector đặc trưng đại diện cho mã độc
độc sẽ được gán nhãn về một họ mã độc đã biết, nếu • Đầu ra: Nhãn lớp dự đoán cho mã độc
không nó sẽ được đưa vào tập mã độc chưa biết để làm Sau bước 2, vector đặc trưng cho mã độc được đưa
đầu vào cho giai đoạn trích rút điểm mẫu để tìm ra điểm vào mô hình phân lớp để dự đoán nhãn lớp cho mã độc
mẫu đại diện cho các mã độc. Thành phần phân cụm sử đó. Thuật toán được sử dụng để phân lớp là 1NN và một
dụng các điểm mẫu thu được để phân cụm các điểm mẫu. ngưỡng dr để loại ra những mẫu mã độc mới. Khi một
Tập điểm mẫu của các cụm còn được sử dụng cho quá điểm dữ liệu được đưa vào, chúng ta sẽ xem khoảng cách
trình phân loại tiếp theo. Quy trình tổng thể của phương của nó tới các điểm mẫu. Nếu khoảng cách của nó đến
pháp được mô tả trong Hình 1. điểm mẫu gần nhất nhỏ hơn ngưỡng dr thì điểm dữ liệu
Cụ thể, ta có quy trình như sau: mới đó sẽ được phân vào lớp của điểm mẫu gần nó nhất
và đưa ra báo cáo lớp dự đoán được, ngược lại sẽ đưa nó
1) Giai đoạn 1: Chạy mã độc trong môi trường sandbox vào tập mã độc chưa biết và đưa vào giai đoạn trích rút
• Đầu vào: File thực thi mã độc điểm mẫu. Tại thời điểm đầu tiên, chưa có điểm mẫu nào
• Đầu ra:Chuỗi các lời gọi hệ thống nên giai đoạn này không được thực hiện.
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 63
- Nguyễn Thị Thu Tra
ang, Nguyễ
ễn Đại Thọ, Vũ Duy Lợii
4) Giai đoạnn 4: Trích rút điểm mẫu
• Đầu vào:: Tập các mã độc
đ chưa biết nhãn lớp
• Đầu ra: Tập
T các điểm mẫu đại diện cho các mã độộc
Rieck và
v các cộng sự ự sử dụng giải thuật được đềề xuất
bởi Gonzalezz trong công trình [9] để trícht rút các điểm
mẫu từ tập cáác mã độc chư ưa biết nhãn lớ
ớp.Bằng cách tham
chiếu khoảngg cách tới điểểm mẫu gần nó nhất, ta tììm ra
được các điểểm mẫu đại diiện cho các mã m độc đó. Phư ương
pháp dựa trêên ý tưởng mã m độc có khooảng các càngg gần
nhau thì khả năng thuộc mộtm cùng họ cààng cao. Do chúng
tôi tập trung vào cải tiến giải
g thuật tríchh rút điểm mẫuu nên
chúng tôi trìnnh bày giải thuuật này ở Hìnhh2và giải thíchh bên
dưới.
5) Giai đoạnn 5: Phân cụm
m sử dụng điểm
m mẫu
• Đầu vào:: Tập các điểm
m mẫu đại diệnn cho các mã độc
• Đầu ra: Tập
T các cụm điểm
đ mẫu
Phân cụm v trên toàn bộ tập
m trên các điểểm mẫu thay vì
dữ liệu để goom nhóm các cụm thành một cụm lớn hơ ơn sử
dụng phân cụụm phân cấp (hierarchical
( c
clustering) [8]. Kết
quả được sử dụng trong quuá trình phân lớp
l tiếp theo.
Giải thích giải thuật trích rút điểm mẫum của Gonzzalez
[9]:
Bước 1: Khởi
K tạo tập prototypes
p = Ø,
Ø biến protottypes
lưu các điểmm mẫu và mảnng distance lư ưu khoảng cácch có Hìình 1. Giải thuật trích rút đi
điểm mẫu của Gonzalez
giá trị bằng ∞ lưu lại khooảng cách củaa điểm dữ liệuu đến
điểm mẫu gầần nó nhất. Nhận
N xét phư
ương pháp: P Phương pháp phân loại dựaa
Bước 2: Kiểm tra khooảng cách lớnn nhất có lớnn hơn trên điểm mẫu [1] là phươngg pháp phân loại l mở, giúpp
ngưỡng dp khhông và lặp đếến khi điều kiiện đó không được chúnng ta có thể phân
p loại và pphát hiện ra nh
hững mẫu mãã
thỏa mãn thìì kết thúc. Tạii vòng lặp đầuu tiên, các khhoảng độc mới. Bên cạạnh đó phươnng pháp này sử s dụng điểm m
cách là ∞ nêên ta chọn nggẫu nhiên mộtt điểm z làm điểm mẫuu (tương tự nhhư nén dữ liệuu) làm giảm dữ ữ liệu phải xử
ử
mẫu. Với cáác vòng lặp tiếp theo ta chhọn điểm mẫuu z là lý nên
n giảm thời gian phân loại. Phương ph háp này cũngg
điểm dữ liệu có khoảng cáách lớn nhất. có tíính năng học tăng cường ccho phép cập nhật mô hìnhh
Bước 3: Với các điểm m dữ liệu khhác điểm mẫuu lưu phânn loại khi có thêm dữ liệuu mới mà khô ông cần huấnn
trong biến prototypes,
p tínnh khoảng cáách của tất cảả các luyệện lại. Nhược điểm của nó làcác điểm mẫu m được tríchh
điểm dữ liệuu đó so với điểm đ mẫu mới được tìm. Nếu rút trên
t toàn bộ tậập dữ liệu có thể dẫn đến những
n dữ liệuu
khoảng cách vừa tính đượcc nhỏ hơn khooảng cách với điểm khônng cùng một họ h mã độc có thể thuộc chu ung một cụm,,
mẫu trước đóó, chúng ta cậpp nhật lại khoảng cách của điểm hoặcc điểm mẫu chưa
c chắc đã ccùng lớp với đại đa số cácc
dữ liệu đó và
v thêm z vào tập các protootypes và quaay lại điểm
m dữ liệu trongg cụm nhưng lại được dùng g làm đại diệnn
bước 2. Sau mỗi lần lặp chúng
c ta sẽ thhu được một điểm cho cụm đó, điều đó là không nnên.
mẫu đại diệnn cho một cụm m dữ liệu.
Hình 2. Quy trình của phương pháp
p sử dụng
g điểm mẫu
Từ
T tất cả các mẫu
m mã độc ttrong một họ, phương phápp
B. Cáác phương pháp dựa trên điểm
đ đặc trưngg tổng
t hợp và tíính ra một vecctor đặc trưng
g đại diện choo
a, Phương
P pháp Dendroid họ
h đó thay vì từng vector đđặc trưng đại diện cho mỗii
mẫu
m mã độc (ví ( dụ có 6 họọ mã độc sẽ có ó 6 vector đặcc
Phhương pháp dựa
d trên điểm m đặc trưng Dendroid
D trưng).
t Vectorr đặc trưng nnày có thể là một điểm ảoo
[2] làà một phươngg pháp dựa trêên kỹ thuật khai
k thác hoặc
h có thể trùùng với điểm thật, nó đượcc tính dựa trênn
văn bản và truy xuuất thông tin trrên nền tảng Android.
A
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 64
- PHÂN
N LOẠI MÃ ĐỘ
ỘC DỰA TRÊN CÁC KỸ TH
HUẬT N-GRAM
M VÀ HỌC MÁ
ÁY
tiếp cận khai thác văn
v bản. Sau đóđ sử dụng veector đặc đoán
đ thuộc họọ đó. Quy trìnnh phương phháp được trìnhh
trưng đại diện cho họ để phân looại. Điểm dữ liệu mới bày
b trong Hìnhh 3 và được diiễn giải như saau:
gần với
v vector đặc trưng của họọ nào nhất sẽ được dự
Hình 3. Quy trính phươn
ng pháp sử dụ
ụng điểm đặc trưng - Dendrroid
1) Giai đoạnn mô hình hóaa o Cấu trúc
t mã lệnh ccủa mã độc cầần phân loại
Bước 1: Trích
T rút các cấu
c trúc mã lệnh o Tập cácc cấu trúc m
mã lệnh của cáác họ
• Đầu ra: Vector
V đặc trưưng cho mẫu u mã độc cầnn
• Đầu vào:
v Tập các mẫu mã độc huấn luyện (được phân loại
gán nhhãn theo họ)
• Đầu ra:
r Tập các cấu c trúc mã lệnh theo từngg mã Sử dụng độ đoo tf-idf trong khai phá văn n bản và truyy
độc xuấtt thông tin để tạo ra vector đđặc trưng cho mẫu mã độc.
Đầu tiênn tất cả mẫu dữ
d liệu huấn luyện
l của họ phần Bước
B 3: Phân loại
mềm độc hạii được đưa vàoo giai đoạn tríích rút các cấuu trúc • Đầu vào:
mã lệnh. Troong bước này phương
p pháp trích
t rút ra cácc cấu o Vectorr đặc trưng chho mẫu mã độcđ cần phânn
trúc mã lệnh của từng mẫuu mã độc. loại
Bước 2: Mô
M hình hóa và v trích rút đặặc trưng o Các veector đặc trưnng đại diện ch
ho các họ mãã
độc
• Đầu vào:
v Tập các cấu trúc mã lệnhl theo từngg mã • Đầu ra:Nhhãn lớp dự đoáán được
độc
• Đầu ra:
r Các vectorr đặc trưng đạại diện cho cáác họ Trong
T bước nàày sử dụng thhuật toán 1-NN
N để dự đoánn
mã độộc (không phảải cho từng mã m độc) và tậpp cấu nhãn
n lớp của mẫuu mã độc mới.
trúc mã
m lệnhcủa cácc họ.
b,, Phương phááp được đề xuuất bởi P. Shrrestha và cácc
Trong giaai đoạn này, từ
t các mẫu mãã độc đơn lẻ thuộc
t
cộng
g sự[3]
cùng một họọ, chúng ta tổnng hợpcác cấuu trúc mã lệnnhcủa
cả họ để tínhh vector đặc trrưng cho họ đó.
đ Các thành phần Phương pháp nàyn cũng sử ddụng điểm đặcc trưng để đạii
của vector đặặc trưng đượcc tính theo cônng thức tf-idf trong
t n cho các họ, mỗi
diện m họ mã độộc sẽ được đạii diện bởi mộtt
khai phá vănn bản và truy xuất thông tinn áp dụng vớ ới các vecttor đặc trưng giống
g như phư
ương pháp Deendroid.
cấu trúc mã lệnh.
l
1) Giai
G đoạn xâyy dựng điểm m
mẫu
2) Giai đoạnn phân tích
• Đầu vào:T
Tập các mẫu m
mã độc huấn luyện
l
• Đầu vào:Các
v vectoor đặc trưng chho các họ mã độc
đ • Đầu ra: Các
C vector đặặc trưng đại diện
d cho từngg
• Đầu ra:Cây
r phân cấp của các họọ mã độc họ mã độc
Trong giiai đoạn này sử dụng thuậật toán phân cụm Cũng
C tương tự ự như phươngg pháp Dendrroid, chúng taa
phân cấp và phân tích liênn kết để tìm raa mối quan hệ giữa gộp tất cả những file mã độc thhuộc cùng mộ ột họ, trích rútt
các họ mã độộc. ra các
c chuỗi có thể t in được ((printable strin ng) trong cácc
3) Giai đoạnn phân loại file mã độc của cả c họ, sau đó ttính trọng số của
c các chuỗii
bằng g giá trị tf-idff và xây dựngg vector đặc trưng
t đại diệnn
Bước 1: Trích rút các cấu trúc mã lệnh (giống trong
t
cho họ với mỗi chiềuc là giá trị trọng số củaa chuỗi tươngg
giai đoạn môô hình hóa) nhhưng đầu vào chỉ là một mãã độc
tứngg. Trong phươ ơng pháp này, người ta xây dựng hai loạii
cần phân loại
điểmm đặc trưng. Điểm
Đ đặc trưnng thứ nhất đưược tập hợp từừ
Bước 2: Trích
T rút đặc trưng
t tất cả
c các chuỗi có c thể có, điểểm đặc trưng thứ hai đượcc
• Đầu vào:
v xây dựng từ nhữnng chuỗi nổi bbật trong từng họ mã độc (kk
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 65
- Nguyễn Thị Thu Tra
ang, Nguyễ
ễn Đại Thọ, Vũ Duy Lợii
chuỗi có trọnng số cao nhấất), các chuỗii nổi bật trongg các Sau
S đây là hìnnh minh họa điểm mẫu, điiểm đặc trưngg
họ mã độc khhác nhau có thhể khác nhau. của các phương pháp
p để phân bbiệt được sự khác
k nhau củaa
các phương
p pháp dựa trên điểmm mẫu [1], các phương phápp
2) Giai đoạn
n phân loại dựa trên điểm đặcc trưng Dendrooid [2], phươnng pháp [3] vàà
• Đầu vào:
v Mã độc cần
c phân loại phươơng pháp cải tiến.
t
• Đầu rra: Nhãn lớp dự đoán đượcc của mã độc đó
đ C thích: Δ: lớp 1,O: lớp 22, ☐: lớp 3
Chú
Đầu tiên, người
n ta tính danh sách tf-iidf của từng chuỗi
c
Các điểm được tôô đậm là nhữnng điểm mẫu hoặch điểm đặcc
có thể in đượ
ợc trong mẫu mã
m độc cần phhân loại.
ng của các lớp trong tập dữ lliệu huấn luyệện.
trưn
Với mỗi chuuỗi xuất hiện trong điểm đặc trưng, chúnng ta
chọn các giáá trị tf-idf củaa chuỗi trong danh sách trêên để
tạo ra một vector
v đặc trưưng đại diện cho mã độc chưa
biết. Nếu mộột chuỗi có troong điểm mẫuu nhưng khônng có
trong mã độcc cần phân loại thì giá trị của
c chiều đó trong
t
vector đặc trrưng tương ứnng bằng 0. Mỗỗi điểm đặc trrưng,
chúng ta sẽ tìm
t được mộtt vector khác nhau đại diệnn cho
mã độc chưaa biết. Cuối cùùng, tính độ tưương tự cosin giữa
vector đó vớ ới vector đặc trưng. Mã độộc được phânn vào
lớp của điểm
m đặc trưng màà nó có độ tươ ơng tự cao nhấất.
Nhận xétt các phươn ng pháp dựaa trên điểm đặc
trưng: Denddroid [2] và phương phápp đề xuất bở ởi P.
Shrestha và các cộng sự ự[3] đưa ra phhương pháp huấn Hìình 4. Minh họ
ọa điểm mẫu ccủa phương ph
háp trích rút
luyện khá khhác biệt so vớ ới thông thườờng. Xây dựngg mô điểm
m mẫu [1]
hình từ tất cảả các điểm dữ ữ liệu huấn luuyện cùng mộột lúc
(xử lý theo lôô) thay vì huấnn luyện dần dần
d với mỗi dữ ữ liệu Hình
h 4 mô tả trườ
ờng hợp có thhể xảy ra là điiểm thuộc lớpp
tại một thờii điểm (xử lý l theo luồngg). Ưu điểm m của Δ có
ó thể bị phân vào nhóm cóó điểm mẫu làà lớp O, hoặcc
phương phápp này là vectoor đặc trưng được đ xây dựnng từ điểm
m thuộc lớp Δ là đại diện chho nhiều điểm thuộc lớp O.
tất cả các tậpp dữ liệu tronng một họ vì vậy
v nó có tínhh đại
diện riêng chho họ đó. Và mỗim vector đạại diện cho mộột họ
mã độc thayy vì đại diện cho một mã độc như phư ương
pháp thông thường
t giúp giảm
g thời giaan xử lý trongg quá
trình phân looại. Nhược điiểm của phươnng pháp này là l chỉ
sử dụng duy nhất một điểm m để đại diệnn cho tất cả dữ
ữ liệu
của một họ khik đó sẽ bị mất m mát nhiềuu thông tin cóó thể
làm cho quá trình phân loạại không đượcc chính xác.
III. ĐỀ XUẤ ẤT PHƯƠNG G PHÁP TRÍC CH RÚT ĐIỂM M
MẪU CẢ ẢI TIẾN
Với phươơng pháp phânn loại dựa trên điểm mẫu [1]], các
điểm mẫu đư ược trích rút ra trên toàn bộộ tập dữ liệu thhì có
thể có nhữngg sai sót vì khik đó có nhữ ững dữ liệu không
k Hình
H 5. Minh họa
h điểm đặc trưng của phư ương pháp
cùng một họ có thể thuộc chung
c một cụụm, hoặc điểm m mẫu Denddroid và phươn
ơng pháp đề xuuất bởi P.
chưa chắc đã đ cùng lớp với v đại đa số các điểm dữ ữ liệu Shrestha vàà các cộng sự[
ự[3]
trong nhóm nhưng
n lại đượ
ợc dùng làm đạiđ diện cho nhóm
n
đó. Trong khhi đó, ý tưởng của phương pháp p phân loại dựa C thích: ✸ là điểm đặc trrưng cho 1 lớp
Chú p.
trên điểm đặc trưng là lấyy ra điểm đặc trưng trong tậập dữ Từ
T Hình 5, một
m điểm đặc trưng được tổng t hợp mộtt
liệu thuộc cùùng một lớp. Vì V vậy, chúngg tôi muốn theeo tư điểm
m đặc trưng được
đ tổng hợpp từ tất cả các điểm dữ liệuu
tưởng của phhương pháp Dendroid
D [2] vàà phương phááp [3] tron
ng một lớp. Điiểm đặc trưngg đó có thể làà một điểm đãã
áp dụng và cảic tiến phươnng pháp dựa trên t điểm mẫuu [1]. tồn tại
t hoặc một điểm
đ ảo khôngg tồn tại trong
g các điểm dữ
ữ
Chúng tôi muốn
m lấy ra nhhững điểm mẫu từ những điểm liệu đã biết. Và một
m lớp chỉ ccó một điểm đặc trưng đạii
trong cùng một
m họ mã độcc. Khi đó mộtt điểm mẫu chhỉ đại n cho nó.
diện
diện cho mộtt họ mà nó thhuộc vào, khônng đại diện chho họ
khác. Từ đó sẽ khắc phụcc được nhược điểm của phư ương
pháp dựa trêên điểm mẫu [1] nói trên. Ngoài ra sauu quá
trình trích rúút chúng ta sẽẽ thu được mộột hay nhiều điểm
mẫu để đại diện cho mộtt họ mã độc, khác với phư ương
pháp Dendrooid [2] và phhương pháp được đ đề xuấtt bởi
P.Shrestha [33] là với mỗi họ chỉ trích rútr được một điểm
đại diện, giúpp giảm sự mấtt mát thông tinn.
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 66
- PHÂN LOẠI MÃ ĐỘC DỰA
A TRÊN CÁC KỸ THUẬT N-GRAM
N VÀ HỌC
H MÁY
thêmm cải tiến tronng giai đoạn hhuấn luyện để thu được quyy
trình
h cải tiến đượcc trình bày troong Hình 7.
Quy
Q trình gồm m 2 giai đoạn là giai đoạn huấn
h luyện vàà
giai đoạn dự đoánn.
Trong
T giai đooạn huấn luyệện:
• Giữ nguyêên giải thuật phhân loại sử dụ
ụng điểm mẫu
• Thay đổi giải
g thuật tríchh rút điểm mẫẫu có áp dụngg
ý tưởng củủa phương pháp sử dụng điiểm đặc trưngg
– Dendroiid [2]. Chúngg tôi sẽ trích rút các điểmm
mẫu trên tậập dữ liệu củaa mỗi họ mã độc
đ riêng biệt..
Một họ mã m độc chỉ đư ược đại diện bởi một hayy
nhiều điểmm dữ liệu thuộộc họ mã độc đó. Giải thuậtt
được trìnhh bày trong sơ
ơ đồ khối ở Hìình 8 và đượcc
Hình 6. Min
nh họa điểm mẫu
m của phươ
ơng pháp cải tiến
ti
giải thích bên
b dưới.
Hình 6 chho thấy tất cả các điểm mẫẫu đại diện củaa các • Không sử ử dụng giải thhuật phân cụ ụm trong giaii
lớp ☐ là điểểm dữ liệu thuuộc lớp ☐. Các
C điểm mẫuu của đoạn huấn luyện.
lớp O là điểm m dữ liệu thuuộc lớp O vàccác điểm mẫuu của Trong
T giai đooạn dự đoán:
lớp Δ là điểmm dữ liệu thuộộc lớp Δ. Mặc dù có một điểểm Δ
một mình, nóó tự đại diện cho
c chính nó, không bị các điểm • Giữ nguyêên giải thuật trích rút điểm m mẫu tạo raa
dữ liệu của lớp
l khác đại diện
d nhầm. Vì
V vậy trích rúút đặc điểm mẫu trên tập dữ liiệu chưa phân n loại được đểể
trưng trong phương
p pháp cải tiến luôn đạt trường hợợp tốt tìm ra các cụm mã độc m mới.
nhất, tất cả các
c điểm trongg cụm được đặcđ trưng bởi điểm • Sử dụng giải
g thuật phâân cụm sử dụ ụng các điểm m
mẫu thuộc chhính lớp đó. mẫuđược trích
t rút ở trênn trong quá trrình phân tíchh
gia tăng
Từ tư tưởởng trên, cải tiến của chúnng tôi sẽ can thiệp • Giải thuậtt phân cụm cchỉ áp dụng trênt các điểm
m
vào giai đoạạn trích rút điểm
đ mẫu tronng quá trình huấn mẫu được xây dựng từ ddữ liệu chưa phân
p loại đượcc
luyện, còn quá
q trình dự đoán vẫn đượ ợc thực hiện theo vào các lớớp đã biết, khhông áp dụng phân cụm sử ử
phương thứ ức truyền thốống sử dụngg độ đo khhoảng dụng điểmm mẫu cho cáác điểm mẫu của tập huấnn
cách.Chúng tôi dựa trên quy trình tổnng quát chungg của luyện do các
c điểm mẫuu này đã thuộcc đúng các họọ
phương phápp phân loại dựa
d trên điểm m mẫu và bổ xung mã độc, khhông cần phânn cụm nữa.
Hình 7. Quy trìn
nh cải tiến
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 67
- Nguyễn Thị Thu Tra
ang, Nguyễ
ễn Đại Thọ, Vũ Duy Lợii
IV. THỰC
T NGHIIỆM VÀ ĐÁN
NH GIÁ
A. Chuẩn
C bị dữ liệu
l
Chúng
C tôi sử dụng bộ dữ liệu referencce dataset củaa
phươ ơng pháp dựaa trên điểm m mẫu [1] cho công trình củaa
mình h. Tập dữ liệuu này gồm toàn mã độc tríích xuất từ cơ
ơ
sở dữ
d liệu lớn về v phần mềm m độc hại đượ ợc duy trì tạii
CWWSandbox webbsite và được gán nhãn bở ởi 6 sản phẩm
m
Antiivirus khác nhhau và loại bỏỏ các lớp có ít hơn 20 mẫuu
và lấấy trên một lớ
ớp tối đa 300 m
mẫu thực thi nhị
n phân. Phầnn
mã nhị
n phân đượcc thực thi và ggiám sát bằng g CWSandboxx
thu được 3133 mẫu m báo cáo hành vi thỏa mãn chuẩnn
MISST với 24 mẫẫu mã độc vàà 85 lời gọi hệ thống. Vìì
phươ ơng pháp củaa chúng tôi vàà phương phááp [1] đều tậpp
trun
ng vào phân looại mã độc thhay vì phát hiiện nên bộ dữữ
liệu được sử dụngg chỉ chứa nhữ ững mẫu mã độc,
đ không cóó
mã sạch.
s
Hìn
nh 9. Mô tả ttập dữ liệu
B. Trích
T rút đặc trưng
Trên
T tập dữ liệu,
l chúng tôôi thực hiện trích
t xuất cácc
chuỗỗi lời gọi hệ thống
t theo chhuẩn MIST leever 1 (chỉ cóó
tên của các lời gọọi hệ thống, kkhông có thôn ng tin đối số))
và thu
t được có 85 8 lời gọi hệ thống khác nhau trong tậpp
dữ liệu.
l Sau khi thu được cáác chuỗi lời gọi g hệ thống,,
Hình 8. Giiải thuật đề xu
uất
chúnng tôi tiến hànnh trích xuất vector theo 2-gram
2 các lờii
Giải th
hích giải thuậtt đề xuất: gọi hệ thống (2 lờ ời gọi hệ thốnng liên tiếp tro
ong báo cáo)..
Sau khi thực nghiiệm, chúng tôôi thấy kết quảả trên trích rútt
Bước 1:: Khởi tạo tậpp prototypes = Ø, mảng disttance
đặc trưng dựa trên sự xuất hiệnn của các lời gọi hệ thốngss
có giá trị bằng
b ∞ để lưuu khoảng cáchh của các điểmm dữ
đạt hiệu
h quả cao hơn trích rút đđặc trưng dựaa trên tần suấtt
liệu trong cùng một họọ đến điểm mẫu m gần nó nhhất ở
xuấtt hiện của cácc lời gọi hệ thốống. Do đó, chúng
c tôi tríchh
thời điểm hiện tại.
rút đặc
đ trưng dựaa trên sự xuất hhiện hay khôn ng của các lờii
Bước 2:((cải tiến). gọi hệ
h thống. Trong tập dữ liệuu có 85 các lờii gọi hệ thốngg
khácc nhau nên khhông gian củaa 1 vector là 85*85.
8 Nhưngg
• Bướ
ớc 2.1: Chọn tất cả các vecctor đặc trưngg của vì có
c nhiều chiềuu bằng 0 nênn có thể khai thác để tríchh
mộtt lớp để tiến hành
h trích rút điểm mẫu trêên họ xuấtt đặc trưng vàà so sánh các vvector trong th
hời gian tuyếnn
mã độc
đ đó tính. Thảo luận chi tiết của phhương pháp th hời gian tuyếnn
• Bướ ớc 2.2: Kiểm tra khoảng cáách lớn nhất trong
t tính cho trích xuấất đặc trưng đư ược cung cấp p bởi Rieck vàà
mảnng distance cóc nhỏ hơn dp hay không,, nếu Laskkov [10].
khônng nghĩa là tấất cả các điểm
m trong họ mãã độc
đã được
đ một điểm
m mẫu đại diệện cho chúng thì
t ta C. Đánh
Đ giá và so
s sánh
tiến hành thực hiệện bước 2 vớii các họ mã độộ còn Chúng
C tôi đánnh giá giai đoạn phân loại sử dụng điểm m
lại, nếu
n có ta tiến hành tìm điểmm mẫu mới. mẫuu được trích rúút theo phươnng pháp cải tiiến của chúngg
Bước 3: Chọn
C điểm cóó khoảng cáchh lớn nhất đếnn các tôi mà
m không đánnh giá các giaai đoạn trích rútr điểm mẫuu
điểm mẫu tìm m được trướcc đó làm điểm m mẫu tiếp theeo và và phân
p cụm như ư trong bài báoo [1] vì với giai
g đoạn tríchh
thêm nó vàoo tập prototypes. Sau đó cậập nhật lại khhoảng rút điểm
đ mẫu, theeo phương phháp cải tiến thhì độ đo chínhh
cách của cácc điểm dữ liệuu trong họ đó với điểm mẫuu gần xác (precision) củủa các cụm luuôn đạt giá trịị tốt nhất là 1
nhất. Lặp lại bước 2.2 đến khi điều kiện không thỏa mãn.
m
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 68
- PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY
do chúng tôi trích rút điểm mẫu từ dữ liệu trong cùng một hơn so với những mẫu mã độc đã biết nên chúng tôi đã
cụm thay vì trên toàn bộ tập dữ liệu. chia như trên. Những thể hiện của 6 lớp để đánh giá khả
năng nhận biết lớp mới chỉ được dùng để đánh giá không
Do sử dụng bộ dữ liệu của phương pháp dựa trên được cho vào giai đoạn huấn luyện. Còn tập 18 lớp chúng
điểm mẫu [1] nên chúng tôi sử dụng ngưỡng dp(được tôi sẽ chia tiếp theo tỷ lệ 70 :30 với 70% dùng để huấn
trình bày trong giải thuật trích rút điểm mẫu ở Hình 2) luyện và 30% là dùng để đánh giá khả năng phân lớp.
bằng 0.65 (là ngưỡng tốt nhất để chọn ra các điểm mẫu Chúng tôi thực hiện 10 lần và lấy kết quả trung bình với
đã được thực nghiệm và nêu ra trong bài báo [1]) để trích cả phương pháp cải tiến và phương pháp [1].
rút ra các điểm mẫu trong một lớp trong phương pháp cải
tiến của chúng tôi. Kết quả của phương pháp dựa trên điểm mẫu [1] :
Bảng II. Kết quả phương pháp dựa trên điểm mẫu [1]
Sau đó, chúng tôi tiến hành phân loại và đánh giá trên
khả năng phân loại những lớp đã biết và khả năng nhận dr Fk Fu
biết những lớp mới. 0.3 0.830 0.994
Để đánh giá khả năng phân lớp, chúng tôi sử dụng độ 0.4 0.890 0.992
đo phân lớp F1microlà độ đo tổng hợp từ hai độ đo là độ đo 0.5 0.932 0.901
chính xác P (precision) và độ hồi tưởng R (recall). 0.6 0.94 0.80
0.7 0.943 0.716
Định nghĩa các độ đo:
• TPi: Số mẫu thuộc lớp i và được phân đúng vào Do mục tiêu của chúng tôi là chọn ngưỡng dr sao cho
lớp i cả hai độ đo Fk, Fu đạt giá trị cao. Với dr= 0.7 thì độ đo
• FPi: Số mẫu không thuộc lớp i nhưng bị phân sai Fu giảm mạnh trong khi Fk chỉ tăng được ít nên chúng tôi
vào lớp i dừng thực nghiệm ở ngưỡng dr= 0.7. Từ bảng II, ta thấy
• TNi: Số mẫu không thuộc lớp i và được phân giá trị dr để cả Fkvà Fu đều đạt giá trị cao là dr = 0.5, Fk =
đúng không thuộc lớp i 0.932, Fu = 0.901.
• FNi: Số mẫu thuộc lớp i nhưng bị phân sai vào
lớp không phải i.
Độ chính xác trung bình:
(2)
Độ hồi tưởng trung bình:
(3)
Độ đo F1micro:
(4)
Hình 10. Biểu đồ kết quả phương pháp [1]
Kết quả phương pháp đề xuất
F1micronằm trong khoảng [0;1] và giá trị càng cao thì Bảng III. Kết quả phương pháp cải tiến
thể hiện độ phân lớp càng tốt.
Độ đo được chúng tôi lựa chọn để đánh giálà: dr Fk Fu
Fk: là F1microtrên tập dữ liệu đã biết nhãn để đánh giá 0.3 0.777 0.999
khả năng phân lớp của thuật toán. 0.4 0.962 0.994
Fu: là F1microtrên tập dữ liệu chưa biết nhãn nhằm 0.5 0.981 0.988
đánh giá khả năng nhận biết những lớp mới chưa xuất 0.6 0.989 0.854
hiện trong tập huấn luyện. 0.7 0.995 0.728
Khả năng nhận biết các mã độc mới (Fu) và khả năng
phân loại các mã độc đã biết (Fk) đều phụ thuộc vào việc Tương tự, chúng tôi dừng ở ngưỡng dr= 0.7 do độ đo
chọn ngưỡng khoảng cách đểxác định một mẫu mã độc Fu giảm mạnh.Từ bảng III, trường hợp tốt nhất với dr =
mới (dr). Nếu chúng ta chọn drcàng lớn, độ loại mã độc ra 0.5, Fk = 0.981, Fu = 0.988 vì cả hai Fkvà Fuđều cao.
càng thấp nên độ đo Fu càng thấp, còn độ đo Fk càng cao,
ngược lại drcàng nhỏ thì Fu càng cao và Fk càng thấp.
Mục tiêu của chúng tôi là chọn ngưỡng drsao cho cả hai
độ đo đều cao.
Tập dữ liệu thử nghiệm có 24 lớp. Chúng tôi sẽ sử
dụng tập dữ liệu của 18 lớp để huấn luyện và đánh giá
khả năng phân lớp với độ đo Fk. Dữ liệu của 6 lớp còn lại
sẽ được đưa vào để đánh giá khả năng nhận biết lớp mới
với độ đo Fu. Chúng tôi không chia tập dữ liệu trong bài
báo [1], do sự xuất hiện của các mã độc mới thường ít
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 69
- Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi
[2] Suarez-Tangil, Guillermo et al. “Dendroid: A text
mining approach to analyzing and classifying code
structures in Android malware families.” Expert
Syst. Appl. 41 (2014): 1104-1117.
[3] Prasha Shrestha,Suraj Maharajan,Gabriela Ramirez
de la Rosa, Alan Sprague, Thamar Solorio and Gracy
Warner, "Using String Information for Malware
Family Identification" @Springer International
Publishing Switzerland 2014,A.L.C.Bazzan and
K.Pichara(Eds.): IBERAMIA 2014, LNAI
8864,pp.686- 697, 2014.DOI:10.1007/978-3-319-
12027-0_55
[4] Souppaya, M., and Scarfone, K. Guide to Malware
Incident Prevention and Handling for Desktops and
Laptops. NIST Special Publication SP 800-83, July
2013.
[5] https://securelist.com/it-threat-evolution-q3-2018-
statistics/88689/
Hình 11. Biểu đồ kết quả phương pháp đề xuất [6] Daniele Ucci, Leonardo Aniello, Roberto Baldoni:
Survey of machine learning techniques for malware
analysis. Computers & Security 81: 123-147 (2019).
[7] Quinlan, J. Ross. “Combining Instance-Based and
Model-Based Learning.” ICML (1993).
[8] R. Duda, P.E.Hart, and D.G.Stork. Pattern
classification. John Wiley & Sons, second edition,
2001.
[9] T. Gonzalez. Clustering to minimize the maximum
intercluster distance. Theoretical Computer Science
38, pages 293–306, 1985.
[10] K. Rieck and P. Laskov. Linear-time computation of
similarity measures for sequential data. Journal of
Machine Learning Research, 9(Jan):23–48, 2008.
MALWARE CLASSIFICATION BASED ON N-
GRAM AND MACHINE LEARNING TECHNIQUES
Hình 12. Biểu đồ so sánh kết quả hai phương pháp
So sánh hai trường hợp tốt nhất, ta thấy giải thuật cải Abstract: Malware is oneof the biggest threats to the
tiến cho kết quả tốt hơn với Fk = 0.981, Fu = 0.988 (tương security of computer systems. Therefore, accurate
đương Fk = 98.1%, Fu = 98.8%). classification of malware is important for appropriate
responses. In this paper, we present an improvement to
V. KẾT LUẬN the prototype extraction algorithm in the prototype based
framework for malware clustering and classification
Bài báo cáo trên của chúng tôi trình bày về một cải proposed by Rieck et al [1]. In our improvement, the
tiến trong giai đoạn trích rút điểm mẫu của quy trình phân prototype extraction is performed on each malware family
loại mở mã độc dựa trên điểm mẫu được đề xuất bởi instead of the whole malware collection. The idea is
Rieck và các cộng sự vào năm 2011. Kết quả thực nghiệm inspired from the two previous methods for malware
cho thấy phương pháp cải tiến của chúng tôi cho hiệu quả classification using representative points [2, 3].
khá tốt - đạt độ đo F1micro bằng 98.1% với khả năng phân Experimental results show that our methodis more
loại và khả năng nhận biết mã độc mới là 98.8%, khắc efficient than the original methodwith F1-score of 0.981%
phục được nhược điểm của phương pháp sử dụng điểm on known malware and 0.988% on unknown malware.
mẫu [1]. Tuy nhiên, phương phápcủachúng tôi vẫn còn
hạn chế do chọn các điểm mẫu hoàn toàn theo khoảng
Keyword: Malware classification, n-gram, prototype
cách có thể dẫn thiên lệch về hướng trong không gian
nhiều chiều. Để khắc phục vấn đề này, chúng tôi sẽ
nghiên cứu sử dụng mô hình siêu lập phương và chọn các SƠ LƯỢC VỀ TÁC GIẢ
điểm mẫu theo các hướng của siêu lập phương để hoàn
thiện hơn quy trình cải tiến được đề xuất trong báo cáo
này. Ngoài ra, vấn đề an ninh của các điện thoại thông NguyễnThịThu Trang, Hiện công tác
tại Trường đại học Công nghệ - Đại học
minh cũng là một mối quan tâm lớn. Vì vậy, trong tương Quốc Gia Hà Nội. Lĩnh vực nghiên cứu: An
lai chúng tôi sẽ nghiên cứu và áp dụng phương pháp này toàn thông tin
cho các thiết bị điện thoại thông minh sử dụng hệ điều
hành Android.
TÀI LIỆU THAM KHẢO
[1] “Automatic Analysis of Malware Behavior using
Machine Learning” KonradRieck, Philipp Trinius,
Carsten Willems, and Thorsten Holz Journal of
ComputerSecurity (JCS), 19 (4) 639-668, 2011.
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 70
- PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY
Nguyễn Đại Thọ, Bảo vệ luận án Tiến sỹ
tại Trường Đại học Công nghệ Compiegne,
Cộng hòa Pháp, năm 2000. Hiện công tác tại
Trường Đại học Công nghệ, Đại học Quốc gia
Hà Nội. Lĩnh vực nghiên cứu: An toàn thông
tin, mạng máy tính, tính toán phân tán
Vũ Duy Lợi, Nhận học vị Tiến sỹ năm 1989
tại Đại học Karlsruhe, CHLB Đức, học hàm
Phó giáo sư năm 2003. Từ 1981-2001 công
tác tại Viện Công nghệ thông tin, Viện KHVN,
nay là Viện HLKHCNVN. Từ 2001-2015 công
tác tại Trung tâm CNTT, Văn phòng Trung
ương Đảng. Hiện là cộng tác viên tại khoa
CNTT, trường ĐHCN, ĐHQGHN. Lĩnh vực
nghiên cứu: Mạng máy tính; Mạng thế hệ
mới; Đánh giá hiệu suất mạng; An toàn thông
tin
SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 71
nguon tai.lieu . vn