【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior

佚名 7年前 (2019-01-18) 人工智能 1289人围观抢沙发百度已收录

【论文笔记】Malware Detection with Deep Neural Network Using Process Behavior

论文基本信息

会议： IEEE（2016 IEEE 40th Annual Computer Software and Applications Conference）
单位： Nagoya University（名古屋大学）、NTT Secure Platform Laboratories（NTT安全平台实验室）

方法概述

数据：81个恶意软件日志文件、69个良性软件日志文件。其中恶意软件由NTT Secure Platform Laboratory收集，共26个恶意软件。
方法：基于软件日志（即软件行为）数据，首先用RNN提取恶意、良性软件行为特征，生成特征图像，再用CNN进行分类。
效果：AUC = 0.96

数据集

恶意软件样本由NTT Secure Platform Laboratory收集，共26个恶意软件，使用Symantec（赛门铁克）将其标记为11个家族。

SRE实战互联网时代守护先锋，助力企业售后服务体系运筹帷幄！一键直达领取阿里云限量特价优惠。

在Ubuntu上使用VirtualBox搭建windows环境，使用Process Monitor、INetSim2、Cuckoo Sandbox等工具生成恶意和良性软件的日志。共生成81个恶意软件、69个良性软件日志文件。

日志数据生成环境如下图：

使用Process Monitor来记录ReadFile，RegSetValue，Thread Start等行为；
通过Process Monitor记录的行为（Operation）数据如下表所示。

字段	说明
Time	Operation执行时间
Process Name	Process名
PID	Operation的PID
Event	Operation名
Path	Operation执行时所在路径
Result	执行结果状态
Detail	参数等信息

Result记录了Operation的结果，如SUCCESS，ACCESS DENIED，FILE NOT FOUND等；
Detail记录了参数等信息。

方法

方法概述

算法的主要思路为：将Process行为日志转化为向量，使用RNN转换为特征图像，在用CNN对这些特征图像进行分类。
流程图如下：

Step1: 监视Process的行为,并生成日志文件。
Step2: 将日志数据转为one-hot向量，按Operation执行输入RNN训练，获取trained RNN模型。
Step3: 用trained RNN从日志文件中提取特征，并将特征转换为特征图像。
Step4: 使用标有恶意、良性标签的特征图像数据，训练CNN模型。
Step5: 训练结束后，由训练的RNN模型将Process行为日志文件转化为特征图像，再由训练的CNN模型进行分类，最后输出Process为恶意软件的概率。

训练RNN

将日志文件的Operation数据基于Operation Name转为one-hot向量作为输入，隐藏层\(h^1\)的神经元为普通神经元，\(h^2\)、\(h^3\)层为LSTM神经元。
网络结构如下：

生成特征图像

用trained RNN提取Process的特征并生成特征图像。
特征提取流程如下图所示：

将日志文件中的Operation转换为one-hot向量，然后依次将它们输入到trained RNN中。获取每个输入的第三隐藏层\(h^3\)的值，得到集合{\(h^3_1\)，\(h^3_2\)，...，\(h^3_L\)}。 CNN模型输入图像矩阵为固定大小，故需将每个Process日志文件转为相同大小的特征图像矩阵。
用了以下等式将Operation特征向量集转为Process特征图像矩阵\(F\)：

\(f_k\)：固定大小的特征图像矩阵的元素
\(N\)：集合{\(h^3_1\)，\(h^3_2\)，...，\(h^3_L\)}分为N组并计算每组的平均值，\(N\)也就是特征图像矩阵\(F\)的行数。
\(p_k\)：第\(k\)个矢量集的最后一个数。
\(W\)：设为第3隐藏层的维数，则固定向量序列可以描述为矩阵F.