null - 程序员宅基地

webshell检测方式深度剖析 ---统计学特征检测_neopi-程序员宅基地

技术标签：恶意脚本检测

概论

该篇文章讲述了NeoPI如何利用统计学特征来检测webshell，笔者认为NeoPI选择的这些统计学方法在webshell检测上有些鸡肋，没有太大的实用效果。

反而其中的各种统计学方法值得学习一下，因此文章会重点讲解这些统计学特征的原理，以求可以举一反三，并应用在其他领域。

统计学特征

NeoPi使用以下五种统计学特征检测方法，下面分别来分析各种方法的原理和代码实现（代码部分只选择了核心代码并附加了注释，方便大家阅读。）：

重合指数

重合指数法是密码分析学的一种工具，主要用于多表代换的密码破译。
以纯英文文本为例，它的基本原理可以定义如下：

设 $X=x_1x_2...x_n$ 是一个长度为 $n$ 的英文字符串， $X$ 的重合指数定义为 $X$ 中的两个随机元素相同的概率，记为 $I_c(X)$ 。假设英文字母 $A$ ， $B$ ， $C$ ，…在X中的出现次数分别为 $f_1$ ， $f_2$ ，…， $f_{25}$ 。显然，从X中任意选择两个元素共有 $C^{2}_{25}$ 种组合，选取的元素同时为第 $i$ 个英文字母的情况有 $C^{2}_{f_i}$ 种组合， $0 < = i < = 25$ 。因此，有
$I{_c}(X) =\sum_{i=0}^{25}(C_f^2/C_n^2) = \sum_{i=0}^{25}(f_i(f_i-1)/n(n-1))$

根据统计，在英文中各个字母出现的频率是特定的，如下表 :

字母	概率	字母	概率
A	0.082	N	0.067
B	0.015	O	0.075
C	0.028	P	0.019
D	0.043	Q	0.001
E	0.127	R	0.060
F	0.022	S	0.063
G	0.020	T	0.091
H	0.061	U	0.028
I	0.070	V	0.010
J	0.002	W	0.002
K	0.008	X	0.001
L	0.040	Y	0.020
M	0.024	Z	0.001

将英文字母A，B，C，…，Z的期望概率分别记为 $p_0，p_1，p_2，...，p_{25}$ ，则有一段正常英文文本的期望重合指数为 $I_c(X)\approx \sum_{i=0}^{25}(p_i^2) = 0.065$

如上所述，一个纯英文的且编码风格良好（一般在软件开发时，会采用统一的函数及有意义的变量名编写）的源代码计算出的重合指数会趋近于0.065。考虑到文件中的中文注释，虽然计算出的重合指数会偏离0,065，但同样会趋于相似，呈现正态分布。

而加密或者混淆后的webshell 与原 web 应用不相关，其字符的排列通常没有特征可言，计算出的重合指数与正常文件的重合指数相差较大（混淆后的重合指数通常较小），一定程度上，可以作为webshell判定的依据。

重合指数的计算比较简单，代码如下：

# @param data 从文件中取出的全部内容数据
 # @return ic 返回计算好的重合指数
 def index_of_coincidence(data):
       """计算文件内容的重合指数"""
       if not data:
           return 0
       char_count = 0       # 保存在data中任意选择两个字符，这两个字符相同的情形的数量
       total_char_count = 0 # 保存在data所有字符的数量

        # 遍历单字节代表的256字符
       for x in range(256):
           char = chr(x)
           charcount = data.count(char)              # 计算当前字符在data中的数量
           char_count += charcount * (charcount - 1) # 计算在data中任意选择两个字符，这两个字符都为当前字符的情形的数量，并累加
           total_char_count += charcount             # 计算当前字符在data中的数量，并累加
       
       # 按照重合指数的计算方法进行计算
       ic = float(char_count)/(total_char_count * (total_char_count - 1))
       return ic

信息熵

熵，是一个热力学的概念，用来度量封闭系统的混乱程度。但在历史的发展中，造就了它非常丰富的内涵，进入了很多学科的视野。

1948年，香农提出了“信息熵”的概念，解决了对信息的量化度量问题。信息量是对信息的度量，就跟时间的度量是秒一样，当我们考虑一个离散的随机变量x的时候，当我们观察到的这个变量的一个具体值的时候，我们接收到了多少信息呢？

多少信息用信息量来衡量，而我们接受到的信息量跟具体发生的事件有关。

信息的大小跟随机事件的概率有关。越小概率的事情发生了产生的信息量越大，如太阳从西边升起来了；越大概率的事情发生了产生的信息量越小，如太阳从东边升起来了（肯定发生，没什么信息量）。
信息熵的公式定义如下：

$\sum_{i=1}^{N}p(x_i)log(p(x_i))$
其中， $p(x_i)代表随机事件$ $x_i$ 的概率，对数一般以2为底。对应到文件熵上，一般使 $p(x_i)$ 为字符 $x_i$ 在文件内容中出现的概率。

那么类似于重合指数，加密混淆后的webshell通常通篇都是没有任何意义和规律的字符，其通过计算公式得出的信息熵值会偏离平均值较大。

计算信息熵的代码如下：

# @param data 从文件中取出的全部内容数据
 # @return entropy 返回计算出的文件熵
def calculate(self,data):
       """计算文件信息熵."""

       if not data:
           return 0
           
       entropy = 0 # 保存最终熵值
       self.stripped_data =data.replace(' ', '') # 去掉文件内容中的空格
       
       # 遍历所有asci 256个字符
       for x in range(256):
           p_x = float(self.stripped_data.count(chr(x)))/len(self.stripped_data) # 计算单个字符出现的概率
           if p_x > 0:
               entropy += - p_x * math.log(p_x, 2) # 计算该字符的熵值并累加
       return entropy

最长单词

一般在软件开发时，其使用的字符串、函数名、变量名都会尽可能有规律和简短，但是，通过变形和加密往往会构造;超长的字符串，通过检测代码中的最长字符串，并把最有可能是 webshell 的文件提供给管理员判断。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return longest_word, longest 返回最长单词的内容和长度
def LongestWord(self,data):
       """查找文件内容中长度最长的单词"""
       if not data:
           return "", 0

       longest = 0 # 保存最长单词的长度
       longest_word = "" # 保存最长单词的内容
       
       words = re.split("[\s,\n,\r]", data) # 将文件内容按照空格和换行进行分词
       if words:
           for word in words:
               length = len(word)
               if length > longest: # 循环查找最长单词
                   longest = length
                   longest_word = word
       return longest_word，longest

恶意特征

在文件中搜索已知的恶意代码字符串片段，通过正则表达式，在文件内查找预定义的恶意特征。
这部分其实是静态检测，但是NeoPI也扩展添加了这部分的能力。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return len(matches) 返回匹配的数量
def signature_nasty(self, data): 
       """查找文件的恶意特征"""
       if not data:
           return "", 0
       
       # 查找文件内下面所列的恶意函数 
       valid_regex = re.compile('(eval\(|file_put_contents|base64_decode|python_eval|exec\(|passthru|popen|proc_open|pcntl|assert\(|system\(|shell)', re.I)
       matches = re.findall(valid_regex, data)
       return len(matches)

压缩比

正常的代码通常编码风格良好，并且文件内有一定的空行和空格作为分隔，进行压缩时能有较大的压缩比。但是经过混淆后的代码通常没有空格和空行，而且字符顺序混乱，进行压缩时压缩比较小。

代码如下：

# @param data 从文件中取出的全部内容数据
# @return ratio 返回计算出的压缩比
def calculate(self, data):
       if not data:
           return "", 0
       compressed = zlib.compress(data)
       ratio =  float(len(data)) / float(len(compressed))
       self.results.append({
    "filename":filename, "value":ratio})
       return ratio

检测结果评测

NeoPI本身不给出一个文件是不是webshell的判断，它只是计算各种统计特征值，然后针对每一个特征值做出一个排名。在实际应用中，可以选择任意特征值的排名组合来判断。

为了让测试更有代表性，笔者采用如下策略：

首先进行如下形式化定义：

$W_{min}(x) = WordPress中相应特征最小的x个文件的平均值$
$W_{max}(x) = WordPress中相应特征最大的x个文件的平均值$
$B_{min}(x) = 300个黑样本中相应特征最小的x个文件的平均值$
$B_{max}(x) = 300个黑样本中相应特征最大的x个文件的平均值$

1、重合指数判断策略

2、信息熵判断策略

3、最长单词判断策略
同信息熵的判断策略

4、恶意特征
存在恶意特征则判定为webshell

5、压缩比
同信息熵的判断策略

实际测试结果如下：

统计特征	检出率	误报率
重合指数	94%	0%
信息熵	58%	0.5%
最长单词	42%	0%
恶意特征	79%	4%
压缩比	10%	0%

notes：由于NeoPI主要用来检测混淆webshell，所以笔者的阈值选择优先于黑样本和白样本中的混淆文件的特征值。

总结

NeoPi的检测重心在于识别混淆代码，它常常在识别模糊代码或者混淆编排的木马方面表现良好，但是也依赖于检测阈值的选取。同时，NeoPi的检测机制对未经模糊处理的代码检测能力较弱。

本文链接：https://blog.csdn.net/qq_31032141/article/details/107207911

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

settext 下划线_Android TextView 添加下划线的几种方式-程序员宅基地

文章浏览阅读748次。总结起来大概有5种做法：将要处理的文字写到一个资源文件，如string.xml(使用html用法格式化)当文字中出现URL、E-mail、电话号码等的时候，可以将TextView的android:autoLink属性设置为相应的的值，如果是所有的类型都出来就是**android:autoLink="all"，当然也可以在java代码里做,textView01.setAutoLinkMask(Li..._qaction::settext 无法添加下划线

TableStore时序数据存储 - 架构篇_tablestore 时间类型处理-程序员宅基地

文章浏览阅读6.3k次，点赞2次，收藏10次。摘要：背景随着近几年物联网的发展，时序数据迎来了一个不小的爆发。从DB-Engines上近两年的数据库类型增长趋势来看，时序数据库的增长是非常迅猛的。在去年我花了比较长的时间去了解了一些开源时序数据库，写了一个系列的文章（综述、HBase系、Cassandra系、InfluxDB、Prometheus），感兴趣的可以浏览。背景随着近几年物联网的发展，时序数据迎来了一个不小的爆发。从DB..._tablestore 时间类型处理

Ubuntu20.04下成功运行VINS-mono_uabntu20.04安装vins-mono-程序员宅基地

文章浏览阅读5.7k次，点赞8次，收藏49次。可以编译成功但是运行时段错误查找原因应该是ROS noetic版本中自带的OpenCV4和VINS-mono中需要使用的OpenCV3冲突的问题。为了便于查找问题，我只先编译feature_tracker包。解决思路历程：o想着把OpenCV4相关的库移除掉，但是发现编译feature_tracker的时候仍然会关联到Opencv4的库，查找原因是因为cv_bridge是依赖opencv4的，这样导致同时使用了opencv3和opencv4,因此运行出现段错误。oo进一步想着（1）把vins-mon_uabntu20.04安装vins-mono

TMS320C6748_EMIF时钟配置_tms 6748-程序员宅基地

文章浏览阅读3.6k次，点赞3次，收藏12次。创龙TL6748开发板中，EMIFA模块使用默认的PLL0_SYSCLK3时钟，使用AISgen for D800K008工具加载C6748配置文件C6748AISgen_456M_config（Configuration files，在TL_TMS6748/images文件夹下），由图可以看到DIV3等于4，注意这里的DIV3就是实际的分频值（x），而不是写入相应PLL寄存器的值（x-1）。_tms 6748

eigen稀疏矩阵拼接（基于块操作的二维拼接）的思考-程序员宅基地

文章浏览阅读5.9k次，点赞4次，收藏13次。转载请说明出处：eigen稀疏矩阵拼接（块操作）eigen稀疏矩阵拼接（块操作）关于稀疏矩阵的块操作：参考官方链接 However, for performance reasons, writing to a sub-sparse-matrix is much more limited, and currently only contiguous sets of columns..._稀疏矩阵拼接

基于Capon和信号子空间的变形算法实现波束形成附matlab代码-程序员宅基地

文章浏览阅读946次，点赞19次，收藏19次。波束形成是天线阵列信号处理中的一项关键技术，它通过对来自不同方向的信号进行加权求和，来增强特定方向的信号并抑制其他方向的干扰。本文介绍了两种基于 Capon 和信号子空间的变形算法，即最小方差无失真响应 (MVDR) 算法和最小范数算法，用于实现波束形成。这些算法通过优化波束形成权重向量，来最小化波束形成输出的方差或范数，从而提高波束形成性能。引言波束形成在雷达、声纳、通信和医学成像等众多应用中至关重要。它可以增强目标信号，抑制干扰和噪声，提高系统性能。

webshell检测方式深度剖析 ---统计学特征检测_neopi-程序员宅基地

目录

概论

统计学特征

重合指数

信息熵

最长单词

恶意特征

压缩比

检测结果评测

总结

智能推荐

settext 下划线_Android TextView 添加下划线的几种方式-程序员宅基地

TableStore时序数据存储 - 架构篇_tablestore 时间类型处理-程序员宅基地

Ubuntu20.04下成功运行VINS-mono_uabntu20.04安装vins-mono-程序员宅基地

TMS320C6748_EMIF时钟配置_tms 6748-程序员宅基地

eigen稀疏矩阵拼接（基于块操作的二维拼接）的思考-程序员宅基地

基于Capon和信号子空间的变形算法实现波束形成附matlab代码-程序员宅基地

随便推点

Ubuntu好用的软件推荐_ubuntu开发推荐软件-程序员宅基地

Nginx反向代理获取客户端真实IP_nginx获取到的是交换机的ip-程序员宅基地

Wireshark TCP数据包跟踪还原图片 WinHex应用_wireshark抓包还原图片-程序员宅基地

Win8蓝屏(WHEA_UNCORRECTABLE_ERROR)-程序员宅基地

案例课1——科大讯飞_科大讯飞培训案例-程序员宅基地

perl下载与安装教程【工具使用】-程序员宅基地

推荐文章

热门文章

相关标签