学点算法搞安全之HMM（下篇）

前言

上篇我们介绍了hmm的基本原理以及常见的基于参数的异常检测实现，这次我们换个思路，把机器当一个刚入行的白帽子，我们训练他学会xss的攻击语法，然后再让机器从访问日志中寻找符合攻击语法的疑似攻击日志。

通过词法分割，可以把攻击载荷序列化成观察序列，举例如下：

词集/词袋模型

词集和词袋模型是机器学习中非常常用的一个数据处理模型，它们用于特征化字符串型数据。一般思路是将样本分词后，统计每个词的频率，即词频，根据需要选择全部或者部分词作为哈希表键值，并依次对该哈希表编号，这样就可以使用该哈希表对字符串进行编码。

词集模型：单词构成的集合，集合自然每个元素都只有一个，也即词集中的每个单词都只有一个

词袋模型：如果一个单词在文档中出现不止一次，并统计其出现的次数

本章使用词集模型即可。

假设存在如下数据集合：

dataset = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'i', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]

首先生成词汇表：

vocabset = set()

for doc in dataset:

vocabset |= set(doc)

vocablist = list(vocabset)

根据词汇表生成词集：

# 词集模型

sow = []

vec = [0]*len(vocablist)

for i, word in enumerate(vocablist):

if word in doc:

vec[i] = 1

sow.append(doc)

简化后的词集模型的核心代码如下：

fredist = nltk.freqdist(tokens_list) # 单文件词频

keys=fredist.keys()

keys=keys[:max] #只提取前n个频发使用的单词其余泛化成0

for localkey in keys: # 获取统计后的不重复词集

if localkey in wordbag.keys(): # 判断该词是否已在词集中

continue

else:

wordbag[localkey] = index_wordbag

index_wordbag += 1

常见的xss攻击载荷列举如下：

%3cscript%3ealert(‘xss’)%3c/script%3e

%22%3e%3cscript%3ealert(‘xss’)%3c/script%3e

<img “”"><script>alert(“xss”)</script>”>

需要支持的词法切分原则为：

单双引号包含的内容 ‘xss’

<>标签 <script>

<>标签开头 <body

属性标签 onload=

<>标签结尾 >

函数体 “javascript:alert(‘xss’);”

字符数字标量代码实现举例如下：

tokens_pattern = r”’(?x)

“[^"]+”

|http://\s+

|</\w+>

|<\w+>

|<\w+

|\w+=

|\w+\([^<]+\) #函数比如alert(string.fromcharcode(88,83,83))

|\w+

”’

words=nltk.regexp_tokenize(line, tokens_pattern)

另外，为了减少向量空间，需要把数字和字符以及超链接范化，具体原则为：

#数字常量替换成8

line, number = re.subn(r’\d+’, “8″, line)

#干掉注释

line, number = re.subn(r’\/\*.?\*\/’, “”, line)

范化后分词效果示例为：

#原始参数值：”><img src=x onerror=prompt(0)>)

#分词后：

['>', '<img', 'src=', 'x', 'onerror=', 'prompt(8)', '>']

#原始参数值：<iframe src=”x-javascript:alert(document.domain);”></iframe>)

['<iframe', 'src=', '"x-javascript:alert(document.domain);"', '>', '</iframe>']

#原始参数值：<marquee><h1>xss by xss</h1></marquee> )

['<marquee>', '<h8>', 'xss', 'by', 'xss', '</h8>', '</marquee>']

#原始参数值：<script>-=alert;-(1)</script> “onmouseover=”confirm(document.domain);”" </script>)

['<script>', 'alert', '8', '</script>', '"onmouseover="', 'confirm(document.domain)', '</script>']

#原始参数值：<script>alert(2)</script> “><img src=x onerror=prompt(document.domain)>)

['<script>', 'alert(8)', '</script>', '>', '<img', 'src=', 'x', 'onerror=', 'prompt(document.domain)', '>']

结合词集模型，完整的流程举例如下：

训练模型

将范化后的向量x以及对应的长度矩阵x_lens输入即可，需要x_lens的原因是参数样本的长度可能不一致，所以需要单独输入。

remodel = hmm.gaussianhmm(n_components=3, covariance_type=”full”, n_iter=100)

remodel.fit(x,x_lens)

整个系统运行过程如下：

验证阶段利用训练出来的hmm模型，输入观察序列获取概率，从而判断观察序列的合法性，训练样本是1000条典型的xss攻击日志，通过分词、计算词集，提炼出200个特征，全部样本就用这200个特征进行编码并序列化，使用20000条正常日志和20000条xss攻击识别（类似jsfuck这类编码的暂时不支持），准确率达到90%以上，其中验证环节的核心代码如下：

with open(filename) as f:

for line in f:

line = line.strip(‘\n’)

line = urllib.unquote(line)

h = htmlparser.htmlparser()

line = h.unescape(line)

if len(line) >= min_len:

words = do_str(line)

vers = []

for word in words:

if word in wordbag.keys():

vers.append([wordbag[word]])

vers.append([-1])

np_vers = np.array(vers)

pro = remodel.score(np_vers)

if pro >= t:

print “score:(%d) xss_url:(%s) ” % (pro,line)

本文来自合作伙伴“阿里聚安全”，发表于2017年05月11日 11:33.

学点算法搞安全之HMM（下篇）

继续阅读

Javascript构建Bingo卡片游戏

JavaScript的那些坑之事件代理事件代理事件阶段

javascript的for (var i in data)慎用javascript中的for (var i in data)谨慎用

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

tab鼠标经过菜单切换

vue （vue2.0）使用总结(从大体结构总结)

vue搭建过程及出现问题

/\B(?=(?:\d{3})+$)/g 一条令人费解的正则表达式

Dijkstra--简易版（最短路径）

适用于JavaScript的ECMAScript 2020规范向前发展

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

JS生成uuid的四种方法

layui多任务上传添加进度条

hdu7108哈希