你所在的公司或者领域在做哪些大数据应用？

最近在和 google 合作，用大数据的方法做一个信息安全相关的项目。至于这个项目具体是做什么嘛。。因为过两天要拿去投 paper，所以抱歉暂时不便透露了哈哈。。当然也别急着打我，我简单讲几个用大数据在信息安全方向应用的例子，抛砖引玉吧。

大数据

用大数据的方法做信息安全的背景在于，传统的“见招拆招”的安全措施面对灵活多变的攻击手段有些捉襟见肘，但各种攻击手段大多会表现出一定的共性。所以当样本(malware样本，server log，traffic pattern 等等)足够多的时候，只要能正确提取出数据中的feature，就可能找到这些灵活多变的adversary的一些共性行为，以此来作为防御。

下面结合几篇论文结说一下：

malware detection (恶意软件侦测)

恶意软件侦测除了传统的对可执行文件进行分析以外，还可以根据其行为进行侦测。比如赛门铁克(symantec)搞了一个项目[1]，它的idea就是：你在网上浏(kan)览(pian)时下载了一个恶意软件，它可能会附带一些无害的文件(比如用于伪装)，这种情况下这些文件和这个恶意软件的同时出现 (co-occurrence)的概率就会比较高。当我们通过传统的侦测手段发现了这个恶意软件的时候，和它co-occurrence概率较高的一些文件就会被认为有bad reputation。比如这时你在另一个用户的电脑上发现了一些同样的无害的文件，但没有发现这个恶意软件，那么就认为有可能是这个恶意软件的变种造成的。赛门铁克通过大量用户上传的匿名文件集合(file collection)样本(1亿多台机器上的100多亿个文件)，对文件进行标记(labeling)，训练出了这样一个侦测恶意软件的模型，识别率很高(true positive在0.99以上)，而且能做到比现有技术手段能提前一周识别。

恶意链接预测

你在上网的时候很可能遇到过钓鱼网站，一般是那种看上去还比较正规但是你一点进去各种被骗输入密码或者个人信息的网站，比如我在知乎上也见到过：这封「知乎团队」的私信可信吗? - sean 的回答，这个钓鱼站的域名是zhihuemail dot com，点进去你就上当了。怎样预测这样的域名是恶意网站呢?当有用户举报上当受骗时候显然已经晚了，而骇客们也会快速变换域名以躲避侦测。[2] 这篇paper 用大量的dns记录， ip地址信息，以及域名管理方(whois)的记录，来预测一个域名是否是恶意网站。

ddos检测

ddos是各个网站都很头疼的问题，网站流量突然升高，你怎么知道是真的访问用户多了还是骇客通过僵尸网络对你发动的攻击呢?在这么多访问中，你怎么知道哪个是用户哪个是僵尸呢?[3]这篇paper 提出用流量包中的source和destination 的地址，端口号，包的类型等作为feature，采用k-nn算法对其进行分类，来检测ddos攻击。(当然这个模型比较简单，用于在这里举例比较方便，然而实际上魔高一丈ddos攻击手段更加多样性，我怀疑这种相对简单的方法能不能真正有效)

我作为一个硬件狗，本身并不是搞cybersecurity的，只是因为上课和做项目的缘故稍有了解，举的例子也多偏学术，还请见谅：)

[1] tamersoy, acar, kevin roundy, and duen horng chau. "guilt by association: large scale malware detection by mining file-relation graphs." proceedings of the 20th acm sigkdd international conference on knowledge discovery and data mining . acm, 2014.

[2] ma, justin, et al. "beyond blacklists: learning to detect malicious web sites from suspicious urls." proceedings of the 15th acm sigkdd international conference on knowledge discovery and data mining . acm, 2009.

[3] nguyen, hoai-vu, and yongsun choi. "proactive detection of ddos attacks utilizing k-nn classifier in an anti-ddos framework." international journal of electrical, computer, and systems engineering 4.4 (2010): 247-252.

本文转自d1net（转载）

你所在的公司或者领域在做哪些大数据应用？

继续阅读

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

C++ 第十五周报告1--《冒泡法排序》

浅谈企业活动中进行数据分析的重要性

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

Ambari介绍和架构原理

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

Bugku-WEB-web33

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark

hdu7108哈希