你所在的公司或者領域在做哪些大資料應用？

最近在和 google 合作，用大資料的方法做一個資訊安全相關的項目。至于這個項目具體是做什麼嘛。。因為過兩天要拿去投 paper，是以抱歉暫時不便透露了哈哈。。當然也别急着打我，我簡單講幾個用大資料在資訊安全方向應用的例子，抛磚引玉吧。

大資料

用大資料的方法做資訊安全的背景在于，傳統的“見招拆招”的安全措施面對靈活多變的攻擊手段有些捉襟見肘，但各種攻擊手段大多會表現出一定的共性。是以當樣本(malware樣本，server log，traffic pattern 等等)足夠多的時候，隻要能正确提取出資料中的feature，就可能找到這些靈活多變的adversary的一些共性行為，以此來作為防禦。

下面結合幾篇論文結說一下：

malware detection (惡意軟體偵測)

惡意軟體偵測除了傳統的對可執行檔案進行分析以外，還可以根據其行為進行偵測。比如賽門鐵克(symantec)搞了一個項目[1]，它的idea就是：你在網上浏(kan)覽(pian)時下載下傳了一個惡意軟體，它可能會附帶一些無害的檔案(比如用于僞裝)，這種情況下這些檔案和這個惡意軟體的同時出現 (co-occurrence)的機率就會比較高。當我們通過傳統的偵測手段發現了這個惡意軟體的時候，和它co-occurrence機率較高的一些檔案就會被認為有bad reputation。比如這時你在另一個使用者的電腦上發現了一些同樣的無害的檔案，但沒有發現這個惡意軟體，那麼就認為有可能是這個惡意軟體的變種造成的。賽門鐵克通過大量使用者上傳的匿名檔案集合(file collection)樣本(1億多台機器上的100多億個檔案)，對檔案進行标記(labeling)，訓練出了這樣一個偵測惡意軟體的模型，識别率很高(true positive在0.99以上)，而且能做到比現有技術手段能提前一周識别。

惡意連結預測

你在上網的時候很可能遇到過釣魚網站，一般是那種看上去還比較正規但是你一點進去各種被騙輸入密碼或者個人資訊的網站，比如我在知乎上也見到過：這封「知乎團隊」的私信可信嗎? - sean 的回答，這個釣魚站的域名是zhihuemail dot com，點進去你就上當了。怎樣預測這樣的域名是惡意網站呢?當有使用者舉報上當受騙時候顯然已經晚了，而駭客們也會快速變換域名以躲避偵測。[2] 這篇paper 用大量的dns記錄， ip位址資訊，以及域名管理方(whois)的記錄，來預測一個域名是否是惡意網站。

ddos檢測

ddos是各個網站都很頭疼的問題，網站流量突然升高，你怎麼知道是真的通路使用者多了還是駭客通過僵屍網絡對你發動的攻擊呢?在這麼多通路中，你怎麼知道哪個是使用者哪個是僵屍呢?[3]這篇paper 提出用流量包中的source和destination 的位址，端口号，包的類型等作為feature，采用k-nn算法對其進行分類，來檢測ddos攻擊。(當然這個模型比較簡單，用于在這裡舉例比較友善，然而實際上魔高一丈ddos攻擊手段更加多樣性，我懷疑這種相對簡單的方法能不能真正有效)

我作為一個硬體狗，本身并不是搞cybersecurity的，隻是因為上課和做項目的緣故稍有了解，舉的例子也多偏學術，還請見諒：)

[1] tamersoy, acar, kevin roundy, and duen horng chau. "guilt by association: large scale malware detection by mining file-relation graphs." proceedings of the 20th acm sigkdd international conference on knowledge discovery and data mining . acm, 2014.

[2] ma, justin, et al. "beyond blacklists: learning to detect malicious web sites from suspicious urls." proceedings of the 15th acm sigkdd international conference on knowledge discovery and data mining . acm, 2009.

[3] nguyen, hoai-vu, and yongsun choi. "proactive detection of ddos attacks utilizing k-nn classifier in an anti-ddos framework." international journal of electrical, computer, and systems engineering 4.4 (2010): 247-252.

本文轉自d1net（轉載）

你所在的公司或者領域在做哪些大資料應用？

繼續閱讀

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Bugku-WEB-web33

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希