天天看點

這位研究網絡黑産的清華教授總結了一本《黑産黑話寶典》

  你聽過黑話嗎?

有!

天龍蓋地虎

寶塔鎮河妖

不不不,這句黑話已經out很久了。

----以下是一組分割線,上下沒有關聯----

今天(7月26日),藍蓮花(blue-lotus)戰隊組建人之一的清華教授段海新介紹了一些網絡黑産的黑話更讓人大開眼界(藍蓮花有多牛,你可以搜尋一下)。

下面進入自我測試時間,如果這些黑話你都能看懂,也許你是黑産研究學八級,要麼就是經曆很豐富:

菠菜

平馬二中一

丁香五月天

咕噜咕噜出肉

段海新腼腆地介紹了一下第一個詞,“菠菜”就是“博彩”的意思,後面三個他居然沒解釋。

好奇的雷鋒網随便搜尋了其中一個關鍵詞,顯示出如下的搜尋結果,吓得我趕緊捂上了眼睛:

這位研究網絡黑産的清華教授總結了一本《黑産黑話寶典》

裝作看不懂的樣子,繼續聽段教授講故事。

網絡黑産,無奇不有,黃賭毒尤甚。

這些黃賭毒網站為了在搜尋界面搶占更有利的位置,往往會對一些權重較高的網站進行劫持,比如以edu.cn或gov.cn結尾的網站。

你隻是想打開一個高校的官網或一個政府網站,一不小心就進入了不可言說的世界。

這位研究網絡黑産的清華教授總結了一本《黑産黑話寶典》

你隻能感歎一句:黑産推廣真是喪心病狂。

然而,這并不算什麼。黃賭毒和詐騙類網站為了推廣自己,還會借助一種技術:蜘蛛池。

蜘蛛池就是一堆由垃圾域名組成的站群,在每個站點下都生成海量頁面(抓一堆文本内容互相組合),頁面模闆與正常網頁沒多大差別。給那些未收錄的頁面,在短時間内提供大量的真實的外鍊,入口曝光多了,被抓取幾率就大,收錄率自然也就上去了,又因為是外鍊,是以在排名上也有一定的正向加分。

如果你再稍微了解一點搜尋技術,說白了,就是人為制造了一張不斷變大的網,把蜘蛛困在裡面,讓它不斷的爬行網内的頁面。

總而言之,就是網絡黑産不斷地用各種手段推廣自己,争奪注意力。

為了打掉黑産網站,就要研究黑産網站的 seo!也是以,段海新發現了伴随黑産網站出現的是“黑産詞”:這些網站總有一些關鍵詞像“标簽”一樣地貼在自己身上。

正經的說法是:

“黑産詞”是伴随黑産出現的産品同義詞及違法産品本身的關鍵詞的統稱。非法商販和買家通過協定新的詞彙表示一種産品,以此躲避監管。

這些隐蔽的“黑産詞”通常會扭曲常用詞含義,導緻“外行人”無法了解其背後的含義,上面舉例的一些即是“黑産詞”。

這裡有個小插曲值得一提。

清華大學有一個優雅的小院名為“怡春院”,曾作為校機關的辦公場所,但是,扭曲的黑産居然把這個詞變成了……額……

這位研究網絡黑産的清華教授總結了一本《黑産黑話寶典》

通過搜尋引擎查詢“怡春院”這歌關鍵詞,國内外主流搜尋引擎搜出來的都是成人社群(google除外)。

 他推測,也許這些搜尋引擎比較真實地反映了使用者搜尋的需求。

這位研究網絡黑産的清華教授總結了一本《黑産黑話寶典》

雷鋒網了解到,被推廣的“黑産詞“可以通過自動化方式檢測出來。人們在查詢某個商品時,可能會反複觸及到多個類似“黑産詞”的網站頁面,這些頁面有可能包含惡意或欺詐内容。

好消息是,利用搜尋引擎查詢相關頁面,并結合相關搜尋擴充查詢結果,最後采用算法可将結果融合判定是否為黑産詞,段海新和他的研究團隊做的就是這件事情(也許并不是為了報“怡春院”之仇)。

如何通過自動化手段檢測一些新的黑産黑話?

先來了解一下黑産網站是怎麼推廣的。段海新介紹,比如,毒品商家找到做非法 seo 引擎優化的推廣商,根據産品和關鍵詞進行優化,搜尋引擎的爬蟲自動到網站上抓取内容,使用者搜尋時,就有可能被指向這個毒品網站。

是以,段海新的研究團隊想出的對抗辦法是:

1.輸入兩部分資料,一部分是搜尋引擎廠商提供的惡意url清單,另一部分是從蜘蛛池推廣網站中抓取的200多萬頁面,在這些頁面中提取的關鍵詞。 2.過濾掉這些詞中的合法詞彙(白詞),然後再到搜尋引擎中驗證一次,是否觸發了搜尋引擎的報警。 3.利用搜尋引擎廠商的相關搜尋進行擴充。

最終,就能找到“正确的黑話”。

看上去,三個步驟很簡單,但是隐藏了三個複雜的問題——

1.如何提取關鍵詞?

黑産關鍵詞可能會出現在黑産網站的任何一個頁面,在嘗試很多區域後,段海新發現,明文可點選區域的效果最明顯。

你要問了,如果黑産把黑詞放在别的地方是否可以逃避檢測?

并沒有那麼容易,如果黑産想逃避檢測,帶來的副作用是, 搜尋引擎的爬蟲也無法搜尋到這些關鍵詞。

2.如何過濾白詞?

用自然語言了解的方法非常困難,但段海新的團隊發現了一個簡單的方法:很多詞都是從新聞熱點中抓取過來,而這些新聞标題比較長,是以我們就把超過一定長度的新聞标題過濾掉。

3.如何判斷是白詞還是黑詞?

比如,“清華”是一個白詞,是以搜尋結果比較幹淨,而且搜尋引擎已經把清華的頁面标注,但是搜尋“菠菜”,三條以上的搜尋結果标注為報警,那麼,這個詞就可能有問題。

因為“相關搜尋”關聯了使用者的搜尋行為,使用者輸入了一個詞彙,但沒有點選任何一個連結,又搜尋了下一個詞彙,那麼證明第一個詞彙和第二個詞彙是相關的;使用者搜尋了一個關鍵詞,點選了一個連結,那麼證明這歌連結裡的關鍵詞與這個搜尋詞相關。

于是,段海新和研究團隊得到了 40 萬個推廣的黑産詞彙,确定其中 94%為黑詞,去掉地名等"長尾"修飾詞最終得到了 1500 個左右的核心詞,手工分成了六類,并提取了相關的域名和url 還有 100萬-200萬個。

為了驗證這些“黑詞”是真的黑詞,他們在2個不同的搜尋引擎中再次搜尋新黑詞,比如,搜尋“***商人”,某歌前10頁全是與賭博相關的結果,則可以證明 seo 的效果“非常好”,這些詞是有效的新黑詞。

拿到了黑詞之後,有什麼用?

(當然是為了打掉黑産,報“怡春院”之仇咯

這位研究網絡黑産的清華教授總結了一本《黑産黑話寶典》

開個玩笑。

雷鋒網了解到,段海新和他的同僚們做了一個厚厚的研究報告,來讨論黑詞的“用處”,他也簡單介紹了幾個用途:

1.基于黑産推廣頁面留下的電話号碼,他們進行了統計,發現黑産電話号碼歸屬地最多的是山東,徐玉玉案件發生在山東,也許不是偶然事件。

2.他們依據這些黑詞對貼吧、論壇進行了統計,發現這些黑詞在貼吧和論壇普遍存在,如果将這些黑詞回報給搜尋引擎廠商,再次搜尋,可以淨化搜尋結果,還可以淨化論壇、網上商店。

3.利用現在擴充的黑詞,在教育類和政府類網站進行搜尋,發現大量被攻破的網站。

目前,段海新的研究團隊正在與百度合作,應用其研究成果。

注:該文引用了段海新在2017網絡安全生态峰會上的部分發言,該論壇由阿裡巴巴和螞蟻金服共同主辦,幹貨十足。

--寫在最後的話--

阿裡巴巴的小夥伴告訴雷鋒網(公衆号:雷鋒網),阿裡也在淘寶上應用了相關對抗“黑話”的技術,在實際應用過程中,還要面對更多變得連親媽都不認識的“黑詞”

這位研究網絡黑産的清華教授總結了一本《黑産黑話寶典》

,對抗更新更可怕。

于是,雷鋒網決定,在接下來的某一期中,探讨阿裡到底應用了哪些“黑詞”檢測與對抗技術,敬請期待。