天天看點

分析人的網絡軌迹和碎片之四大模式

人,尤其是活躍的網際網路使用者,都會在網際網路上留下很多碎片,這些碎片也許是他自己産生的,也許是來自于新聞媒體,也許是來自他的網際網路好友。這些碎片之間,通常會有某種聯系。

自動收集這些碎片,可以從中拼湊出一個關于這個人的視圖。理論上,可以自動建立一個知識庫,像 wikipedia 一樣。

下面我們列出國際上通行的四個模式。

一、基于email位址的使用者資料自動聚合模式

amazon、blogger、digg、facebook、flickr、last.fm、linkedin、myspace、stumbleupon、twitter、photobucket、picasa、windows live spaces等等。

我試驗過,在不付費的情況下,還是可以看到一部分gmail好友的常見web2.0服務上的資料,照片居多。但老實說,在中國做到這一點不容易,要求使用者始終用一個email位址注冊各種服務,而且這種資料實際上很難從服務提供商那裡拿到,隻能去hack。

二、基于語義分析的實體關聯模式

本模式通常是分析可靠的文字資料,比如新聞資訊,尤其是來自于權威新聞網站。

如果文字來源不可靠,那就意味着你要做大量的工作去噪了,最常見的就是文法錯誤或者拼寫錯誤。比如 中國雅虎人際關系 收集的語料,如果還包括論壇或部落格寫手的文章,那麼就會被逼着寫代碼來矯正大量的文法不通順、成堆的錯别字。

它的主要原理還是收集整理以下資料:

實體名稱專用詞典(人名、地名、組織名);

實體名稱在句子中出現時常見的聯接詞(動詞、形容詞、名詞),尤其是描述關系的名詞,比如“誰的女朋友誰”中的“女朋友”,“誰除了老搭檔誰外,” 中的“搭檔”。簡單的做法是尋找兩個實體名前後距離最近的、能表述關系的詞,根據預先設定的詞語權重,決定這句語料要表達的是什麼“關聯”。

再複雜的考慮就是如何解決“重名”,比如叫李偉或王偉的人太多了。

但說到底,這種模式還是通過實體識别和模式比對,找到公開的權威資料中實體之間的關聯,通過統計以及後期加工,得到的一個人際關系知識庫。

三、基于語義分析的特征抽取模式

本模式的主要目的是分析給定使用者名的行為特征,試圖用某些預置的模式去涵蓋或描述該使用者。

基于此模式所得到的結果,可以幫助某些系統更好地了解使用者,進而可以做到個性化推送。

這個模式更像是自然語言進行中的“自動分類”之“軟分類”。

比如你輸入一個人名,它能盡可能地找到線上資料,以便特征化這個人,最終生成這樣的一張圖:

分析人的網絡軌迹和碎片之四大模式

personas 計算過程的動畫展示比結果更有意思,

畢竟靠語義技術尋找人的網際網路軌迹和碎片并拼接出人的特征,出錯率太高,即使是對名人都如此,何況普通人。

personas 計算完畢後,你很難估計這個結果到底不靠譜程度有多大,隻能通過看中間計算過程顯示的那一篇篇語料來估摸。

四、基于social關系的連接配接分析模式

這個模式的初級階段,其實有無數的服務都曾做過,也就是根據一個social media服務的好友關系,繪制出一個大節點圖,畫出幾乎所有人之間的關系。

twitter上的這種服務有:

<a href="http://twitnest.appspot.com/">http://twitnest.appspot.com</a>

<a href="http://twitter.mailana.com/">http://twitter.mailana.com/</a>

以上都是盡可能利用公開的、權威(或可靠)資料,來可視化或結構化一個人的線上資料。

繼續閱讀