分析人的網絡軌迹和碎片之四大模式

人，尤其是活躍的網際網路使用者，都會在網際網路上留下很多碎片，這些碎片也許是他自己産生的，也許是來自于新聞媒體，也許是來自他的網際網路好友。這些碎片之間，通常會有某種聯系。

自動收集這些碎片，可以從中拼湊出一個關于這個人的視圖。理論上，可以自動建立一個知識庫，像 wikipedia 一樣。

下面我們列出國際上通行的四個模式。

一、基于email位址的使用者資料自動聚合模式

amazon、blogger、digg、facebook、flickr、last.fm、linkedin、myspace、stumbleupon、twitter、photobucket、picasa、windows live spaces等等。

我試驗過，在不付費的情況下，還是可以看到一部分gmail好友的常見web2.0服務上的資料，照片居多。但老實說，在中國做到這一點不容易，要求使用者始終用一個email位址注冊各種服務，而且這種資料實際上很難從服務提供商那裡拿到，隻能去hack。

二、基于語義分析的實體關聯模式

本模式通常是分析可靠的文字資料，比如新聞資訊，尤其是來自于權威新聞網站。

如果文字來源不可靠，那就意味着你要做大量的工作去噪了，最常見的就是文法錯誤或者拼寫錯誤。比如中國雅虎人際關系收集的語料，如果還包括論壇或部落格寫手的文章，那麼就會被逼着寫代碼來矯正大量的文法不通順、成堆的錯别字。

它的主要原理還是收集整理以下資料：

實體名稱專用詞典（人名、地名、組織名）；

實體名稱在句子中出現時常見的聯接詞（動詞、形容詞、名詞），尤其是描述關系的名詞，比如“誰的女朋友誰”中的“女朋友”，“誰除了老搭檔誰外，” 中的“搭檔”。簡單的做法是尋找兩個實體名前後距離最近的、能表述關系的詞，根據預先設定的詞語權重，決定這句語料要表達的是什麼“關聯”。

再複雜的考慮就是如何解決“重名”，比如叫李偉或王偉的人太多了。

但說到底，這種模式還是通過實體識别和模式比對，找到公開的權威資料中實體之間的關聯，通過統計以及後期加工，得到的一個人際關系知識庫。

三、基于語義分析的特征抽取模式

本模式的主要目的是分析給定使用者名的行為特征，試圖用某些預置的模式去涵蓋或描述該使用者。

基于此模式所得到的結果，可以幫助某些系統更好地了解使用者，進而可以做到個性化推送。

這個模式更像是自然語言進行中的“自動分類”之“軟分類”。

比如你輸入一個人名，它能盡可能地找到線上資料，以便特征化這個人，最終生成這樣的一張圖：

personas 計算過程的動畫展示比結果更有意思，

畢竟靠語義技術尋找人的網際網路軌迹和碎片并拼接出人的特征，出錯率太高，即使是對名人都如此，何況普通人。

personas 計算完畢後，你很難估計這個結果到底不靠譜程度有多大，隻能通過看中間計算過程顯示的那一篇篇語料來估摸。

四、基于social關系的連接配接分析模式

這個模式的初級階段，其實有無數的服務都曾做過，也就是根據一個social media服務的好友關系，繪制出一個大節點圖，畫出幾乎所有人之間的關系。

twitter上的這種服務有：

<a href="http://twitnest.appspot.com/">http://twitnest.appspot.com</a>

<a href="http://twitter.mailana.com/">http://twitter.mailana.com/</a>

以上都是盡可能利用公開的、權威（或可靠）資料，來可視化或結構化一個人的線上資料。

繼續閱讀