天天看點

中國網際網路大會:資料挖掘解決微網誌商業化難題

中國網際網路大會:資料挖掘解決微網誌商業化難題

       在8月14日下午舉辦的網際網路大會2013中國大資料發展論壇上,騰訊微網誌相關負責人高自光分享了大資料技術的運用經驗。他表示,大資料本身可以實作三個方面的效果:

第一對内容本身的了解,這個内容不限于一篇微網誌、一個視訊、一篇文章,可能還有廣告;

第二對使用者的了解,使用者的行為、軌迹等資訊;

第三對關系的了解,這是最關鍵的,包括使用者和使用者之間的關系,内容和内容之間的關系,使用者和内容之間的關系。

他還列舉了大資料技術在騰訊微網誌的幾個應用場景,例如推薦系統,使用者登入騰訊微網誌之後,需要給他推薦感興趣的人,提供他的朋友資訊,一種是基于興趣,一種是基于關系的。騰訊微網誌通過大資料技術讓這種推薦更加精準。

高自光還表示,大資料不僅是一種能力,還是一種工具。“現在的資料特别多,如果能把我們的資料使用好,包括資料、資料挖掘能力、算法、平台……有這些東西,就能夠很好地解決商業化的一些問題。”

以下是騰訊微網誌高自光的分享實錄:

大家下午好,我用30分鐘分享一下我們在微網誌裡面大資料的應用。首先我自我介紹,我是來自微網誌的,在騰訊做了十幾年,一直做技術,這幾年做産品技術相結合的産品。我更多的想跟大家講,大資料概念在具體網際網路産品裡面是什麼樣的。大資料已經談了很多年,最近這幾年又一次非常集中的提這個概念。網際網路大會第一次設立這個話題。就目前為主大資料的應用比較多的是商業化的領域,怎麼利用大資料做點選率提升等等方面。在網際網路産品當中怎麼做大資料?現在摸索的還不是很多。

我先簡單的講一講我們對大資料的了解。為什麼又再一次提出大資料呢?其實資料有很多變革,第一它的規模,噪聲越來越多,速度越來越快,價值越來越大。第二現在的硬體技術和軟體技術沒有跟上資料規模的變化,但是現在的技術相對幾年前是有足夠應用空間的。現在我們想到,一個産品的運算,像我們騰訊微網誌,運作的技術、成本、平台。更重要的是思維變革,我們之前做網際網路應用的時候,我們更多的是做抽樣,但是現在很少做抽樣。我們以前為什麼做抽樣?因為跑了太長時間了,現在不做抽樣了,是思維的變化。

因為什麼是以什麼?現在我們不強調這個問題,我們隻知道這是相關的,發生a事件之後就發生b事件,但是這兩者是什麼關系,我們不清楚。把相關事件打在一起,發生a事件之後,b事件點選率會高,但是因果關系不怎麼追求了,但是肯定是有關系的。我個人感受非常深的,在今天開放的資料,隐私問題,很多情況是能避免的,越來越多開放的社群出現了。你使用一個産品,你使用微網誌,就意味着有這個問題,因為這個産品開放的時候,就是開放的,你關注什麼人,不存在隐私的問題。我們在這個平台上做運算的時候,就會涉及隐私問題。

大資料能做什麼?第一對内容本身的了解,這個内容不限于一篇微網誌,一個視訊,一篇文章,可能還有廣告。第二個就是對使用者的了解,使用者的行為,使用者的軌迹,基本的資訊。第三對關系的了解。其實這是最關鍵的,使用者和使用者之間的關系,内容和内容之間的關系,使用者和内容之間的關系。出現a頁面的時候,你推薦b頁面,點選率很高。出現a使用者的時候,推送b使用者點選率很高。最後一個是趨勢,趨勢就是關系的變革,我們對點選率使用者,做監控,情感分析,還有像電影票什麼的,它是一種趨勢,我專門搜出來。大資料在應用裡面有這麼幾個類型。

在我們微網誌平台上使用者規模依然是強大的,現在有5.6億多使用者,每天産生多少總的發表量,幾千億,你分析社交關系,是數百億的,5.6億的人際關系連接配接。每一篇新聞,每一篇微網誌發出來以後,有多少傳播路徑,我們用關系鍊傳播,又是什麼樣的成果?我們每天有數百億計的産品。現在的資料是更開放的,開放的資料一定是顯示資料的。

剛才談到微網誌的産品裡面核心的東西無非就是兩種,一個就是使用者,一個就是内容,使用者發的微網誌和圖檔,就這兩種東西。現在的使用者,大家在上網可選擇的東西很多,花多少時間在微信,多少時間在微網誌。我們現在考慮微網誌下一代朝哪裡走?核心的就是提高效果。你能在最少的時間内讓使用者看到所有的資訊,看到他感興趣的資訊,這就是我們強調的問題。在這種情況下,我們就衍生了大資料的使命。我把我們微網誌裡面運用比較多的應用場景列出來的。

第一個就是推薦系統。一個人上來以後,你給他推薦感興趣的人,他的朋友。一種是基于興趣,一種是基于關系的。你隻有讓他形成更強的關系鍊,就是他的好朋友,形成更好的興趣,感情,交集圈。推薦系統和廣告推薦是很相似的,算法做法是一樣的。

第二個是微頻道,核心目前就是給内容分類。微網誌是很短的,雖然是140個字,平均就是二三十個字,這麼短的文本你怎麼進行分類,美食,購物,到底是什麼?還有更短的,我們把它分出來。把内容進行分類,把好的東西放到使用者面前。

第三個叫微熱點,真正實作資訊關聯。微網誌裡面每時每刻都有熱點事情發生,用機器發現哪些熱點事件能讀出來。它要做的事很多,第一發現熱點事情,第二把熱點事情聚在一起形成熱點事件的脈絡,第三把熱點事件投放到使用者面前,是純自動的形式。每天數億的資料怎麼把它挑選出來。

第四叫微圈,其實就是智能分儲。在微網誌上可以看到誰的微網誌,要取決于你上線的時間,正好在那個時間發表微網誌,因為微網誌操作很容易,你點一下按紐就可以關注他了,但是随着時間的積累,很活躍的使用者的關系鍊已經上千人了,資訊量非常多,你上線的時間正好是他發微網誌,你就看見了,你感興趣的,你前女友有沒有發微網誌,你關注的人有沒有發表微網誌,你怎麼拉取資訊的?我們要做的把使用者所有曆史上已經關注的一千人自動分組,為什麼分組?因為使用者不會一個一個的關注,95%的人不會分組,他不願意做,沒有人做這個事,那我們做,這是非常難的事。大資料基本上都是智能的。大資料準确率是75%,80%。你能做到我們分組能做到百分之多少的準确率?如果做到60%,上線會被罵死。準确率達到什麼樣的程度,才能吸引更多的人。因為我們把準确率控制到一定的水準才能上線的。達到百分之多少之後大家才接受,我們才會上市的。

第五個是微網誌管家。怎麼樣把好的東西挑出來,垃圾自動過濾。我們郵箱就有垃圾箱,微網誌也有人做嗎?不這麼做有很多原因,一是技術是不是準确,二是商業化的問題。我相信不願意做的原因就是商業化的問題。商業化的價值怎麼做,這是需要我們做的,把垃圾資訊過濾掉。

這是我們的事例。使用者推薦,一個是基于感性的,我們用到了使用者的興趣模型,用到了使用者在微網誌曆史上用了那麼長時間的微網誌,我會發現你經常收聽哪些人,經常幹什麼,你對什麼領域感興趣,這個就是興趣模型最直接的使用。還有一個就是剛才提到的長關系(音譯),長關系是社交網絡裡面非常重要的,長關系要用二維,大家都知道現在有六度空間了,任何兩個人的空間都可以利用六個人的空間找到,六度空間基本上是正确的,任何兩個人都連一下,不超過4。我們推薦熟關系的時候,就是要把左右可能潛在的朋友,他不知道,他來微網誌了,他不知道,怎麼擺放在他面前,這是5.6億×5.6億的關系,這個運算量很大。

廣義的推薦系統,不僅僅推薦人,可能是推薦資訊,我們在騰訊網慢慢引入這種技術的使用。當你看到這個新聞的時候,我可能在相關性裡面,有相關的微網誌,相關的事宜,通過技術的自然連接配接,實作内容的串聯。他的使用者和更多的電商類的,都屬于推薦類的應用。

微頻道剛才提到了,對優勢内容的挑選。單純從技術角度來考慮這個問題,文本分類是很難的事,因為文本很短,還要分類,不像一些文章,幾百個字進行分類,你有充足的理由做這個事,這裡面需要很多辦法,你不能把精力都放在文本本身,還有使用者呢。這個使用者老發财經類的内容,他發文章的時候,财經機率很多。利用這種思維,用更多的特征來學習,不要局限在内容本身裡面準确會大幅提升。分完類之後還要把差的品質去掉,把好的品質選出來。比如說展示量,各種各樣的東西,都是幫助你學習的。

微熱點,這裡面卷都是機器自動實作的,一件事情的發生,沒有人參與,都是機器做的,而且我的機器可以發現這個事情的脈絡,首先會把時間點,最熱的資訊拿出來,然後基于關鍵詞把熱點事情挖出來。使用者上微網誌,大部分都是提留在首頁上,如果首頁提每個事件的話,再吸引你點選。我們用大量資料做這個事很有意義。我們做這個事根本不需要人做,隻需要個别人看看,不要有太明顯的錯誤,删删改,每天營運式的,自然的就出來了,這是很智能的。

這是我們的微圈。在pc上網,會把曆史資訊自動分好組。我們研究了特别多的運算。我們做社交網絡分析的時候,很多都是很複雜的,我們做了特别多的改進,怎麼把效率提高,把最小的圖給解出來。分好組之後,裡面有幾個同學,我比較感興趣的,前女友比較多的話,幾個前女友分在一起的話,可以去裡面看一下。這裡面就是對資訊和效率很好的提升。

微管家技術難點就是對内容品質的判斷。最後就是我們的幾點經驗。大資料是一種能力,還是一種工具。其實作在的資料特别多,如果能把我們的資料使用好,你有很多的資料,你有很強的資料挖掘能力,算法,平台,如果你有這些東西,能夠解決好某一個商業化的價值,很簡單的比如說電商,我們騰訊和網點通合作,我們騰訊和它做基于興趣的廣告,利用好大資料,提升一個産品的體驗,解決好一個産品的發展方向,如果你找到這些才是我們的出路。如果我們空有資料放在那裡,我們也有很強的技術,各種雲計算,什麼都有,但是沒有很好的商業模式,沒有很好的産品應用,這樣的話就很難施展了。我們長期的摸索,每天有大量的資料進來,資料挖掘團隊,有很強的技術能力。找不到商業模式的話,價值是有限的。把我們的資料和技術,以及産品應用和商業化應用結合是我們很重要的目标。

<b>原文釋出時間為:2013-08-18</b>

<b></b>

<b>本文來自雲栖社群合作夥伴“大資料文摘”,了解相關資訊可以關注“bigdatadigest”微信公衆号</b>

繼續閱讀