半個月前還沉浸在“抖音”高速增長的喜悅中的今日頭條,最近卻有點焦頭爛額。央視、人民日報、第一财經周刊等央媒和核心财經媒體,在上周對今日頭條及旗下的抖音産品進行了一輪違規釋出廣告的曝光以及價值觀的批判。
在相關的許多報道中,媒體都或明或暗的強調了一點:資訊流推薦技術本身早已被國内外論證了是一個成功的移動網際網路産品,但之是以出現劣币驅逐良币的問題還是因為使用這個技術的企業出了問題。
也正是以,不少媒體在引述相關報道的時候都會強調,去年初,今日頭條創始人張一鳴在接受《财經》雜志專訪時提出的,不認為今日頭條應該有價值觀這一論調。
這在一定程度道出了今日頭條的核心問題,但事實上更為關鍵的是,如今這個階段的基于人工智能算法的内容之戰,已不僅僅是打破“資訊繭房”這麼簡單。從技術之戰開始,這場資訊流大戰的賽點,已發生了輕微的變化。
推薦準确性的PK,仍将決定于資料而非算法的技巧
對資訊流來說,算法準确性是競争重點,但真正的決勝點,卻是資料。
1、資料熱啟動是百度實作奇襲的根源
首先需要明确一個理論,推薦算法的準确性并不是被計算出來的,而是被統計出來的(這一點在後文底層技術分析會詳細說明),這意味着資料量越大、越相關,越能得出準确的推薦效果。
而且,由于複雜網絡向量關系的存在,一個向量特征的準确性影響是呈幾何擴散的,資料對推薦準确性的影響是非線性增長的關系。在足夠多的資料量情況下,會快速提升,直到準确率接近100%開始變緩(畢竟100%準确十分困難,越接近越難)如圖:
也就是說,在算法準确性這裡,資料熱啟動的價值将變得更為重要,足夠豐富的資料,一旦介入資訊流推薦算法,就可以馬上實作高的準确率,追趕間距很窄。
以百度為例,其老本行搜尋業務與内容直接相關,在内容大資料方面有直接優勢,官方對外宣稱整合了千億特征、百億樣本的資料體系,建構了囊括大到科文史哲,小到一個冷僻的小遊戲的特征資料。這為其資料熱啟動做好了充分的準備,而且,主動搜尋表達出的使用者向量特征,比通過被動點選總結的向量特征可能更為準确有效。從這樣的技術角度看,百度資訊流可以隻用一年時間完成其他公司三五年才達成的目标,在較短的時間内“杠住”今日頭條并不意外。
2、隻有足夠大的試驗平台才能讓準确率“朝上走”
另一個算法準确性的問題是推薦試算的問題,即通過推薦的實踐來回報目前算法的準确性,進而實作所謂的模型疊代。
例如,平台通過各種方式得出某類使用者可能喜歡李娜,但推送李娜比賽新聞後效果很差(點選、停留等名額低),就證明這個推斷可能是不準确的,需要傳回調整。這樣的反複試驗能夠讓推薦逐漸接近真相。
而這些,說來說去都是硬實力的比拼,比的是誰的平台大、空間足夠廣闊,這會讓UC這樣早期沒跟上的資訊流平台越來越落後(如果試驗環境不夠充分,下一次疊代的準确性未必比這次好,準确率呈現反複波動而非一緻提升),而百度這樣本來就憑借搜尋頁面占據使用者眼球的平台“廟大好念經”。
也即,算法準确性可能不是什麼奇巧淫技,比來比去還是看誰的膀子粗。
技術下一程,要從冰冷的統計學走向有溫度的内容尊重
上文準确性所行之事,從宏觀層面都是統計學的“花招”。而資訊流的下半場競争,則将更具有尊重内容本身的人文色彩。也即從“量”的上半場進入“質”的下半場。
1、算法不帶價值觀,但産品要有溫度
張一鳴“算法不帶價值觀”被廣為诟病,但從上文的技術推導本身而言,算法可能真的沒有價值觀,這些冰冷的統計學資料不關注也不可能關注到内容本身。
但同樣是推薦系統,網易雲音樂在QQ音樂、蝦米音樂等一衆軟體中獨樹一幟,被廣為贊譽。好聽的冷門歌曲、年少時聽過的錄音帶、收音機播過的音樂,在恰當的時機跳上來給予使用者驚喜。“有溫度”的産品收獲使用者粘性是一種必然,有溫度的産品也一定是企業長久發展的必要。
同樣是内容産業,資訊流莫不如是。
2、“人人平等”要變成“生而不平等”
這裡的轉化有雙重含義,首先是推薦機制不再隻局限于“博眼球”的統計學需求名額,進而丢掉了優質内容。其次是打擊套路寫作,讓上百萬的内容創作者們實作真正的創作豐富化,而不是束縛于推薦機制的繭房中。
想要實作這種轉化,完全寄希望于人工不太現實(雖然百度這些平台都在強調自己的人工投入),最終還是要通過技術本身去甄别内容,打入内容的“内部”,自主判斷什麼是好文章、什麼是好圖檔、什麼是好視訊、什麼是好音樂、甚至什麼是好人(内容源)。
今日頭條在公開算法末尾就如何判斷内容好壞做了一個章節,但該章節并沒有太多驕傲的“技術”宣揚,說明它仍在發力被社會期許的“好内容”。是以,如果說百度或者其他資訊流平台下一階段要徹底超越今日頭條,“好内容”将是最合适、最必要的角力點。
百度發力“人工智能皇冠上的明珠”NLP(自然語言處理)或許就是在走這條路。雖然同時強調自己的AI技術,但百度作為綜合性科技公司相對頭條,在AI的寬度、深度上公認更有優勢,在利用自然語言處理技術,對内容的品質、新穎度、情感傾向等進行深度了解和挖掘方面,較今日頭條可能更有先機。
百度先于今日頭條搞出的“創作大腦”,表面上是為了更好地留住作者,而深層次可能更在于百度想在了解、區分内容好壞方面更先一步。畢竟,AI輔助寫作首先需要的就是對知識、對圖像的了解,将是錘煉内容識别技術的恰當機會。
無論如何,資訊流的技術競争一定要回到尊重作者、尊重内容的“供給側競争”(相對于隻關心使用者需求的需求側競争,它本質上文提及的統計名額集合)上來,讓每一個内容個體“生而不平等”,由他評走向自我價值認同。
如果”澳網出線局勢深度分析”與“李娜3歲時幹的事你絕對不知道”這樣的文章不再被同等對待,最終所謂“資訊繭房”等表面問題也将迎刃而解。
而這方面,雖然百度已經占得先機,但頭條、天天快報甚至手握公認優質内容的微信入局,必将引緻一場新的技術惡戰。
算法流派衆多,但一切歸于貝葉斯
基于前文,我們能發現,在資訊流推薦中,資料仍然是決勝點,而資訊流也必然要更加尊重内容。而從底層技術角度,當我們回到算法的起源,也同樣可以印證這些。
以目前主流的算法為例歸類分析:基于内容的推薦、協同過濾推薦、基于關聯規則的推薦、基于社會化網絡分析的推薦等,用通俗的語言即可解釋。
1、基于内容的推薦算法
即使用者喜歡什麼東西,推薦一些相似的東西。該推薦算法簡單有效,推薦結果符合人們的認知;無須使用者的曆史評分資訊。但是,該算法必須知道内容的特征,界定“什麼才是相似”,比如體育裡的籃球、NBA、耐克……如果不能得到足夠的資訊,則推薦效果較差、結果較單一。
2、協同過濾技術
即把興趣差不多的使用者群體歸類,然後給他們推薦相同偏好的内容。它通過協作的方式分析使用者之間的喜好,避免特征提取不完全的情況。但存在冷啟動問題,無法準确對新使用者進行推薦,存在資料稀疏性問題。有從使用者出發和從内容出發兩種協同,如圖所示:
圖:從使用者出發和從内容出發的協同過濾推薦(來源:CSDN“資料挖掘勞工”部落格)
3、關聯規則推薦
即通過某些技術挖掘大資料,建立内容之間的關聯規則,起初用在實體零售,比如經典案例尿不濕與啤酒的搭售。在資訊流領域中,主要是用統計學的方式發掘那些表面上看不出關聯的内容與内容之間的某些相關性,及相關程度。
4、社會化網絡分析
即身邊的人喜歡什麼,就給該使用者推薦類似的内容。例如親戚、朋友、同學等雙邊關系,微網誌關注、微信公衆号訂閱等單邊關系,織就一個由使用者組成的節點網絡,探索與分析各節點、邊的重要程度,利用這些重要關系來進行推薦。
圖:社會化網絡分析(來源:知乎“社會網絡分析”專欄)
上述這些主要的推薦算法,都源于貝葉斯理論。其主要解決的就是根據已發生的事實推斷關聯事件發生的機率。
而資訊流算法核心推薦系統正是通過利用使用者的曆史行為資料,分析使用者的興趣愛好并建構相應的使用者模型,從待推薦的項目中選擇與其興趣偏好相符的項目進行推薦。例如,在一個極簡化的模型中,已知一個喜歡李娜的使用者喜歡網球的機率為x,那麼就可以得出喜歡網球的使用者喜歡李娜的機率y,藉此推薦内容。
這種推斷的準确性,就是資訊流算法能夠達到的準确性,其基礎架構就是貝葉斯理論。可以看出,不管是基于何種類型的推薦,在算法前的機器學習層面都是由貝葉斯推斷一層層、一步步堆積、衍生而來。不管最終構築成多麼龐大的體系,但它們開始的基點卻是一樣的,這也使得算法推薦容易陷于“資訊繭房”的怪圈。
“人人平等”造就資訊流“創作繭房”
在業務層面,貝葉斯的特性也不可避免地造就了“創造繭房”現象。而打破“創造繭房”,就唯有跳出當下的貝葉斯架構,靠的就是上文所言的内容尊重,從“人人平等”變成“生而不平等”,最終也給出資訊流算法技術演化的應有方向。
1、機率統計基礎上的算法,都是“他評體系”
主流算法,就是通過推斷個體與個體之間的關系(方式可以有上文提到的多種),參考熱度等評價名額,進而有目的進行推薦。例如,對一個喜歡李娜的使用者推薦澳網的資訊,在推薦時就已經根據複雜的計算(基礎是貝葉斯)。由一個預期的點選率、停留時間、點贊、評論情況計算,計算不達标的,就不會推薦出去。
在今日頭條算法釋出會上,曹歡歡在講到今日頭條的資料量時,稱其有幾十億“向量特征”。所謂向量,指的是帶方向,例如喜歡李娜和喜歡網球是兩個“原始特征”,而“喜歡李娜→喜歡網球”才構成一個向量特征(帶機率資料)。
但事實上,向量不過就是從一個點到另一個點,是點與點之間的資料關系,每一個内容個體(一篇文章、一個短視訊等)都被當作一個點存在。是否被推薦,是由各種外圍向量關系決定,是典型的“他評體系”(數學上,點已經不可再分割)。
2、“人人平等”後,“創作繭房”成資訊流頑疾根源
這意味着,内容和内容,在算法這裡是“人人平等”的,一篇精心編撰的圖文與一個拼湊熱文會被一視同仁,都依據向量特征進行推薦。但這也造成了内容品質的“參差不齊”。
可以說,在當下的算法體系下,内容個體真正缺乏的是“自我認可”,高品質内容源不被重視;算法更多地是“世俗評價”,算法為上,人人都在追求曝光量。
于是,在目前算法模式下,創作導向被冰冷的統計學規則限制,越來越收斂到某些高推薦、高曝光、高點選的範圍内(褥羊毛有意為之,或者被環境脅迫),最終形成“創作繭房”。
算法推薦直覺上造成了使用者層面的“資訊繭房”現象,更深層次看,則引發了内容生産者的“創作繭房”問題。
誠然,他評體系确實對增強推薦内容與使用者的比對有重要意義,提升準确性仍然是算法的重要任務,但解決“創作繭房”問題,不再把内容個體當做一個不能分割的點,而把算法擴充到内容的内部,尊重每一個内容,會是下一階段資訊流技術突破的重點。