文/阿裡巴巴資深算法專家蔡龍軍（牧己）整理/LiveVideoStack

大家好，我是來自優酷内容智能團隊的資深技術專家牧己，主要負責基于大資料和人工智能去解決内容方面的問題。接下來，我将以《長安十二時辰》為例，分享優酷在提升“爆款确定性”中的技術實踐。

一、如何定義爆款？

優酷有個産品叫北鬥星，相當于我們的文娛大腦。一般比較熱門的劇集的“北鬥星日指數”約50-60W，而《長安十二時辰》的“北鬥星日指數”可以達到100W+，并且還帶動會員收入的快速攀升。如果大家對北鬥星指數沒有概念，我再分享一個有趣的數字：雷佳音在劇中吃“水晶柿子”的橋段，使西安水晶柿子的銷量增長到往年的6倍。綜藝的年度爆款《這就是街舞》是同題材類型精品節目熱度的2-3倍。另外，這兩檔節目除了對18-34歲核心人群有很好的覆寫，對35-49歲的人群上也有一定輻射，可見爆款的影響力有多大。

二、長視訊爆款的複雜與挑戰：較高不确定性

長視訊爆款的複雜和挑戰主要來源于不确定性，并且這種不确定性滲透在内容的采集、宣發和投放的所有環節中。第一個不确定叫做延遲滿足和資訊不完備。長視訊通過組織多個有效的事件序列，形成價值轉換，刻畫出不同人物，最終展現一個或多個價值觀，整個過程需要很多劇集逐漸被使用者感覺。每個使用者對于内容的偏好點和關注點不同，擷取的隻是内容片面的資訊，資訊的不完備性，導緻對于内容了解的偏差。

優酷主要通過NLP/CV/語音的語義了解&KG等技術，進行“内容外延的解構”和“内容核心的創作了解”，擷取到内容從外到内的各次元資料，保證相對的确定性。第二個不确定是涉及工種極多的複雜系統工程。需要對複雜過程中的關鍵點數字化、模式化，對過程進行量化衡量&計算。第三個不确定來自于内容本身的專業技能。如何與流量商業價值相結合，内容人在内容創作過程中會加入各種專業的技術，如在大場景的還原上，鏡頭語言的處理上，服化道的配置上，畫面的構圖上等等。但是這些技術，哪些是使用者關注的？哪些是使用者不在乎的？這很重要，涉及到最終的流量商業價值。是以，優酷要在技術上解決使用者了解和使用者心理學的問題，洞察使用者偏好，将使用者和内容做關聯。内容産業發展背後的趨勢思考

商業需要确定性，而内容具有極強的不确定性，如何依靠技術達到平衡？這是内容産業發展所引發的思考。

在崇尚個性化的當下，爆款也從“全民爆款”演進成“圈層爆款”，非圈層閱聽人對某些内容完全沒有感覺，與之前萬人空巷的氣勢完全不同。

三、如何提升？向算法和資料榨取确定性

1、何為北鬥星？

從内容的不确定性出發，優酷采取人機結合的系統即北鬥星。北鬥星是一個具有思考能力的大腦，解決采、投、制、宣、發、放等内容全生命周期的不确定性，提升爆款能力。

2、基礎能力：内容創作了解能力

繁雜資訊處理對于人工智能來說是“小菜一碟”，難點是解決内容創作中的了解、預測和挖掘能力。内容創作了解能力，是對劇本進行智能化的分析和挖掘，提高這部分的确定性。主創班子是一個極強的系統化工程，在上圖左側會基于内容了解做分析和挖掘，而右側會基于資料對左側内容了解做量化，進而提供類似大腦的思考和決策能力，提高這部分的确定性。

内容創作有自身規律，内容創作了解就是圍繞基于鏡頭語言和“兩千多年的戲劇理論應用價值觀”轉化為技術能力，即對劇本和視訊的智能了解。

以《長安》劇本分析為例，全劇本共有120多個人物，主創戲份評估如下： 1）張小敬的戲份占15%，李必占10%，檀棋、龍波、姚汝能分别占5%、4%、3%； 2）張小敬和李必在全劇分别貢獻了90%以上的人物關系； 3）檀棋貢獻了80%以上的人物關系，在劇中作為功能性人物推動劇情發展。對《長安十二時辰》劇本的角色互動分析如下： 1）張小敬與檀棋的互動最多； 2）李必與檀棋、徐賓互動較多； 3）相比IP劇本減少了張小敬和李必的互動。

對《長安》中人物情緒進行分析發現：在前16集中，第3集和第10集出現了情緒表達的高峰，為劇情創造緊張情節。

對于《長安》第一集的成片進行多模态，包括聲音與圖像。圖像綜合了演員表情、場景、動作等分析，預測出一條“使用者觀影情緒曲線”，後續結合使用者真實觀看情況對資料進行更新優化。

3、采制階段：預測能力建設

對于不确定的事情，如果可以計算出不确定性有多強，便可有效提升商業決策效率，提高決策結果的确定性。基于此，建設識别和了解不确定性的預測模型。

預測中會面臨資料、模型和應用三方面問題。資料問題分為資料量不夠，資料不幹淨和資訊不完備。模型的問題包括複雜機制很難通過樣本進行覆寫、很難深入了解問題本質和很難跨領域進行舉一反三學習。從優酷的經驗出發，是正确識别應用上的不确定性可以在應用上有很好的改觀。

正常解法也分為資料、模型和應用三方面解法。資料量由資料采樣和資料生成解決，資料不幹淨由資料清洗解決，資料不完備由Domain Knowledge&KG解決。應用解法中不确定分析模型有Belief Network等解法。

根據之前解決的問題，解法可以分為四層：

第一層是基礎層。分為KG&Domain Knowledge/Feature Engineering和學習加速；

第二層是資料層。分為資料生成（SMOTE），隸屬度變換（高斯隸屬度）和半監督學習；

第三層是模型層。通過DNN和Relation Net以及MTL相結合，降低過拟合，提高模型的學習能力；

第四層是Uncertainty Learning，基于變分推斷的架構進行内容不确定性的預測。

SMOTE（Synthetic Minority Oversampling Technique），合成少數類過采樣技術。

它是基于随機過采樣算法的一種改進方案。由于随機過采樣，采取簡單複制樣本的政策來增加少數類樣本，這樣容易産生模型過拟合的問題，使得模型學習到的資訊過于特别(Specific)而不夠泛化(General)。 SMOTE算法是對少數類樣本進行分析，并人工合成新樣本添加到資料集中，新樣本的公式為xnew=x+rand(0,1)∗|x−xn|，生成的樣本可直接應用到項目中，但提升效果不穩定。優酷得到的結論是：在生成新樣本後引入隸屬度變換，來計算新樣本與真實樣本的接近程度。經驗證，加入隸屬度變換後，效率提升約5%。

所有模型都會面臨過拟合問題，優酷的基本思路是分析預測事件的基本特點，對于不同的特點建立不同的模型，分别有生命周期模型、競争博弈模型和複雜影響因子。

對于複雜模型的邏輯：把前面的模型各部分的因素都拆開，複雜因素用DNN去拟合，外部競争的關系去Relation Net做推理去解決，最後用MTL整合模型，根據實際情況也會加入其它模型。

Relation Net是2016年發表的CNN模型。基本思路是将包含各種圓柱、橢圓等形狀的圖檔，經由CNN網絡輸出生成feature maps，把圖中涉及到形狀的object通過通道取出，每兩個object配對形成一個對比串，然後與LSTM編碼question的embedding向量疊加到一起，輸入到一個深度網絡中進行學習，最後softmax分類到某個答案詞上面，進行正确與否的判斷。 Uncertainty Learning這塊，從2016年開始它逐漸熱起來，我們也用變分去做了一些事情。

這一部分可以在網上參考“貝葉斯Network”，重點看它如何利用“變分”得到最後結果。

4、宣發階段：挖掘能力建設

挖掘能力更多應用于已經發生的事件，使其更具有确定性。上圖是《長安》播出後，每一分鐘使用者的收視狀況、複看狀況和彈幕狀況，再結合每一時間段的劇情内容對使用者喜好做更精準的分析，以此來做更好的宣推和挖掘。内容産業是個不确定性非常高的産業，越是爆款就越有不确定性。網際網路下半場我們積累了特别多的資料，AI能力也得到了前所未有的發展，我們建立了“文娛大腦”北鬥星、AI劇本等内容形式的挖掘能力，和采買不确定性預測的評估能力，以及對于宣發挖掘的能力，都在業務應用上取得了不錯的成績。傳統的内容制作領域，依然依賴人的經驗，在強人工智能尚遙遠的情形下，如何結合機器AI和人工經驗是個永恒的主題，例如結合符号主義（計算機學派）和連接配接主義（仿生學派）的智能。是以，我們将在兩個方向發力： 1）決策引擎的建設，包括結合人工邏輯規則和機器學習，不确定性分析架構和經久不衰的貝葉斯因果決策，以及神經元化的混合智能計算架構。 2）量化的心理學研究也越來越重要，我們也會推進這部分探索。

————————————————

原文連結：

https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/99619275

「視訊雲技術」你最值得關注的音視訊技術公衆号，每周推送來自阿裡雲一線的實踐技術文章，在這裡與音視訊領域一流工程師交流切磋。

《長安十二時辰》背後的文娛大腦：如何提升爆款的确定性？一、如何定義爆款？二、長視訊爆款的複雜與挑戰：較高不确定性三、如何提升？向算法和資料榨取确定性

一、如何定義爆款？

二、長視訊爆款的複雜與挑戰：較高不确定性

三、如何提升？向算法和資料榨取确定性

1、何為北鬥星？

2、基礎能力：内容創作了解能力

3、采制階段：預測能力建設

4、宣發階段：挖掘能力建設

繼續閱讀

9.spark Core 進階2--Cashe

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希

《長安十二時辰》背後的文娛大腦：如何提升爆款的确定性？一、如何定義爆款？二、長視訊爆款的複雜與挑戰：較高不确定性三、 如何提升？向算法和資料榨取确定性

一、如何定義爆款？

二、長視訊爆款的複雜與挑戰：較高不确定性

三、 如何提升？向算法和資料榨取确定性

1、何為北鬥星？

2、基礎能力： 内容創作了解能力

3、 采制階段： 預測能力建設

4、宣發階段： 挖掘能力建設

繼續閱讀

《長安十二時辰》背後的文娛大腦：如何提升爆款的确定性？一、如何定義爆款？二、長視訊爆款的複雜與挑戰：較高不确定性三、如何提升？向算法和資料榨取确定性

三、如何提升？向算法和資料榨取确定性

2、基礎能力：内容創作了解能力

3、采制階段：預測能力建設

4、宣發階段：挖掘能力建設