首家強化學習大規模落地工業應用，快手是如何做到的？

人工智能技術正被科技公司廣泛應用在産品中，谷歌等公司已在搜尋引擎中加入了 BERT 這樣的預訓練模型，而強化學習這種需要耗費大量算力的方法也已成為快手推薦系統的核心。

近日，我們與快手核心推薦算法團隊技術負責人，卡耐基梅隆大學博士葉璨聊了聊，他向我們介紹了快手在推薦系統等核心業務中引入強化學習技術的曆程，以及大規模應用強化學習技術帶來的業務收益。

葉璨博士畢業于卡内基梅隆大學（CMU），此前曾擔任百度資深架構師。他在 2017 年加入快手社群科學部，作為算法負責人負責推薦算法、強化學習、增長廣告等技術方向。期間從 0 到 1 建立核心算法團隊，主要工作之一是主導了強化學習技術在快手推薦等核心業務的落地及大規模應用。

今天當我們在刷快手的時候，我們會獲得什麼樣的體驗？

「個性化推薦算法決定了，使用者每一次刷快手時，會看到什麼樣的視訊内容」葉璨博士說道。「推薦系統是快手生态體系的核心，而個性化推薦算法可以在每天新增數千萬視訊的海量視訊庫中，幫助使用者高效地擷取感興趣的視訊内容，最大程度吸引使用者，提升使用者留存和粘性。」

在快手的核心推薦算法團隊，AI 科學家和算法工程師們一直在不斷疊代推薦的核心技術，打造業界最前沿的推薦算法、技術能力，希望給使用者帶來最好的内容推薦體驗。

強化學習技術這一 AI 領域的重要技術方向，在最近這波 AI 浪潮中，由 AlphaGo 而逐漸被人們所熟知。在推薦和廣告算法領域，強化學習也在成為重要的技術趨勢。

快手平台上每天有數億使用者進行短視訊内容的消費，而這背後有業界最大規模之一的推薦系統提供支援。超大規模的推薦系統也為最前沿的 AI 技術提供了創新平台。快手推薦團隊在業界率先落地了基于強化學習技術的推薦系統，基于強化學習的推薦模型已在為數億使用者提供日常的推薦服務。它可以更精準、更實時地捕捉和滿足使用者的興趣，并帶來更好的内容多樣性。

基于強化學習的視訊推薦

在 AlphaGo 中出現的強化學習算法，是如何幫助你刷快手的？具體來說，使用者的每次推薦請求，都是由推薦系統從數千萬的候選視訊中挑選出數個視訊傳回給使用者的。整個過程大緻分為兩個階段：

召回：從千萬量級的視訊庫中篩選出數百相關的候選視訊，主要基于政策規則和簡單模型。
排序：從數百候選視訊中挑選出最終展示的若幹視訊（一般為數十）傳回給使用者，這一階段我們需要應用相對複雜、精準的模型。排序問題可以模組化成從 M 個視訊的候選集中挑選出 N 個視訊組成的有序清單。

由此可見，排序是推薦系統的核心任務。在這個過程中，傳統推薦排序算法通常會采用 point-wise 排序架構，基于經驗公式或者排序模型，「獨立」地預估每個候選視訊的排序分數，并按分數從高到低排序，截取 top N 視訊傳回。

這一方法可能面臨一個重要的問題：排序模型忽略了相鄰視訊間的影響，無法從視訊序列的角度優化整體的推薦效果，這和資訊流産品形态間存在天然的隔閡。

如果使用者喜歡某一類視訊，傳統方法會獨立對每個候選視訊打分，這就會傾向于将同類視訊排到前面，造成推薦内容的同質化，長期如此很可能會造成使用者對内容的厭倦。對此，傳統方法還會加入基于規則的多樣性打散政策，但這種思路顯然不是最優方案。

快手核心推薦團隊創新地采用強化學習重新定義了推薦排序技術：提出了基于強化學習的序列化排序架構，将輸出 N 個視訊序列的任務模組化為連續進行 N 次決策的過程，依次從候選集中挑選出 N 個視訊。強化學習排序模型端到端地完成整個推薦排序過程，從數百視訊候選集中挑選出由數十個視訊組成的有序清單，并傳回展示給使用者。

示意圖：傳統排序算法 vs 強化學習排序算法。

在強化學習模型排序的過程中，每次挑選視訊的目标都是最大化視訊序列的整體「獎勵」，例如優化視訊序列的整體觀看時長。「這個過程和下圍棋的人工智能類似，」葉璨介紹道。「在下棋的過程中，棋手不能隻考慮目前這步棋的收益，而需要有更長遠、更全局的視角去考量，有時會需要犧牲短期利益。」視訊推薦也可以按照這樣的思路來進行模組化，從視訊序列角度優化整體的推薦效果，同時保證推薦内容的多樣性。

另外，強化學習排序算法可以保證更好的推薦精準性與實時性：在使用者每次回報（點選、點贊、轉發...）發生之後，系統都會通過強化學習算法完成排序模型的線上更新。

每個人都有機會與頂尖 AI 對戰

除了視訊推薦之外，快手的強化學習技術也已應用在了旗下的多款小遊戲中。如果你玩過快手平台的鬥地主、五子棋、鬥獸棋、象棋等遊戲，你的對手可能會是系統指派的人工智能。

目前，AI 陪玩可能會出現在新手期，或是遊戲玩家數量低峰期，當然如果你的水準足夠高，也會在最高難度上遇到「超越人類水準」的 AI，感受一下 AlphaGo 帶來的恐懼。

在遊戲 AI 領域，研究人員自 2018 年初就開始在遊戲中嘗試強化學習技術。遊戲 AI 在快手遊戲産品中的主要應用形态是陪玩，這對處于孵化階段（使用者數有限）的遊戲産品尤為重要。從 2018 到 2019 年，遊戲 AI 技術在快手的多款棋牌類遊戲上完成了落地，支援了快手遊戲業務的快速發展。

強化學習已經重新定義了遊戲 AI 的生産方式。在傳統的遊戲 AI 中，不論是基于規則的方法還是監督學習的方法都嚴重依賴于人類專家提供的經驗和資料，最終實作的智能水準也相對有限，且無法實作動态的 AI 難度分級。

而這一切對于強化學習遊戲 AI 來說并不是難事。在遊戲上，快手已應用了通用遊戲 AI 算法架構，其使用基于自我博弈的強化學習技術（self-play reinforcement learning），不僅可以在特定遊戲上扮演不同難度的 AI 玩家，還可以實作自動化生産：隻需要輸入遊戲規則，不依賴人類經驗或資料而完全由 AI 自我博弈産生資料，通過強化學習算法實作 AI 能力的訓練和進化。

這一技術的本質類似于 DeepMind 的圍棋人工智能 AlphaGo Zero，是基于自我博弈強化學習的通用算法架構，可以擴充到多個不同領域，由 AI 自我博弈産生訓練資料，通過強化學習算法實作智能體的自我訓練和性能提升。

不過相比 AlphaGo，快手遊戲 AI 更加面向應用，它可以線上為成千上萬的遊戲玩家提供服務，不僅考慮了遊戲 AI 的高水準，還兼顧了其他産品需求，包括 AI 智能分級（為不同水準的使用者提供相應智能等級的 AI），拟人化等。

落地核心業務，做最精準的流量分發

作為目前中國最大的流量平台之一，快手的流量生态包含了各種業務流量的混合，包括視訊推薦、直播、營運、電商、廣告等，内容對使用者的精準觸達，是快手的核心業務問題。

快手在流量分發業務中大規模地應用了強化學習技術，比如最大的流量入口 - 個性化 tab 分發，以及各垂類産品在 feed 流中的精準分發，包括直播、遊戲、音樂、社交等業務。

比如使用者每次打開快手 app，強化學習算法會決定你跳轉到發現、關注、同城中的哪個 tab 頁面。強化學習接管的位置，是快手最大的流量分發入口，涉及首頁三大 tab 頁面的流量配置設定，影響 app 的使用時長、DAU（日活躍使用者數量）等關鍵名額。算法會參考使用者的行為偏好、習慣等進行流量分發，例如使用者在特定時間段喜歡進入某個 tab 頁進行消費。同時算法也會根據實時的 feed 資訊進行主動引導，例如關注頁有喜歡主播開播，會将使用者跳轉引導至關注頁。

在垂類業務的流量分發中，快手已在形态上改變了傳統的推送方式，他們在 feed 流中插入垂類聚合頁，由算法決定聚合頁的展示時機，其中包括音悅台、遊戲 TV、PYMK 、直播廣場等垂類産品。

在這裡，基于傳統的資料挖掘或政策規則無法做到實時準确，隻有通過強化學習算法才能夠實作精準分發。「如果内容被推送給了不合适的使用者，或者在不合适的時機，展示聚合頁入口，不僅難以形成垂類業務的消費和轉化，還會影響使用者正常的 feed 流體驗，」葉璨說道。

快手的算法以流量為粒度進行決策，每次決策的目标都是最大化一段時間内的整體收益，同時保持線上學習和更新，使用者的每次回報後，強化學習決策算法都會更新模型，快速适應使用者的行為習慣。通過不斷強化使用者回報，系統逐漸收斂達到最優的流量分發政策，同時也保持了實時更新的能力。

從零到一的探索

強大技術的背後，是快手核心推薦算法團隊不懈的努力。早在 2018 年，快手就在推薦系統上開始嘗試強化學習技術。「當時業界沒有任何成熟落地的方案可以參考，」葉璨表示。「部分研究團隊已經有一些論文，關于強化學習在推薦、廣告、搜尋領域的應用，但大多偏向于概念，距離實用化還有一段距離。而我們的目标一直是應用落地，我們希望能夠用強化學習技術解決推薦系統的核心問題。」

快手成為了強化學習推薦技術的先行者。在推薦系統哪個階段應用強化學習技術，應該采用哪類強化學習算法，強化學習推薦模型的線上訓練架構應該如何設計等等，這些問題都是從零開始探索的。

快手選擇在推薦系統的核心——推薦排序階段應用強化學習技術，它決定了應用最終向使用者展示哪些視訊，以及視訊的排列順序。在推薦算法領域，快手的 AI 科學家和算法工程師們完成了一項最前沿的技術突破，重新定義了推薦排序技術，使推薦系統具備了優化視訊序列整體收益的能力。

2018 年底，快手在新使用者推薦上完成了強化學習排序算法的驗證和成功上線。2019 年，這一技術拓展應用到了全量使用者，完成了對推薦全流量的覆寫。

現在，基于強化學習的推薦系統每天為數以億計的快手使用者提供着實時的個性化推薦服務。強化學習推薦技術的研發和落地，是快手推薦過去兩年最重要的技術突破。這項技術也帶來了更好的推薦效果和使用者體驗，推薦核心名額（如使用者觀看時長）的提升達到 10% 以上，這也是過去兩年快手推薦單項技術上線帶來的最大幅度的名額提升。

與此同時，快手将目光瞄準新的應用場景 - 精準流量分發。在業界，快手創新地首次采用強化學習技術解決流量的精準分發問題，并将精準流量分發技術以中台化的形式輸出至快手多個重要業務場景。目前在快手，這一技術已普及成為流量分發問題的常态化解決方案。

快手的算法可以在不影響使用者正常 feed 流體驗的同時，最大程度地幫助不同的産品和業務在合适時機完成對合适使用者的精準觸達，進而形成有效的使用者轉化。在一些業務場景下，相對于傳統政策，強化學習算法對分發效率提升達到了 100% 以上。通過先進的算法，快手確定了流量的精準觸達，幫助不同垂類業務實作了有效的使用者轉化、規模增長，提升了使用者粘性和業務壁壘。強化學習，已經成為快手的殺手锏級技術。快手表示，很多國外科技巨頭也尚未做到強化學習技術的大規模落地和應用。

「強化學習已經成為推薦、廣告算法領域最重要的技術趨勢，各大公司相關算法團隊紛紛嘗試，但據我們了解，基本還處于研究和驗證階段，」葉璨說道。「不少發表的 paper 離實際業務場景相差較遠，能經過線上 AB 實驗驗證的工作很少，更不用說在全流量上完成落地和覆寫。」

基于強化學習的推薦技術已經成為快手推薦系統的基礎設施與核心能力，從技術成熟度和應用規模而言，快手推薦無疑是業界領先的。随着網際網路 C 端競争的不斷深入，科技公司在行為上也更加趨同，這些先進技術，已為快手帶來了額外的優勢。

目前快手核心推薦算法團隊，多數來自于清北、CMU 等國内外頂尖高校的博士、碩士，以及來自 BAT 等知名公司的工程師。團隊成員曾在 NeurIPS、ICML、IJCAI、KDD 等 AI 頂會上多次發表論文。目前，團隊的技術支撐了快手的推薦、流量分發、增長廣告、遊戲等核心業務。

「我們希望從實際問題出發，以解決核心業務問題作為唯一衡量标準，」葉璨表示。「AI 算法是解決問題的手段，不是目的，我們會根據實際面臨的業務系統，設計合理的技術方案。我們将繼續緻力于解決核心業務問題，為快手的業務增長做出貢獻。」

首家強化學習大規模落地工業應用，快手是如何做到的？

基于強化學習的視訊推薦

每個人都有機會與頂尖 AI 對戰

落地核心業務，做最精準的流量分發

從零到一的探索

繼續閱讀

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

C++實作簡單順序表

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

C經典書籍筆記——C陷阱與缺陷②(文法陷阱之優先級)一、錯誤案列二、優先級規律

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

線性表之順序表的實作

C++判斷素數、求最大公約數代碼判斷一個數是否為素數求兩個數的最大公約數

SequoiaDB巨杉資料庫C++驅動概述

hdu7108哈希