啤酒、燒烤、歐洲杯是很多球迷今年夏天的消暑利器。但你可能想不到的是,那些精彩的進球集錦、球星慢動作回放說不定是 AI 做的。
在今年的 CVPR 大會上,百度向我們确認了這一點。
他們的 AI 可以在無人工介入的條件下,精準、實時地切分出進球、射門、犯規等動作片段。基于此項能力,團隊開發出了一系列應用工具并成功落地,包括:
1. 自定義足球精彩集錦生成工具。隻需輸入球員并標明比賽場次,AI 就能自動生成這個球員的精彩瞬間視訊集錦以及慢動作回放。相關産品已經在百度百科 400 多個足球球員和球隊頁面落地。
2. 足球圖文戰報一鍵轉換視訊平台。隻需要輸入文字直播内容或者直播間位址,AI 就能智能聚合生成對應的視訊内容。 3. 基于圖像場景識别的智能視訊生産線。該生産線可以快速了解上傳的長視訊,檢測是否有進球、精準定位視訊中的進球瞬間,并完成自動剪輯。最近,這些技術還幫他們拿到了一個重量級賽事的雙料冠軍。
在剛剛閉幕的 CVPR 2021 大會上,百度取得了 SoccerNet-v2 足球視訊了解競賽的全部兩項任務的冠軍,這是全球首個以足球比賽視訊的全方位了解為目标的競賽。
而且,這還隻是百度今年 CVPR 成績單的一部分。
作為「中國軍團」多年出征 AI 頂會的一員「老兵」,百度在今年的 CVPR 上再次創下新紀錄:不僅入選了 22 篇優質論文,還連獲 10 個挑戰賽冠軍,在去年 8 個冠軍基礎上實作新突破。
此外,百度還主辦了一場重量級學術 Workshop 和一場 Tutorial,并受邀在大會上做同聲傳譯特邀報告和 PaddleCV 技術分享演講。
這種全方位的發聲方式不僅讓我們看到了百度在 CV 領域的研究、落地成果,還展示了該公司在 NLP、AutoDL 等領域的前沿探索以及多個領域的融合創新。
在這篇文章中,我們就來盤點一下這些内容。
十項 CV 冠軍,聚焦自動駕駛、智能交通、智慧城市、智能創作等多個賽道
CVPR 2021 覆寫了計算機視覺多個細分領域,百度此次參與并獲得了七項挑戰賽的十個冠軍。其中,六項冠軍成果可加速自動駕駛、智能交通、智慧城市等落地和應用,部分成果可助力智能創作工具的打造。
六項冠軍助力自動駕駛、智能交通、智慧城市應用落地
對于百度來說,自動駕駛可以說是 CVPR 舞台上的一項「傳統藝能」了。早在 2018 年,百度 Apollo 就占據了 CVPR 自動駕駛的主場;2019 年,Apollo 又在 CVPR 上公開了國内唯一的自動駕駛純視覺城市道路閉環解決方案——Apollo Lite。這些高光時刻在今年的多項競賽中得到了延續。
在今年取得的十項冠軍中,「語義分割、高分辨率人體解析、霧天環境檢測」賽道的三項冠軍或對百度強化自動駕駛能力有直接的助力。
以 AutoNUE 2021 挑戰賽的語義分割賽道為例,該賽道聚焦街景圖像的語義分割。與普通語義分割資料集不同,街景資料集物體更多,場景更為複雜。針對該賽道的問題,百度提出了基于 CNN 和 Transformer 的融合算法政策,通過異構模型互補方式,實作了駕駛場景特征的更強表達能力,進而提升了分割性能。針對密集目标,百度提出了區域遞進算法,将稠密任務切分為若幹稀疏子任務,降低了模型複雜度,加速了模型收斂,提升了測試精度。最終,百度以三項測評名額均第一的優勢超越其他參賽機構獲得冠軍。
比賽代碼也計劃不久後開源:
https://github.com/PaddlePaddle/PaddleSeg除了複雜的街景,霧霾等極端天氣也是阻礙自動駕駛落地的一大難題。本屆 CVPR 就有一個專門針對霧霾天氣的檢測競賽——UG2+ (SEMI-)SUPERVISED OBJECT DETECTION IN HAZE CONDITIONS。
在這場競賽中,百度使用最新的 Swin Transformer 模型配合 cascade-rcnn 結構作為基礎模型并針對任務特點優化了 anchor 選擇以提高模型的識别能力,同時使用去霧和非去霧的資料組合進行訓練,提升了模型的泛化性能。另外,針對樣本不平衡問題,團隊使用了基于樣本分布的采樣平衡方法,有效提升了模型性能。
上述競賽展現的技術能力或已逐漸在百度自動駕駛落地過程中得以展現。目前,在早晚高峰交通流密集路口左轉禮讓行人,車輛視覺盲區突然竄出行人、車輛等一系列長尾場景中,百度 Apollo 自動駕駛車均能進行良好處置。4 月 13 日,百度 Apollo 拿到了北京市頒發的中國首批夜間及特殊天氣測試資質,機器之心也在上個月冒雨體驗了一次 Apollo GO 自動駕駛車的
夜間試乘。
Apollo 車輛平緩通過車流密集的路口。
除了自動駕駛,百度在智能交通、智慧城市方向的技術進展更多地在第五屆 AI CITY 智慧城市挑戰賽中得以展現。AI CITY 聚焦交通相關的車流統計、再識别、異常事件分析等應用場景,一共 5 個賽道,是百度多次奪冠的「自留地」,今年百度也在車流統計、異常事件檢測兩個賽道拿到冠軍。
在車流統計任務中,比賽要求在端上裝置上實作整體技術方案,并對端上的速度與效果名額進行綜合打分。百度基于複雜場景下路口車輛多目标檢測、跟蹤技術,實作了分車道的車流統計,并通過模型小型化以及流水線并行化處理流程,實作了性能 + 效果綜合提升,最終取得冠軍。
在異常事件檢測賽道中,百度使用雙向多粒度融合的異常檢測算法,配合視訊穩像、區域特取、背景模組化等預處理,經過車輛檢測及後續跟蹤判斷異常,并融合撞車判斷邏輯找到準确的異常開始時間,最終取得第一。
百度表示,此次獲得 AI CITY 挑戰賽冠軍的技術已應用于百度自研的智能交通和智慧城市系統中,系統整合了檢測、跟蹤、3D 定位、分割、身份重識别、事件分析在内的多項視覺技術,是保障業務落地的堅實基礎。
SoccerNet-v2 挑戰賽冠軍支援足球視訊創作
前段時間,百度智能雲曾攜雲智一體的智能媒體産品和方案亮相第 28 屆中國國際廣播電視資訊網絡展覽會(CCBN 2021),展現了一站式智能創作平台等媒體智能化解決方案和創新應用。百度的智能創作平台基于自然語言處理、知識圖譜、視覺、語音的整合技術能力,為創作者提供多項能力,助力新聞資訊生産的策、采、編、審、發全流程。在今年 CVPR 的 SoccerNet-v2 足球視訊了解競賽上,該平台的相關技術再次亮相。
SoccerNet-v2 下設事件定位(action spotting)和回放溯源(replay grounding)兩個任務。事件定位的難點在于有些事件難以分辨(如犯規、越位、射正、射偏),還有一部分事件并未被直接拍攝到,需要根據上下文來推測。回放溯源的難點則在于回放和原始事件之間可能會相隔長達上百秒,拍攝視角也經常不同,是以不容易比對。 為了解決這些難題,百度研究院圖文轉視訊 VidPress 團隊設計了一個兩階段的系統:首先讓特征提取器提取足球視訊特征,再将提取出的特征作為第二階段具體任務子產品的輸入,進行事件定位或者回放溯源。其中,事件定位和回放溯源階段采用了 Transformer 架構。該架構在兩個任務中展現了對視覺語義特征的精确的時序處理能力,優于基線算法中 Siamese 網絡的學習能力和訓練速度。
基于 SoccerNet-v2 挑戰賽拿下雙料冠軍的 AI 技術能力,百度已支援開頭提到的自定義足球精彩集錦生成、足球圖文戰報一鍵轉換視訊等應用工具。這項技術能力也已基于智能創作平台進行落地。
PaddleCV:優秀方案都到碗裡來
作為中國人工智能的「頭雁」,百度的計算機視覺方向技術研究早在十一年前成立多媒體部時就已經開始了。這幫助百度積累了全方位的技術能力,也為飛槳視覺模型庫 PaddleCV 提供了強大的核心動力。
PaddleCV 中,既包含經過産業實踐長期打磨的主流模型,也包含百度在國際競賽中的奪冠模型。在 CVPR 2021 的一場技術分享中,百度資深算法工程師為參會者詳細分享了 PaddleCV 的技術報告。PaddleCV 作為飛槳重點研發的視覺模型庫,為開發者提供了面向圖像分類(PaddleClas)、目标檢測(PaddleDetection)、圖像分割(PaddleSeg)、文本識别(PaddleOCR)、圖像生成(PaddleGAN)等視覺場景的多種端到端開發套件和海量視覺方向模型,其中 PaddleOCR 和 PaddleDetection 開發套件更是在能源、金融、工業、農業能衆多領域被企業廣泛使用。本屆 CVPR 各項比賽結束後,部分成果也将在 PaddleCV 中開源。
飛槳全景圖與 PaddleCV
演講、Workshop、Tutorial,全方位展示 AI 前沿探索
作為計算機視覺和模式識别領域的世界級學術頂會,CVPR 不僅是業界展示領先科技成果的平台,也是探索學術前沿的平台。在 CVPR 舉辦的同時,百度不僅積極參與了各項競賽,還主辦了一場重量級學術 Workshop 和一場 Tutorial,并受邀在大會上做同聲傳譯特邀報告。
Workshop 的主題是 AutoDL 的核心方向——NAS(神經網絡結構搜尋)。在之前的 WAVE SUMMIT 2019 深度學習開發者峰會上,百度曾為在記憶體緊張、功耗受限、存儲有限的裝置上進行深度學習研究的開發者提供了一份重磅驚喜——一個名為 PaddleSlim 的開源模型壓縮工具庫。除了支援傳統的網絡剪枝、參數量化和知識蒸餾等方法外,PaddleSlim 還可以通過 NAS + 蒸餾 + 量化一站式模型壓縮産出業界領先的小模型。這些創新方法囊括了很多百度自研的 NAS 算法。借助這些方法,百度視覺團隊近兩年先後七次在 CVPR 與 ECCV 等國際比賽中奪得世界冠軍,并全線應用在各條業務上。這展現了 NAS 這一方向的研究價值。
為了推動 NAS 的進一步發展,百度聯合悉尼科技大學和美國北卡羅來大學舉辦了 CVPR 2021 NAS workshop,還舉辦了首屆輕量級 NAS 國際競賽,探讨了 NAS 的現狀和未來。大賽從 NAS 研究的關鍵問題出發,設定了超網絡一緻性、模型性能預測、未知資料三大賽道,吸引了全球 59 個國家和地區、超過 600 支隊伍在 AI Studio 上參賽。比賽征集到衆多優質的 NAS 解決方案,其中,清華大學基于飛槳的方案已在 AI Studio 和 GitHub 平台開源。本次 workshop 不僅有獲勝隊伍宣講技術方案,還邀請了馬毅、紀榮嵘、黃高、徐暢、Alan Yullie 和 Sara Sabour 等國内外著名學者進行演講,分享了神經網絡結構搜尋技術(NAS)領域最新進展和未來動向。
來自百度的 CVPR 2021 NAS workshop 主席開場緻辭
Tutorial 的主題是「基于能量的生成模型的理論與應用」。提到生成式模組化,我們總是第一時間想到生成對抗網絡。但近年來,人們對 ConvNet-parametrized EBM(基于能量的生成模型)越來越感興趣。該架構解決了生成模型在表示、生成、效率和可伸縮性方面的需求。具體來說,與目前流行的生成模型(如生成對抗網絡、變分自動編碼器)不同,基于能量的生成模型可以将自下而上的表示和自上而下的生成統一為一個架構,并可以通過「analysis by synthesis」進行訓練,不需要引入額外的輔助模型。這使得其在算法上更容易直接優化。在這些優勢的加持下,該架構已被應用于許多計算機視覺任務中。
這場 Tutorial 由百度美國研究院認知計算實驗室主辦,并邀請加州大學洛杉矶分校統計學系教授 Ying Nian Wu 共同主講,全面介紹了計算機視覺中基于能量的生成式模組化和學習,還列出了基于能量的生成架構所成功解決的不同類型的計算機視覺任務,旨在幫助研究人員将基于能量的學習原理應用于計算機視覺的其他環境。
Tutorial 目錄。位址:
https://energy-based-models.github.io/同聲傳譯特邀報告的主講人是百度美國研究院深度學習實驗室主任黃亮。報告的内容來源于他在 ACL 2019 大會上作的同名主題報告,其核心是百度研究院在 2018 年取得的同聲傳譯重大突破。這個突破使得低延遲、高品質的同傳第一次成為可能,并将同傳從一個冷門難題變成了自然語言進行中的一大熱門課題。在這次的演講中,黃亮教授介紹了他所在的團隊在此基礎上取得的新的進展。
演講位址:
https://www.youtube.com/watch?v=QojanA1pZ1o如今,CVPR 2021 已經正式落下帷幕,會議中誕生的 idea 也在陸續走進現實世界。百度表示,在修煉好 AI 技術「内功」的同時,他們将通過搭建起的飛槳和智能雲為代表的 AI 平台不斷向各行業場景輸出技術能力與解決方案,進一步推動産業智能化更新發展,在中國乃至全球 AI 領域持續領跑。