CVPR 2019 | 奪取6項冠軍的曠視如何築起算法壁壘

走進今年 CVPR 的工業展區，映入眼簾的是熟悉的 MEGVII 字眼和以藍色為主基調的展位，藍白相間的 booth roof 甚是亮眼，這多少讓記者有些驚訝。曠視，這家來自中國的計算機視覺獨角獸公司，竟然「霸占」了全世界頂尖學術會議的 C 位。

CVPR，全稱 IEEE 國際計算機視覺與模式識别會議，在計算機視覺領域是和 ECCV、ICCV 并稱的三大頂尖會議。今年的 CVPR 于當地時間 6 月 16 日在美國加州長灘開幕，前後共 5 天，吸引了超過 9200 多名參會者、284 家贊助商和 104 家展商。論文方面，來自全球的 14,104 位作者送出了 5000 多篇論文。

不遠千裡來到長灘會議中心的曠視研究員，在今年的 CVPR 上滿載而歸：拿下 6 個挑戰賽世界冠軍，包括自動駕駛、細粒度識别等等，數量位列今年國内參會公司之首；首次在 CVPR 舉辦研讨會和挑戰賽，吸引了超過 300 多支隊伍注冊參加；14 篇論文入選了今年的 CVPR，比去年多出 6 篇，其中 1 篇入選口頭報告（Oral Presentation，5.6% 接收率）。

參加 CVPR 對以算法為核心的曠視有重要的戰略意義。2019 年伊始，在成立八年之際，曠視宣布了從品牌到戰略的全面更新，并且确立了以算法為核心基因，圍繞計算視覺及相關傳感技術開發感覺、控制、優化算法，包括但不限于人臉識别、手勢識别、文字識别、物體檢測、視訊分析、三維重建、智能傳感與控制等機器學習技術。

一方面，學術會議的同行評議，是考驗曠視技術的試金石；另一方面，曠視也在借此機會吸引人才，鼓勵學術界思考中國計算機視覺行業的特殊需求，并回饋研究社群。

曠視首席科學家和研究院院長孫劍告訴機器之心，「在一次和姚期智先生（也是曠視學術委員會主席）的座談上，姚先生說的非常好：『發表論文、參加學術會議，其實是有人對你的工作鼓掌，激勵你繼續前行。』」

6 項冠軍背後的算法優勢

挑戰賽可以看成是技術預演的過程，處于研究和産品之間的環節。通過挑戰賽，研究員可以打造更好的內建架構、優化算法、測試極端情況，在挑戰賽上驗證過的技術有助于加快産品落地。

今年，曠視橫掃了 6 個挑戰賽項目，涵蓋自動駕駛、細粒度識别、終端圖像處理、3D 物體識别等衆多領域，且含金量都很高，分别是：

1.自動駕駛方向

WAD nuScenes 3D Detection Challenge
WAD Domain Adaption Detection Challenge
WAD Domain Adaption Tracking Challenge

2.細粒度圖像識别

FGVC iNaturalist
FGVC Herbarium

3.圖像恢複和增強

NTIRE Real Image Denoising Challenge

以 iNaturalist 為例，這是細粒度圖像識别裡的标杆性比賽，要求參賽團隊在上千種動植物子類别中實作圖像識别，被看作是該領域的 ImageNet。iNaturalist 所屬的細粒度視訊分類（FGVC）研讨會，在 CVPR 上已經舉辦過六屆。

曠視的參賽團隊來自南京研究院，細粒度圖像分析是其基礎研究方向之一，他們也涉獵小樣本、深度學習、物體檢測、圖卷積等領域。南京研究院的負責人魏秀參告訴機器之心，今年 iNaturalist 的難度相比往年有所提升，主要展現在三個方面：

首先，資料集不僅涵蓋了一千多個動植物品類，而且有些動植物類别之間的差别普通人根本看不出，比如你知道下圖哪張是「白腹藍彩鹀」，哪張是「靛彩鹀」嗎？這些問題隻有植物專家或者動物專家才能回答。

上圖是靛彩鹀，下圖是白腹藍彩鹀

其次，這是一個長尾分布的資料。所謂的長尾分布指的是大約 20% 的類别包含 80% 的圖像，而 80% 的類别隻覆寫 20% 的資料，是以整個資料集呈現指數遞減趨勢，這對解決實際問題帶來了很大的挑戰性。

再者，除了識别動植物，在具體的一個類别，還需要識别動植物不同的發育期狀态。比如說一些兩栖動物可能會有一些變态反應，不同的狀态需要進行精細的甄别。

魏秀參介紹說，此次參加挑戰賽的模型內建了最前沿細粒度技術成果，包括 Coarse-to-fine hierarchical classification、iSQRT、Class-Balanced Focal Loss 等；同時，團隊也提出「後驗機率重校準」技術，即通過先驗知識對模型輸出的後驗機率進行校準，極大提高擁有較少訓練圖像的長尾類别的識别準确率。最終結果，曠視在 iNaturalist 挑戰賽上比第二、三名領先了一個身位。

在另一個細粒度圖像識别的比賽 Herbarium Challenge（植物标本挑戰賽）中，參賽團隊需要從植物标本中鑒定開花植物物種（Melastomes），資料來自紐約植物園。曠視擊敗了去年的冠軍、今年的第二名大連理工。

多說一個細節：在細粒度圖像識别的挑戰賽上獲勝的模型使用了曠視自研的 Brain++ AutoML 技術。曠視内部采用了 One-shot 神經架構搜尋的方法，兼顧了性能、效率、靈活性，使得 Brain++ AutoML 可以在實際模型生成中實作快速落地和調用。

這是曠視南京研究院第一次參加 CVPR 的挑戰賽。從 2017 年組建至今，南京研究院希望将此機會将多年積累的技術放到國際舞台上比一比。魏秀參後來透露，挑戰賽的勝利提升了團隊的自信心和凝聚力。

相比于在 iNaturalist 挑戰賽上的突破，曠視研究院檢測組負責人俞剛帶隊獲得自動駕駛挑戰賽三項冠軍更像是「正常操作」。在去年 CVPR 上，俞剛帶隊就獲得了自動駕駛識别挑戰賽執行個體視訊分割（Instance-level Video Segmentation）的冠軍。今年，曠視分别在 BDD100K & D²-City 目标檢測遷移學習挑戰賽、D²-City & BDD100K 目标跟蹤遷移學習挑戰賽以及 nuScenes 3D 檢測上獲得冠軍。

俞剛（中）在 CVPR 現場領獎。

nuScenes 3D 檢測是此次自動駕駛挑戰賽的一個亮點。nuScenes 是今年自動駕駛公司 Aptiv 釋出的一個全新資料集，除了包括每段 20 秒的 1000 個場景以及 140 萬幅圖像外，該資料集使用了新的 3D 方法來整合物體檢測，并且釋出了 39 萬個雷射雷達掃描輸出。盡管曠視目前并未明确涉獵自動駕駛業務，但俞剛表示，曠視希望通過 3D 和 2D 的結合，提前布局以應對未來精度敏感的産品落地。

在這項挑戰賽中，曠視設計了一個多尺度、多任務的模型，借助新型檢測網絡，結合均衡采樣等政策，極大提高了模型的檢測精度，尤其是在小物體上。最終，曠視模型比官方基準（45.3%）高出 18 個點，達到 63.3%，比第二名也高出 8.8 個點，擊敗了包括香港中文大學在内的頂尖團隊。

另外兩個 D²-City & BDD100K 的場景遷移挑戰賽，看重的是算法的檢測和泛化能力。D²-City 是滴滴釋出的大型資料集，而 BDD100K 則是去年加州伯克利大學釋出的開源資料集。前者是國内資料，後者是美國路況，場景差異巨大，這就考驗了算法在不同場景的遷移能力。

首次主辦挑戰賽，大型資料集助推科研發展

除了作為參賽者的身份外，曠視也首次在 CVPR 舉辦了研讨會和挑戰賽——DIW 物體檢測挑戰賽（Detection In the Wild Challenge Workshop）。一家創業公司回饋社群，加速技術推進。這樣的做法确實令人驚喜。

國内的技術公司在過去一直扮演着模仿和追趕的角色，但在人工智能時代，這些企業正逐漸掌握話語權。衆多在工業界發現的問題學術界鮮有涉獵，隻有在資料量龐大、場景多元的中國才能被挖掘出來，這些問題的解決将對整個研究領域帶來巨大的推動作用，但需要有公司抛磚引玉。這就是曠視正在做的事情。

曠視為物體檢測任務引入了兩個新的基準挑戰賽：Objects365 和 CrowdHuman。Objects365 用于解決 365 個物體類别的大規模檢測問題。挑戰賽設定了兩個方向：60 萬訓練圖像上的所有 365 個物體類别、以及用于在訓練圖像的子集上處理 100 個具有挑戰性的類别。而 CrowdHuman 是為人群人體檢測問題而設計，資料集包含了 34 萬人類執行個體。

本質上，曠視希望通過挑戰賽的形式，由資料層面出發推動算法性能，拉高技術的上限達到實際産品需要的水準。俞剛負責此次挑戰賽的籌備，他告訴機器之心，此次挑戰賽總共有 300 多個隊伍報名注冊，有 70 多個隊伍給出了實驗結果。參賽的前幾名選手的結果比曠視内部的基準都高了很多，這給曠視帶來了許多創新思路。

DIW Workshop 現場

夜攝 Demo 展示：底層架構加快産品轉化

自 2016 年起，CVPR 專門辟出一塊區域用作工業展區，允許科技公司展示技術産品，增加和學界的交流。曠視今年帶來了 4 個 demo：動作控制街頭霸王對打、單攝視訊虛化、夜攝超畫質以及 SLAM 機器人。

夜攝超畫質的 demo 位于曠視 CVPR 展台的一角，有一個用紙箱搭建的暗光環境，紙箱内擺放了各種玩偶作為拍攝對象。用來測試的機型是剛剛搭載曠視夜攝技術的 Oppo Reno 10。

曠視超畫質樣張展示（右），遇到有多點燈光等人工照明的城市風光場景時，曠視超畫質技術都能給使用者帶來非凡的夜拍體驗

經過測試，機器之心記者發現該 demo 展現了兩個特點：一是拍照速度快，和傳統夜攝功能要求握住手機拍攝幾秒不同，Oppo Reno 10 的夜攝拍照和平時拍照的速度差異不大；二是圖像細節逼真，因為紙箱裡有毛線團，在暗光環境裡手機依然能清晰地呈現出一根根毛線的細節。

目前，高端手機在正常光線下拍照下的成像差距不大，隻有在極端情況才能展現差異，比如夜攝。去年谷歌釋出的 Pixel 3 和今年華為釋出的 P30 都依靠優秀的夜攝能力收獲了一票使用者。

但曠視的視覺專家王珏告訴機器之心，谷歌和華為背後所使用的圖像降噪方法依然有缺點。傳統的圖像降噪是用多幀降噪來彌補夜間進光量不足的問題，歸根結底是圖像噪聲和信号比太高，通過照片疊加可以增強信号去掉噪聲，但弊端是需要拍多張并且保持手機不動，這需要使用者等上 3-4 秒的時間。手一抖就容易在照片出現拖影，也就是攝影界俗稱的「鬼影」。

王珏團隊想到了針對原始圖像的神經網絡方法。這條路過去幾乎沒有人走過，不僅僅是由于學界對原始圖像的圖像降噪還處于早期階段，體量巨大的神經網絡模型如何在手機端上快速運作是另一大挑戰。

一個看似簡單的手機夜攝業務，中間有許多不為人知的細節打磨。這個過程，既有研究思路上的創新：比如曠視研究員從上世紀 70、80 年代的一些經典論文中研究了噪聲的統計規律和模拟的方法，研究了成像模式以後，資料生成的流程就被極大地簡化。

同時，也依賴于曠視内部多年來的技術積累。王珏透露，公司内部有一個 Model Zoo 的「武器庫」，這個平台存儲了許多模型，基于不同的平台、功耗要求、運算速度。研究團隊基于自身業務的需求，隻要從 Model Zoo 中挑選幾十個模型架構加以微調，就可以極大地加快開發速度。最終模型的大小隻有 2.5G，整個拍照曝光時間控制在 300 毫秒左右。

項目落地之餘，王珏也帶領團隊「順便」參加了 CVPR 的去噪挑戰賽—NTIRE 2019 Real Image Denoising Challenge - Track 1: Raw-RGB，獲得了冠軍。團隊在研讨會上分享完技術細節後，台下的來自谷歌和三星的研究員都對曠視如何能将模型做到這麼小、在終端跑地那麼快表示好奇。

王珏透露，這裡面有曠視的底層系統化人工智能架構「曠視 Brain++」和人工智能資料管理平台「曠視 Data++」的功勞。曠視從 2014 年開始就在開發 Brain++Engine，在 TensorFlow 還未出世、Caffe 和 Theano 等機器學習架構不适用自身業務的年代，曠視希望通過「曠視 Brain++」打造一套端到端的算法引擎，打通從資料到部署的算法全要素、全流程生産。王珏說，他們的模型一旦訓練完之後，Brain++Engine 可以做到一鍵打包在手機上封裝，實作終端優化和加速。

「曠視 Data++」是另一個曠視自研的資料标注和管理平台。這可以節省研究員大量的時間，加速研究效率。前文提到的 Objects365 物體檢測資料集就是「曠視 Data++」提供的。

研究思路：應用導向和前沿探索雙管齊下

此次曠視入選 CVPR 的 14 篇論文，涉及了行人重識别、場景文字檢測、全景分割、圖像超分辨率、語義分割、時空檢測等技術方向。除了應用導向的工作以外，也探索了一些前沿學術問題。

孫劍是這樣總結的，「我們研究的的問題分兩類: 直接和産品相關的技術問題，間接和産品相關的基礎問題。」

「前者因為有「曠視 Brain++」這個系統，可以很高效的将研發出來的技術或者算法模型直接應該到産品上去。」

「後者的關鍵在于兩方面。一方面是選題，既不能搞短期的小修小補，也不能搞漫無邊際的發散式研究，這是個認識和判斷問題；另一方面是選題後的堅持和變通。基礎研究的一個很大特性是成功的可預測性低，這就要求既要我們堅持大方向，也要懂得适時的變通，修正目标或路線，這其實是個平衡問題。」

曠視目前的業務主線分為三塊：以手機為核心的個人裝置大腦場景，以城市傳感器為核心的城市大腦場景，以及包含智能制造、智能物流、智能零售的供應鍊大腦場景。

以曠視研究院物體檢測組為例，此次入選 CVPR 的 4 篇論文主要來自個人裝置大腦和城市大腦的場景需求，将産品中遇到的問題抽象出一些概念和細節，當成研究問題去解決。

比如，來自曠視研究院檢測組的論文《Shape Robust Text Detection with Progressive Scale Expansion Network》提出了一種新穎的漸進式尺度可拓展網絡 PSENet 模型，針對場景文字檢測中任意形狀文本問題。

曠視的文字檢測技術有很多應用落腳點，比如車牌檢測、證件照檢測。這篇論文主要讨論了場景文本檢測領域的兩個挑戰：其一，邊界框在定位任意形狀的文字時的性能很差，精度很低；其二，對于場景中兩個彼此接近、互相幹擾的文本，現有技術可能會産生誤檢。論文提出的 PSENet 模型能夠為每個文本執行個體生成不同比例的核 (kernel)，并将最小比例的 kernel 逐漸擴充生成完整形狀比例的 kernel，以适應不同大小的文本執行個體。

PSENet 模型的 pipeline

另一篇來自檢測組的論文《TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection》，在時空動作檢測研究領域針對時間次元問題提出了網絡——TACNet（上下文轉換感覺網絡），可以改善時空動作檢測性能。這篇論文的應用落腳點是動作行為檢測，針對城市管理領域的産品設計。以老人的意外摔倒為例，一個月可能都沒有發生一次意外，用人工檢測視訊裡的摔倒行為成本很高，但是算法可以有效地檢測動作行為。

這篇論文的主要貢獻是定義真實行為和非真實行為的邊界。TACNet（上下文轉換感覺網絡）可以将類似于真實行為的模糊狀态樣本定義為「轉換狀态 (transitional states)」，簡單來說是将視訊不重要的部分弱化，而将注意力放在真正産生動作行為上。

轉換狀态是藍框，活動狀态是綠框，黃框是 ground truth。

同時，曠視也在放眼未來做長期的預演。國内計算機視覺公司競争進入白熱化，頭部公司之間的在已有技術上的差距并不明顯，要形成差異，必須着眼于計算機視覺的未來，提前築起技術優勢壁壘。

曠視入選此次 CVPR 的論文中，關于 3D 點雲結構的研究和圖像超分辨率研究屬于前沿探索。以物體檢測為例，盡管目前大部分的計算機視覺工作都是圍繞 2D，但 2D 檢測本身存在天花闆。其網絡結構主要是一個金字塔形狀，圖像越卷積下去越小，特征圖譜丢失的資訊越多，對檢測的最終結果有很大的影響。

除了調整 2D 網絡結構做優化之外，曠視認為研究 3D 檢測，與 2D 資訊形成互補是一個趨勢。點雲所提供的形狀資訊對物體檢測和定位帶來有效的幫助，和 2D 資訊的紋理顔色等特征互補。

在論文《Modeling Local Geometric Structure of 3D Point Clouds using Geo-CNN》中，曠視提出了 Geo-CNN 模型，将深度卷積神經網絡應用于 3D 點雲資料局部區域中點的幾何結構模組化。

圖像超分辨率的論文《Zoom in with Meta-SR: A Magnification-Arbitrary Network for Super-Resolution》來自曠視研究院基礎模型組，負責人張祥雨說，這篇研究背後的思路是基于權重預測，這是他個人非常看好的一個研究方向。他們提出了一種稱為 Meta-SR 的新方法，具體來說，Meta-SR 可以通過将任意縮放因子作為輸入來動态地預測每個 upscale 濾波器的權重，并使用這些權重來生成其他任意大小的高分辨率圖像 (HR)。

基礎模型組在曠視研究院内負責公司中長期的研究項目，着重在前沿探索，包括權重預測、自動化機器學習（AutoML）、邊界框标注都是張祥雨的關注重點。

結語：曠視的技術信仰

這是曠視第五次參加 CVPR 了。過去，中國公司參加學術會議更多是為了刷存在感，互相之間比拼論文數量非要争個高低。但在今年 CVPR 上，記者能看到這家創業公司身上成長的痕迹：

論文課題和産品落地之間有更緊密的聯系。寫論文的目的不是為了刷學術業績，而是将科研結果轉化成産品競争力。通過學術會議獲得同行認可，并最終帶來實際的商業價值。

曠視研究院算法總監範浩強告訴機器之心，「曠視始終相信，要堅持産品導向，為産品找技術，用學界标杆作為産品定義的牽引。」

成長是一個過程，曠視經曆過起步的艱辛，也走過不少彎路。俞剛曾經回憶，過去檢測組的成員都隻能複現前沿的論文，他一直鼓勵研究員不要去抄代碼，自己去摸索論文細節來複現。經過幾年的積累，團隊開始主攻算法的自主研發，赢了幾個挑戰賽後，團隊也找到了方向和信心。

王珏對夜攝項目落地的感觸特别深，加入曠視之前，王珏是 Adobe 的首席科學家，在計算機視覺計算機圖形學和人機互動有着卓越的學術貢獻。在曠視，王珏的目标是為開拓新的市場和業務線，提供強有力的技術支援，這需要王珏去适應角色的轉變，從一個研究者到一個項目管理者。

「你怎麼才能把研究做成一件可以預測的事情，工程追求的一種可控性，研究充滿了不确定性。在這兩者之間實際上是有沖突的。經過這個項目，我們現在就很從容，整個團隊得到鍛煉，我們也知道怎麼和客戶打交道。」

「我始終相信兩點：中國不缺乏聰明人，中國有世界上最好的發展機會，」孫劍補充道。「我們就是要把一幫聰明人聚起來，齊心協力，貫徹『發展就是硬道理』。」

今年的 CVPR 已經落下帷幕，但曠視的故事還将繼續。

本文為機器之心原創，轉載請聯系本公衆号獲得授權。

CVPR 2019 | 奪取6項冠軍的曠視如何築起算法壁壘

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希