快手科技李岩：多模态技術在産業界的應用與未來展望

快手

+2 AI影響因子

活動

企業：快手

操作：主題演講

事項：

雷鋒網(公衆号：雷鋒網) AI 科技評論按：在 CNCC2018「高通量媒體内容了解論壇」上，快手科技多媒體内容了解部負責人李岩發表了題為「多模态内容生産與了解」的演講，講述了帶領多媒體内容了解部在多模态研究上取得的一些進展。

李岩在演講中表示，多模态技術有兩大應用方向，一是會改變人機互動的方式，二是将使資訊分發更加高效；視訊本身就是一個多模态的問題，而快手則擁有海量的多模态資料，多模态的研究對于快手來說是非常重要的課題；目前快手已經在語音識别與合成、智能視訊配樂、通過 2D 圖像驅動 3D 模組化特效、視訊精準了解等領域對多模态技術進行研發應用。

以下為演講的主要内容：

大家好，首先我來簡單介紹一下快手，在這個平台，使用者能夠被廣闊的世界看到，也能夠看到廣闊的世界，我們可以看一下快手的資料： 70 億條視訊總量、1500 萬日新增視訊，日均的使用時長超過 60 分鐘等，是以快手平台上有非常多的多媒體資料，同時也有非常多的使用者互動資料，比如我們每天有 1.3 億使用者觀看超過 150 億次視訊的播放資料。

我們知道視訊是視覺、聽覺、文本多種模态綜合的資訊形式，而使用者的行為也是另外一種模态的資料，是以視訊本身就是一個多模态的問題，再加上使用者行為就更是一種更加複雜的多模态問題。是以多模态的研究對于快手來說，是非常重要的課題。

多模态技術兩大應用方向：人機互動與資訊分發

我認為多模态技術會有兩大主要的應用。

第一，多模态技術會改變人機互動的方式，我們與機器互動的方式将會越來越貼近于更令人舒适、更自然的方式。

第二，多模态技術會使得資訊的分發更加高效。

多模态技術研究的三個難點：語義鴻溝、異構鴻溝、資料缺失

其實在目前來看，多模态研究難度還是非常高的。

其中大家談得比較多的是語義鴻溝，雖然近十年來深度學習和大算力、大資料快速發展，計算機視覺包括語音識别等技術都取得了非常大的進展，但是截至現在，很多問題還沒有得到特别好的解決，是以單模态的語義鴻溝仍然是存在的。

再者，由于引入了多種模态的資訊，是以怎樣對不同模态之間的資料進行綜合模組化，會是一個異構鴻溝的問題。

另外，做語音、做圖像是有很多資料集的，大家可以利用這些資料集進行刷分、交流自己算法的研究成果。但是多模态的資料集是非常難以建構的，是以我們在做多模态研究時是存在資料缺失的問題的。

下面我會分享我們在多模态這個方面所做的事情，以及這些技術是怎麼樣幫助快手平台獲得更好的使用者體驗和回報的。

多模态技術如何實作更好的記錄

首先，多模态技術将實作更好的記錄。随着智能手機的出現，每個人都可以用手機上攝像頭去記錄周圍的世界，用麥克風去存儲周圍的音頻資訊；而在以前，生成視訊，尤其生成一些比較專業的視訊，都是導演幹的事情。但現在，我們通過手機就能夠做到，這裡面會有非常多的多模态技術研究來輔助人們更好地記錄。

我們希望整個記錄過程是更加便捷、個性化、有趣，同時也是普惠的，具體我将分别通過四個案例分享。

1、語音轉文字打造便捷字幕生成體驗

一個視訊裡，音頻部分對于整個視訊的資訊傳遞是非常重要的。網上有很多帶有大量字幕的、以講述為主的視訊，這樣的視訊制作其實是一件很麻煩的事情，因為一個一個去輸入文字是很痛苦的，像過去在廣電系統專業工作室就需要很多用于字幕編輯的工具軟體。而如果我們通過語音識别技術，把語音直接轉成文字，就可以很輕松地通過手機編輯生成一個帶字幕視訊。

2、語音合成實作個性化配音

另外一個技術叫做個性化配音，假如在一個視訊中，你不喜歡聽男性配音，而希望聽到由一位女士配音，我們就可以通過語音合成技術滿足個性化的訴求。

語音識别及合成技術都會使我們記錄的過程變得更加便捷、有趣，但這兩個技術在做視覺或者多媒體的圈子裡面關注度不是特别高，隻是偶爾會在做語音的圈子裡去聊這些問題。包括在語音圈子裡面，語音識别和合成現在往往是兩波人在做。

随着深度學習技術的出現，語音識别和合成這兩個問題其實在某種程度上是非常對稱的，因為語音識别是從語音到文字，語音合成是從文字到語音。語音識别的時候，我們提取一些聲學的特征，經過編碼器或者 Attention 的機制，實作從語音到文字的轉化；語音合成的技術和算法，其實也涉及編碼器或者 Attention 的機制，二者形成了比較對稱的網絡。是以我們把語音識别和合成看成是一個模态轉換的特例，從神經網絡模組化角度來看，是一個比較一緻、容易解決的問題。

具體神經網絡在設計的時候，雖然二者内容機制其實還是有一些不同，但更大的趨勢是這裡面将來會有更多的趨同，因為我們知道随着相關算法的發展，計算一定是朝着一個更加簡化，更加統一的方向發展。就像深度學習的出現，其實就是通過計算的方式取代了手工來擷取有效的特征。多模态的轉換領域裡面也出現了這樣的特點，這是一件非常有意思的事情。

3、根據視訊内容自動生成音樂

音樂也是短視訊非常重要的一部分，有錄視訊經驗的同學可以感受到，為一個場景配合适的音樂是一個很難的事情。過去，有不少使用者為了與音樂節拍一緻，努力配合音樂節奏拍攝，極大限制了拍攝的自由度。我們希望使用者可以随意按照自己想要的節奏錄制，是以讓機器通過使用者拍攝的視訊内容，自動生成符合視訊節奏的音樂，這樣視訊畫面與音樂節奏就會更比對、更一緻。

音樂生成涉及很多具體的技術，我們也做了非常多的研究，其中一個問題是懂音樂的不懂計算機科學，懂計算機科學的人不懂音樂。想要把短視訊配樂這個問題研究好，需要要有做音樂和做 AI 的人一起內建創新，這方面我們也做了非常多的工作。

4、2D 圖像驅動 3D 模組化實作 Animoji 效果

通過蘋果的釋出會，大家應該都了解 Animoji 這項技術，iphoneX 有一個标志性的功能，就是通過結構光攝像頭實作 Animoji，現在國内手機廠商也越來越多地采用結構光的方式去實作 Animoj。而快手是國内較早實作不使用結構光，隻用 RGB 圖像資訊就實作 Animoji 效果的企業。

使用者不必去花上萬元去買 iphoneX，隻要用一個千元的安卓手機，就可在快手的産品上體驗 Animoji 的特效，進而能夠在不暴露臉部資訊的同時展現細微的表情變化，例如微笑、單隻眼睛睜單隻眼睛閉等，讓原來一些羞于表演自己才藝的人，也可以非常自如地表達。我們覺得做技術有一個非常快樂的事情，就是讓原來少數人才能用的技術，變得更普惠。

其實解決這樣一個問題是非常難的，因為即使是像蘋果這樣的公司，也是采用了結構光這樣配置額外硬體的方式來解決。想讓每一個使用者都能享受到最尖端的技術，快手面臨着硬體的限制，隻能通過 2D 的 RGB 視覺資訊對問題進行模組化、求解，這裡面包括了像 Landmark 人臉關鍵點檢測、實時重建人臉三維模型等技術，把 2D 和 3D 兩種不同模态的資訊做模組化、做對齊。

我們也能看到現在市場上可能有一些小型的 APP 在做類似的事情，但體驗很差，而我們的整體體驗還是非常好非常流暢的，這也需要歸功于深度神經網絡模型的量化，通過壓縮和加速解決手機性能問題，可适配任意機型。

多模态技術如何實作精準了解視訊内容

剛才我講的是我們多模态技術怎樣去幫助使用者更好地記錄，我們同時也希望通過一個更好的分享機制，讓使用者釋出的視訊能夠被更多感興趣的人看到。這也涉及視訊推薦裡面多模态的一些問題。

對視訊内容的了解其實是非常難的，這個裡面我做了兩個比較有意思的事情。

第一，我們強調音頻和視覺的多模态綜合的模組化，而不是僅僅是單獨的視覺或者音頻，視覺和聽覺兩種媒體的融合，會是未來一個非常重要的事情。

第二，在工業界做的事情和在學術界做的事情有很大不同，我們有非常多的使用者資料，這些使用者資料是不在傳統多媒體内容研究範疇裡面的，但是工業界可以很好地利用這些資料，更好地做内容了解。

給大家舉個例子，一個男子表演口技的視訊中，如果關閉聲音，僅憑畫面資訊，我們并不知道他是在做什麼，可能會覺得是在唱歌或唱戲。這說明如果僅僅是通過視覺的話，你可能無法獲得真實的資訊。我們對世界的了解一定是多模态的了解，而不僅僅是視覺的了解。

像這樣的視訊在快手資料庫中有 70 億，想要了解這麼多的視訊内容，必須借助多模态技術。是以我們在這方面也做了非常多的工作，從文本、視覺、聽覺角度去做了很多單模态的模組化，包括多模态的綜合模組化、有序與無序，以及多模态特征之間怎樣進行異構的建聯，在很多任務内部的分類上也做了改進。

第二點需要強調的是，像 ImageNET 等很多的學術界研究内容了解的任務有非常好的标注資料集，但是這個資料集對于工業界來說還是太小，且多樣性不夠。我們平台每天有 1.3 億多使用者以及超過 150 億次的視訊播放，這個資料是非常大的。如果有 150 億的标注資料，做算法就會有很大的幫助，但是現實上是不具備的。

那怎樣将研究分析技術與海量資料更好地做到兩者的融合呢？我們通過融合行為資料和内容資料，進行綜合模組化，同樣大小的人工标注量，利用海量的使用者行為資料，能夠獲得比純内容模型更好的性能，對視訊有了一個更好的了解，進而在多媒體内容的了解和分析方面的算法研究有了非常大的進展，這就使我們在工業界和傳統學術界做這個事情時會更有優勢。

未來多模态研究的熱點：特征表達與特征對齊

總結一下，多模态内容解決的問題裡面涉及一些模态的轉化，比如怎樣通過 2D 圖像驅動 3D，怎樣通過語音生成文本或者通過文本生成語音，怎樣通過視覺驅動音樂。另外一個應用是我們怎樣通過融合更多資訊來驅動内容的了解，其實都是一個多模态的問題。在學術界有很多研究還是停留在單模态，但我個人認為未來多模态會成為更有價值的研究方向。

多模态研究會有兩個難點或者說熱點：

第一是多模态的特征表達，也就是在多模态研究架構下怎樣設計單模态的特征，這是一個非常重要的問題。

第二是多模态特征之間如何對齊，也就是有沒有更好的算法對視覺、聽覺和行為的部分進行統一的模組化，這是未來的一個熱點。

幾個總結

第一，多模态未來會持續帶來更新的人機互動方式，比如我們剛才講的 Animoji 技術，其實它帶來的是一種可以通過人臉控制手機自動生成 Avatar（虛拟動畫）的體驗。原來實作這些效果，需要在好萊塢專門設一個特效室來實作這一點，而現在普通使用者都能享受這樣的技術，是以人機互動會由原來重的、貴的、笨的方式轉變為便宜的、每個人都能參與的而且便捷的方式。

第二，我認為多模态技術會帶來新的内容形态，原來接入資訊更多是從文本、頁面中獲得，現在有視訊，未來可能還會有 AR 或者其它的形式。我覺得多模态 AR 很重要的一點就是強調沉浸感，這種沉浸感其實是通過聽覺和視覺綜合作用才能産生的。

第三，我認為多模态亟需新的算法和大型的資料，因為這兩者可能會是一個某種意義上可以互相折算的問題。以目前的機器學習算法來講，需要海量的資料才能解決好這個問題，因為現在深度學習、内容了解的成果，某種意義上是監督學習的成果，有足夠的樣本、算力，是以現在的算法能力基本上還停留在對算力和資料有着非常大要求的階段。而多模态的大型資料是非常難建的，而且多模态解的空間是更大的。因為一個模态解的空間是 n，另外一個是 m，它最後是一個乘積、一個指數級的變化，是以資料集要多大才足夠是一個很難的這個問題，可能需要新的算法來對這個問題進行模組化。

快手科技李岩：多模态技術在産業界的應用與未來展望

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Android電視機（機頂盒）初次開發的一些經驗分享

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希