天天看點

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

摘要:為大家介紹華為雲媒體處理服務在視訊AI轉碼領域的一些技術實踐。

随着5G的落地和消費終端的不斷更新,消費環節對視訊畫質的要求也越來越高,為了給消費者帶來更清晰、更逼真和更具沉浸感的觀感體驗,對雲端視訊處理技術也提出了更高的要求。在2022 LiveVideoStack線上公開課中,華為雲媒體處理服務研發負責人查勇,結合華為雲在超高清視訊轉碼領域的實踐經驗,詳細介紹了雲上使用AI技術提升視訊視聽體驗的關鍵技術,以及如何助力行業實作音視訊體驗更新。

01/超高清視訊行業發展的趨勢

在大視訊時代,随着5G、AI以及雲技術的發展,超高清視訊行業迎來了一個高速發展期。我們可以看到,在生産端,4K/8K超高清制播平台正在加快建設中,超高清電視的制播模式也在不斷創新,目前超高清内容的生産能力得到了極大提升。在消費端,随着晶片技術的發展,4K/8K電視和沉浸式終端的逐漸普及,消費端體驗超高清内容的媒介也在不斷豐富。

在傳輸環節,5G高帶寬、低延遲時間的特點,使得超高清内容更容易擷取,互動性場景的體驗也越來越好。在處理環節,借助雲端的強大算力和AI技術,我們可以實作超高清内容的極緻壓縮和畫質增強,在提升播放體驗的同時,可以極大地降低分發和制作的成本。另外借助邊緣雲計算的技術和能力也可以進一步地降低超高清視訊的制作和分發成本。

在應用場景上,我們可以看到超高清視訊也逐漸地在向直播、VR、多視角、自由視角等領域發展,應用範圍正在逐漸擴充。

總的來說,超高清視訊行業的基礎設施正在逐漸完善,應用場景也在逐漸走向成熟。

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

大家都知道一個産業的快速發展,是和生态建設的成熟度息息相關的。下面我們一起看一下超高清視訊産業在标準生态建設以及政策方面的情況。

首先在組織層面,中國已經成立了超高清産業聯盟。在标準方面,超高清視訊産業發展的白皮書和與之關聯的軟硬體諸多協定也都相繼出台,這些都進一步促進了超高清視訊産業的健康有序發展。在政策方面,14省市釋出了超高清視訊産業發展的行動計劃,為超高清産業消費體驗更新,行業創新提供指導意見。

在生态和政策的雙重驅動下,目前多地已經啟動了超高清項目實驗基地,如成都的超高清基地、青島高清視訊基地、廣州花果山基地以及馬欄山内容基地等,超高清産業實作進一步向縱深發展。

根據權威機構預測,2022年中國超高清視訊産業總值将達到4萬億元,超高清使用者總數也将達到2億。我們可以看到,目前4K/8K電視已經成為電視機廠商的旗艦标配,消費者對視訊畫質的關注度也越來越高,HDR、高幀率、寬色域、高色深,這些名額都成為終端性能的一個新賣點。

另外随着晶片技術的發展,沉浸式終端的種類也越來越多,消費者越來越追求高逼真、更加接近現實的視訊體驗,我們正面臨一個視訊消費體驗更新的時代。

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

超高清行業的高速發展以及消費體驗的更新,為雲端視訊處理也帶來了更多的機會點:一是目前超高清内容的供給跟不上硬體發展的速度,為了讓市場上非超高清視訊内容帶來超高清的體驗,我們可以使用雲端視訊處理的技術來解決;二是視訊在采集、制作和壓縮環節都會引入噪聲或者失真,我們可以借助雲端視訊處理的能力來降低引入專業裝置和人工處理的成本。

但很多時候機遇與挑戰是并存的,通過雲端視訊處理來提升音視訊體驗,也面臨着幾方面的挑戰:一方面,市場上存量的視訊内容,例如老舊影片和電視劇,局限于當時的采集裝置和制作技術,畫質是參差不齊的,涉及畫質修複的種類和場景非常多;另一方面,影響視訊體驗的客觀名額非常多,例如低分辨率、噪聲、模糊、低幀率、色彩灰暗、暗亮斑等等,目前無法使用單一技術來完成所有場景的體驗提升,這對技術的積累要求非常高。

02/雲轉碼打造視訊超高清體驗的關鍵技術點

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

那麼雲端視訊處理需要具備哪些關鍵技術點來提升視訊的畫質呢?要具備超高清視訊的體驗,從一些低品質視訊的表現出發我們可以總結出影響體驗的一些關鍵特征,比如低分辨率、噪聲、模糊、劃痕、閃爍、低幀率、色彩灰暗等等。對應的我們在雲端轉碼的系統,就可以針對這些低質視訊的特征,使用相應的技術來改善低質視訊的畫質,主要技術包括超分、降噪、修複、插幀、SDR2HDR。

2.1 超分算法

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

首先來看一下超分,也叫空間分辨率增強。超分本質上是指在機關空間内生成更多的像素,增大像素的密度,來增強圖像細節,提高視訊的清晰度。

在深度學習網絡應用于超分之前,提升分辨率大多使用傳統的插值算法。如比較常用的雙線性插值,雙三次插值,lanczos插值等算法,我們在轉碼系統中經常會用到這些算法做下采樣。如上圖(左)是一個雙三次插值的示例,該算法利用的是待采樣點周圍16個點的灰階值做三次內插補點,再通過選取适當的插值基函數來拟合資料。

從算法的描述上我們能看出,傳統的插值算法一般是要預定義一個插值基函數,也叫映射函數,考慮到計算量,我們的映射函數一般不會太複雜,是以傳統算法在這種場景的泛化能力是比較差的。另外因為大多是幀内插值,我們插入的值與前後幀是無時間關聯性的,與鄰近像素點空間關聯性也相對較少,是以效果一般不會太好。

目前要追求超分的效果,大家越來越傾向于選擇基于深度學習的超分算法。如圖(右)是一個簡單的超分網絡 — SRCNN,大家都很熟悉這個網絡模型。随着SRCNN的出現,我們真正地進入到了深度學習的超分時代,基本上每年都有一些新的研究方向出現,超分神經網絡也變得越來越強大。相比于傳統的超分算法,基于神經網絡的超分映射函數是多層非線性且可以學習的,插入的值在時間和空間次元能夠關聯更多的周邊像素,細節上的展現更加精确,在超高清領域應用也越來越廣泛。

2.2 視訊插幀

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

除了空間分辨率會影響畫質,時間分辨率也就是幀率對人的主觀體驗影響也很大。我們知道現在終端裝置更新換代的速度很快,支援的分辨率從480p、720p到1080p,再到現在的4K和8K。同樣的,終端支援的幀率也從25fps到60fps再到120fps甚至更高,高重新整理率現在也是終端的一個重要賣點。

除了依賴采集的硬體來提高幀率,目前使用軟體的方法也逐漸得到應用。大家都體驗過, 在一些劇烈的運動場景下,低幀率會帶來明顯的卡頓感,影響人的視覺感受。視訊插幀算法,就是在原始的視訊幀之間合成不存在的幀來提高畫面的流暢度,簡單來說就是提高幀率。基于插幀算法的研究非常多,例如傳統的基于光流的插幀算法。

傳統算法有什麼缺點呢,現實畫面中存在一些大的物體快速運動或者遮擋的場景,基于傳統的光流插幀難以解決這種場景帶來的問題,是以插幀的品質在這些場景無法得到改善。想要提升效果的話,我們就回歸到了基于AI的思路上面。

目前AI插幀的思路方法一般都是預訓練生成光流估計模型,算法實作上首先輸入兩幀,計算幀間的光流和提取特征金字塔,然後把warpping之後的圖、特征金字塔和原始圖像一起送入圖像合成網絡,生成插幀之後的圖像。目前這個方向上相關的論文也非常多,大家感興趣的可以去研究一下。

2.3 視訊降噪技術

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

接下來我們看一下視訊降噪技術,大家應該都體驗過視訊中的噪聲,我們經常看的一些老片中的雪花噪聲和閃爍噪聲是很明顯的,給人帶來的畫質體驗是非常差的。我們知道在視訊采集到送顯的一個完整的周期内,涉及到的各個階段都會引入不同種類的噪聲,最終都會回報到消費環節的播放體驗中。正因為噪聲引入的來源是多樣且廣泛的,是以視訊降噪是非常必要的。

通過降噪技術,我們可以在保持原始資訊完整性的同時,又能夠去除無用的一些資訊。目前各種圖像降噪算法非常多,比如基于空域像素特征去噪和變換域去噪的傳統降噪算法。傳統的降噪算法在降噪的同時往往會丢失圖像的一些細節或者邊緣資訊,而且一般來說我們需要設定降噪參數,效果受參數的影響也比較大,是以在通用場景上難以廣泛應用。

另一個快速發展的方向是基于神經網絡的自适應降噪算法,算法可以根據輸入圖像噪聲的級别,自适應地調節降噪的強度,圖像的細節或邊緣資訊損失也會相對較小,能夠最大程度的保留原始資訊。

基于神經網絡的自适應降噪算法,同樣也有自身的缺點。比如由于訓練的素材有限,場景無法全覆寫,一些場景會超出網絡的學習能力,當然這也是采用深度學習算法遇到的普遍問題。因為噪聲來源的場景會更廣泛,是以對算法的考驗也更大。

2.4 視訊修複技術

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

視訊修複分為狹義的修複和廣義的修複,狹義的修複是指針對視訊中存在的一些問題,比如劃痕、暗亮斑、閃爍等問題的針對性修複。廣義的修複是在修複視訊瑕疵的同時,對原視訊做一些增強。廣義的修複應用範圍會更廣一些,主要應用在老舊影片、老舊電視劇、一些低質的UGC視訊等。

在AI智能修複老片技術出現以前,經典老片修複通常是由人工逐幀修複的,效率低,許多大片修複的時間以年為機關。如果使用AI的智能修複技術架構,就可以基于海量的樣本去訓練和自動學習,可以大幅的提升老片修複的品質和效率。人工無法做到的修複效果,借助目前的AI技術都可以輕松完成。

盡管目前可以使用AI技術修複老片,但修複經典老片仍然不是一件容易的事情,最大的難度是在保留老片的藝術風格和美感的同時還要處理不同的問題和瑕疵。

2.5 SDR2HDR

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

另外一個關鍵技術點,我們看一下近幾年發展較快的一項技術,SDR 2HDR 。HDR由于其相比SDR具有更高的亮度範圍、更廣的色彩範圍和更深的位深而被大家所熟知,對應帶來的是視訊具有更豐富的細節,更寬廣的色域和更自然的色彩過渡。我們可以看到上圖中SDR和HDR的對比,在亮度、色彩飽和度以及對比度上,能明顯地感受到HDR的圖檔帶來的視覺效果更好一些。另外,目前HDR領域也出現了不同的标準,從圖表中可以看到這些标準在不同次元的差異。

03/華為雲在視訊AI轉碼領域的技術實踐

下面我們一起來看一下,在超高清視訊時代,華為雲是如何使用AI技術來提升視訊畫質并改善播放體驗的。

針對視訊體驗提升,華為雲推出了智享超清技術,它是一套完整的視訊增強和修複的解決方案,主要的技術包括我們上文提到的超分、倍幀,SDR2HDR、HDRVivid、2D轉3D以及畫質修複等。華為雲智享超清技術是完全基于華為自研AI算法,采用多任務AI增強方式,通過智能修複和智能增強技術來打造視訊的超高清體驗,能夠更好地服務直播、點播和互動文娛等場景。

3.1 華為雲智享超清技術總體架構

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

上圖是華為雲智享超清技術的總體架構:基于AI Deep Learning的一個多任務畫質增強。前面講到單一任務是很難解決畫質的所有問題的,我們綜合分析後采用了圖中的pipeline架構,每一個增強子產品相當于一個算法插件,可以自由組合,使用起來也相對靈活。在處理之前我們會做一些基本的預分析,比如說噪聲強度分析、畫面亮度分析、ROI區域檢測等等,這些分析結果會用于指導後續子產品的智能化處理。

從圖中可以看出,畫質增強的整體解決方案主要包括:基礎層的修複,時域、空域的清晰度增強,亮度和顔色增強,3D增強等。在實際的進行中也可以做一些選擇性的修複,選擇性修複主要包括去劃痕、去亮斑、去閃爍等。在算法設計上我們會更強調自适應能力,也就是在面對不同場景的畫質損失時,視訊增強技術在盲修複時要有很強的泛化能力。

在實際應用過程中,這些子產品并不都是順序處理的,因為這樣時間花費很大,為了提高效率,我們也會将多個視訊增強的任務進行聯合優化處理。

3.2 面向混合失真的AI畫質修複

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

衆所周知,真實的視訊源會包含多種混合失真,比如說噪聲、壓縮失真、模糊等等,并且這些失真程度會差異很大。如果僅考慮分辨率因素,假設我們對一個視訊進行超分,超分之後可能反而會引起瑕疵的放大,難以帶來顯著的視覺效果改善。

華為雲智享超清技術通過建構多任務的混合失真修複網絡,來實作更優的主觀效果。我們使用了很多的步驟來模拟失真的視訊,通過多種途徑建構生成更多用于畫質修複的樣本,比如加上高斯噪聲,随機加上一些運動模糊,加上一些彩色噪聲,降采樣來降低分辨率,壓縮時使用很高的壓縮率來産生壓縮噪聲等。建構了這樣的一種資料集之後,我們通過混合失真的多任務視訊增強算法,自适應地去估計各種失真,這樣就可以增強算法對不同品質視訊的泛化能力。

當然這裡也會面臨許多挑戰,比如在失真估計子產品中如何估計噪聲強度,因為不同圖像的噪聲不同,同一圖像的不同區域噪聲也不同。我們提出了AI自适應的降噪算法,對圖檔不同區域主觀視覺的噪聲差異進行評估。首先會對噪聲明顯區域進行精準的定位,然後綜合考慮時域和空域的噪聲強度差異,進行不同區域的噪聲強度估計。

還有一個很大的挑戰就是噪聲的模拟,上面提到的方法模拟出的噪聲與真實噪聲還是有差異的。我們使用了AI網絡例如CycleGAN來模拟真實的噪聲,這樣訓練後我們就可以在畫面自然度和清晰度等次元實作一個更優的主觀效果。

3.3 基于語義特征的視訊超分

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

我們再來看一下華為基于語義特征的視訊超分技術。對于畫質的空間分辨率增強,我們提出了基于語義特征的視訊超分,即先根據語義對圖像進行分割,然後分區域進行處理,最後再對增強後的結果進行融合。例如針對大部分電影、電視劇中人眼關注較強的一些區域,像字幕、人臉、紋理等,基于人眼主觀的特點,使用單獨的算法子產品對這些關注區域進行重點處理,確定人眼關注區域可以達到比較好的增強效果,從多個局部最優解獲得全局最優解。

這種基于語義特征的視訊超分,一般可以獲得比盲超分更好的增強效果,因為它們具有較強的先驗,比如字幕增強,字幕和每個字大概是什麼樣子是确定的;人臉增強,人臉都包含眼睛、嘴、鼻子、耳朵。我們可以收集很多字幕、紋理的資料庫,有了這種先驗,增強的效果會得到很大的提升。

3.4 基于耦合光流網絡的視訊插幀

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

大家應該都有過這種體驗,普通20fps或者30fps的視訊在手機上看很流暢,一旦放到大屏上,運動被放大,卡頓就會比較明顯,是以我們需要對時域進行增強,提高視訊的幀率。

針對視訊插幀的任務,華為雲提出了一種耦合光流網絡模型,這種光流網絡模型可以準确地估計出前後兩幀之間的光流,在一些困難的場景,比如說小物體快速運動、遮擋等場景,光流估計都比較準确。如圖是一個例子,左邊是目前比較先進的視訊插幀算法RIFE估計的光流,右邊是華為雲自研算法估計的光流。大家可以不關注這些顔色代表的含義,僅從形狀上來看,可以看出右邊的光流模型估計出的光流會更細膩一些,細節會更豐富一些。

3.5 基于場景自适應的SDR2HDR技術

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

大家都清楚從SDR到HDR轉換的時候會面臨許多挑戰,比如亮場景和暗場景,我們要使用不同的方案來實作場景的自适應,實作最佳的亮度動态擴充;再比如說SDR中的綠色在轉換成HDR時,有時會出現綠色失真的問題;人臉的顔色可能因為背景色導緻轉換後偏紅,這種情況需要做到色彩擴充的場景自适應,在擴充色彩時控制色偏;再比如有些噪聲或者失真,在轉換成HDR時被放大了,或者更容易被感覺到了,這種情況下,我們就應該控制亮度提升導緻的噪聲和失真。

華為雲SDR2HDR的方案是基于AI技術來實作場景自适應的轉換,舉個例子:對于一個待處理的原視訊,首先會進行一個場景識别,分類出比如人臉、風景等類别,進行場景分類後,就可以實作自适應場景的亮度擴充和自适應場景的色彩擴充,對轉制過程中各場景的Tone Mapping算法進行優化,來抑制8比特擴充到10比特後出現的失真。

在實際應用時,我們會對大量轉換後的視訊進行主觀評測,會針對不同場景轉換後視訊出現的一些問題做針對性調優,這樣做之後,算法目前在影視劇和電視劇場景都有非常好的效果。

3.6 基于CUVA HDR标準的場景自适應SDR2HDR技術

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

上面我們提到的華為雲SDR2HDR技術轉換的是HDR10,前面的介紹中也列舉了HDR技術的不同标準。華為公司作為主要貢獻方深度參與了CUVA HDR技術标準的制定。HDR10采用的是靜态的色調映射,會有顯示裝置相容性的問題,比如原場景的亮度是1000nit,大于顯示屏500nit的最大亮度值,使用靜态的映射曲線映射後,視訊在500nit顯示屏上顯示時就容易出現過曝的問題,很多細節就消失了。

華為雲目前基于CUVA HDR标準的 SDR2HDR技術采用的是動态中繼資料方案,會适應不同的亮度螢幕來達到最佳的顯示效果,能夠確定同一内容在不同亮度屏上實作最優的體驗,避免産生色彩變暗、過曝等問題。我們前面提到的場景自适應技術同樣也适用在CUVA HDR轉換中,這種多技術結合的方案,能夠帶來更好的裝置相容性和場景适應性。

04/總結

華為雲媒體査勇:華為雲在視訊AI轉碼領域的技術實踐

繼續閱讀