天天看點

5G 和雲原生時代的技術下半場,視訊化是最大最新的确定性5G+雲原生,給業務帶來什麼變化最典型場景:視訊讓延時再低些音視訊傳輸延遲引入分析超高清是未來,但還有很多技術側問題要解決

5G 和雲原生時代的技術下半場,視訊化是最大最新的确定性5G+雲原生,給業務帶來什麼變化最典型場景:視訊讓延時再低些音視訊傳輸延遲引入分析超高清是未來,但還有很多技術側問題要解決

作者 | 畢玄

來源 |

阿裡巴巴雲原生公衆号
導讀:随着 5G/ 晶片 / 區塊鍊等等新技術的不斷成熟、雲計算的普及和雲原生時代帶來的諸多便捷,開發者和架構師們眼前的挑戰也不再隻是 0-1 的建設問題,技術如何更多地帶來業務價值成為了一個值得讨論的話題。阿裡巴巴集團研究員,阿裡雲智能視訊雲業務負責人林昊(花名畢玄),在 QCon 全球軟體開發大會上曾發表了主題演講《5G 和雲原生時代的技術下半場》,以 5G 典型場景音視訊為例,探讨相關技術和技術人的下半場,以下内容為演講整理。
5G 和雲原生時代的技術下半場,視訊化是最大最新的确定性5G+雲原生,給業務帶來什麼變化最典型場景:視訊讓延時再低些音視訊傳輸延遲引入分析超高清是未來,但還有很多技術側問題要解決

很多人可能聽過,比如阿裡巴巴集團董事局主席逍遙子在很多場合都會講到,現在世界最大的确定性的變化是數字化,意思是未來大的變化多數是“數字化的加速進行”。而在數字化的趨勢中,我們看到“視訊化”有着更大的确定性。

5G+雲原生,給業務帶來什麼變化

5G 跟業務系統關聯性最大的兩部分是延時更低、帶寬更寬。

現在的主流網絡比如 4G,延時大概在 10ms~100ms,它的延時範圍還是比較大。而 5G 通常來講延時會降到 1~10ms,它的目标是 10ms。那麼,當延時變得越來越低、帶寬變得更寬的時候,業務上我們會看到什麼樣的變化?

5G 和雲原生時代的技術下半場,視訊化是最大最新的确定性5G+雲原生,給業務帶來什麼變化最典型場景:視訊讓延時再低些音視訊傳輸延遲引入分析超高清是未來,但還有很多技術側問題要解決

上圖主要顯示的是當帶寬變得更大、延時變得更低的時候,會有哪些典型的案例。比如現在特别火的話題——雲遊戲。遊戲對延時要求是特别高的,像賽車類、競技類等,4G 網絡本身已經不可能讓延時再低,但在 5G 場景如果延時壓到 50ms 以下,很多業務就有可能變成現實。

是以從 5G 的業務層面,我們關注的是,什麼業務需要更大的帶寬,什麼業務需要更低的延時。

說到雲原生,它确實是現在特别火的一個話題。在去年的雙 11,我們說最大的變化是所有的核心系統都上雲,而今年雙 11 我們對外講的是所有核心系統開始雲原生化。

但我們也說,每個人心目的雲原生可能都不一樣,誰都不知道什麼叫雲原生。

對阿裡來講,我們為什麼非常激進地推進雲原生?我以前是負責阿裡整個核心系統上雲的架構師,我覺得整個業務的演進過程,最重要的是所有的業務開始從基于一個封閉自主的技術體系走向一個開放的技術體系,這便是雲原生帶來最重要的變化。

雲原生以後,整個社會建造業務系統的自有體系會越來越開放、越來越公共化。這對很多業務創新來講,是有很大幫助的。因為以前很多東西得自己做,但現在很多東西可能可以基于一個相對比較成熟的技術去做。就像阿裡看到有一些業務在雲原生化以後,對我們整個業務創新的速度、業務疊代的速度産生非常大的幫助。

最典型場景:視訊

像前面說到,5G 帶來低延時和大帶寬,雲原生帶來的是走向一個開放公共的自由體系。那 5G + 雲原生以後,最典型的場景到底是什麼?什麼樣的場景對 5G 和雲原生有特别大的訴求?

從目前來看,我們非常确定的是視訊。因為疫情原因,今年視訊好像突然就成為了整個行業特别火的業務創新以及技術創新領域。但其實視訊技術已經發展很多年了,隻是今年看起來再度爆發。

我想很多人有這樣一些感受:以前多數業務系統裡面其實是沒有視訊的,但現在大多數業務系統,都開始或多或少地引入視訊。短視訊、直播以及音視訊通信是目前最火的幾個場景。

我們認為從場景層面來講,視訊是非常典型的 5G+ 雲原生的場景,原因是:所有做視訊業務的,不管是直播業務、短視訊業務、還是音視訊通話業務,關注的第一要點就是體驗。

做視訊最重要的是體驗,比如看直播是不是足夠流暢、畫面的清晰度怎麼樣,短視訊亦然,音視訊通話就更加是了——比如大家開視訊會議最關注的是能不能聽清楚對方在說什麼,另外是畫面夠不夠流暢。

是以一旦做這個業務以後,第一要關心的話題是體驗,而視訊業務的體驗要做得好,面臨的第一個問題就是視訊能不能很好地分發到離各個使用者比較近的一個點。

說實話,多數中小型創業公司甚至很大規模的公司都很難解決這個問題。通常來講,為了把整個體驗做得非常好,多數業務上來就需要依賴背後一張巨大的網絡,而這個網絡通常隻有雲廠商公司會提供,因為其他公司要建構這張網絡是需要非常大的投入。

是以,從體驗上來講,視訊是非常典型的、會更多地考慮到應該去使用雲原生的服務,而不是自己從頭建構。

除了體驗,視訊業務開始做之後面臨的第二個比較大的問題是成本。視訊跟很多業務不一樣,這些業務規模如果沒有上來,付出的代價也許不是太大,可能隻是做幾台計算資源的機器、一點存儲、一點資料庫。當然,如果是做大資料和 AI,相對投入就更大一些。

但是,一做視訊就會在帶寬上面臨非常大的挑戰,因為帶寬“上來就是錢”。除了帶寬以外,視訊稍微做大一點,還會面臨存儲成本,因為要存下來,而視訊的檔案顯然比以前所有的東西都大。

有了存儲以後,視訊還會面臨計算消耗的問題,因為可能要對視訊做一些處理,比如做一些編解碼或其他東西,導緻計算資源整體會有比較大的消耗。是以整體來看,視訊除了解決體驗問題以外,還會面臨巨大的成本消耗的問題。而為了解決成本問題,可能會産生各種問題。是以我們可以看到,對于很多團隊來講,基于視訊的雲原生服務是一個相對來講比較好的選擇。

講下我自己的另外一個感受,我覺得視訊業務是需要在基礎技術領域投入非常大的技術領域。比如要讓視訊在分發的過程中、播放的過程中将帶寬控制得更好,我們可能要去解決的問題是怎麼讓多數使用者看到的視訊畫面品質不怎麼改變的情況下,怎麼把帶寬成本降下去,控制碼率。對很多公司來講這是非常重要的,因為在大多數公司的業務中,少數視訊占了最多的帶寬費用,但又不能把少量視訊的品質降下去。因為品質如果降下去,會影響使用者體驗。

5G 和雲原生時代的技術下半場,視訊化是最大最新的确定性5G+雲原生,給業務帶來什麼變化最典型場景:視訊讓延時再低些音視訊傳輸延遲引入分析超高清是未來,但還有很多技術側問題要解決

為了解決這個問題,我們可能需要投入大量的人員去做編解碼優化。當然開源也是有的,開源的品質也不差,但如果想在開源基礎上做得更好,這個投入就非常大了。

另外大家可能也聽過,在看一段視訊的時候,視訊内容其實是直接決定了哪些地方是需要非常清晰、哪些地方相對來講是不那麼重要的,這可能就要結合 AI 做視訊内容的了解,然後做動态的編碼優化,基于你感興趣的點去做優化,背後可能涉及各種各樣的團隊,編解碼的團隊、AI 的團隊、算法的團隊,是以為了一點點的提升,背後可能有非常大的投入。

讓延時再低些

延時變得更低到底能來什麼好處,簡單給大家舉幾個例子。

第一個是線上教育。最早的時候線上教育是錄播的,老師提前錄完視訊然後再放出來,其他人再點開看。但對很多客戶來講,比如對家長來說這是不太能接受的,因為跟老師不能有很好的互動。後來線上教育就更希望能讓老師跟學生之間有更強的實時互動,而不是錄播的毫無互動。

為了做到互動,最關鍵的是延時。傳統直播技術通常大概延時在 5 秒左右。當然,像電視直播等延時會相對長一點,但那是因為其他的要求,技術層面大概都在 5 秒範圍,這是受協定限制的結果。而線上教育是希望把延時降到幾百毫秒,這樣音視訊互動才能更好地進行。

第二個是電商,這方面阿裡有非常強的感受。阿裡最早做開始手淘直播的時候,也是采用比較傳統的技術,場景上面臨的最大問題是:主播上來告訴大家,“我要開始賣一個東西了”,然後他要上連結,還要做消息互動。但這時候有可能會出現的是:主播說話與使用者觀衆發消息的兩個過程是有延時的,但消息的延時跟視訊的延時又可能不一樣,消息可能在 1 秒,視訊可能在 5、6 秒。

這時候就會出現消息跟視訊不在同一個畫面的問題——主播可能都已經切到下一場,而買家還在跟他交流上一場的問題。

是以在手淘場景裡,我們不斷跟手淘團隊一起盡可能把延時往下推進。比如在今年雙 11 裡,手淘大量采用了低延時直播,大概把直播的延時降到 1 秒左右,控制在 1 秒範圍内之後,我們可以看到它對整個 GMV 的轉化有很大的幫助,因為主播跟觀衆之間有了更強的互動關系。

在所有直播體系裡我們都看到了對于延時的訴求,現在直播都希望走向強互動直播,而不希望是原來那種比較單向的行為,因為觀衆也希望有更強的互動。

最後一個是大家疫情期間感受最為強烈的場景,視訊會議。現在視訊會議的延時在技術上能夠做到幾百毫秒,是以現在大家普遍能開視訊會議。雖然以前是電話會議多一些,但現在很顯然視訊會議的比率在上升。畢竟任何人的交流都更加希望能看到人,而不純粹隻是電話傳遞的聲音。

舉另外一個例子,很多公司的面試到決定性或者很關鍵的一輪時,都會把候選人邀請到本地,然後面對面地完成這輪面試。這是因為覺得在僅通過電話面試、看不到人的情況下,很多東西是難以判斷的,需要見到本人。但是有了視訊會議以後,一些面試就可以無需把人邀請到現場進行。

是以延時技術在視訊領域的作用是非常明顯的,從幾秒到幾百毫秒催進了非常多視訊場景的創新。

但對視訊來講,這依然不夠。比如視訊會議,之前一個學術機構的研究報告顯示,其實像視訊會議這樣存在幾百毫秒延時的場景,對比人跟人的當面交流,還是存在很大差別。

大家開視訊會議應該都有這樣的感受:在視訊會議的場景下,仍然會出現搶話情況,你說了一句話,可能還沒有說完對面就已經搶話,這是一定會出現的,因為人跟人當面交流的延時并沒有幾百毫秒。

在視訊場景裡,我們是有非常強的動力去思考怎麼把延時往下推得更低,讓大家有更真實的體驗,包括現在很多公司做很多東西都是為了讓大家在遠端會議上,可以有跟當面交流比較接近的體驗。對我們來講,延時如果能夠越來越低,是一個非常好的事情,可以在這基礎上做更多業務層面的創新。

音視訊傳輸延遲引入分析

音視訊整體技術可能跟系統層面技術有一些差别,我們來看一下延時。比如直播,音視訊中比較典型的場景,你拿一個手機開始拍,這是采集的過程,把一個視訊影像留下來,去采集,然後編碼,多數可能是在端上去做。這個延時,現在大概在 60ms 左右的範圍。

采集完之後會把這個流(比如直播、攝像流)直接推到遠端,多數是雲端或者自己伺服器端。在雲端之後,通常還會做一些處理,比如直播通常要做内容稽核,内容需要過一遍稽核處理,有些稍微複雜點的直播可能還要做其他事情,比如加 logo,做一些鏡頭的剪輯和鏡頭的切換。

如果有多個攝像頭機位,還會涉及到直播的時候選用哪個機位的問題。另外是分發,怎麼把伺服器端推到很多的點。然後是把用戶端流拉到本地,拉完以後開始解碼和播放。

5G 和雲原生時代的技術下半場,視訊化是最大最新的确定性5G+雲原生,給業務帶來什麼變化最典型場景:視訊讓延時再低些音視訊傳輸延遲引入分析超高清是未來,但還有很多技術側問題要解決

從整個時間耗時看,以前是 3-5 秒的延遲,主體時間多數耗在拉流那一端,這是協定決定的。RTMP 是比較标準的協定。現在業界比較流行的低延遲直播,是把直播延遲從 3 秒推到 1 秒,推到 1 秒以後,我們給它的名詞都叫低延遲直播,相比以前更低延時一點。

大家看上圖中的整體優化,更多是把協定層開始做替換,現在多數公司的低延時直播都會基于 RTC 協定,就是 Google 開源的 webRTC 協定去做。可以看到,當基于 RTC 推流、RTP 分發,前面協定層都在替換,差不多可以把拉流這端開始壓到 1 秒以内。現在阿裡手淘的直播,整體延時在 1~1.2 秒範圍,1~1.2 秒在消息類互動場景已經足夠了。主播跟觀衆如果是用消息互動,發一條消息或者打賞什麼的,大家都不會有太長的延時感覺。可以看到,這種場景下,我們可以通過協定替換把整個延時往下拉低。

但也可以看到,其實還有很多延時是整個網絡造成的。如果是網絡造成的,現在其實是沒有太多很好的解決方案,就非常地難。而标準的 RTC 可以做到 200-300ms 的時間,就是這樣一個狀況。

這三種延時,除了技術層面的差别以外,另外的層面是當采用這些技術以後,整體的成本是有很大變化的。當你延時要做得越來越低的時候,其實成本是會上升非常多的。像 RTC 相比傳統直播延時,有可能成本大概是在 7 倍以上。像低延時直播,現在各家公司在不斷努力盡可能讓這兩者成本開始接近。

5G 和雲原生時代的技術下半場,視訊化是最大最新的确定性5G+雲原生,給業務帶來什麼變化最典型場景:視訊讓延時再低些音視訊傳輸延遲引入分析超高清是未來,但還有很多技術側問題要解決

為了很好地控制延時,推流最重要的是協定的替換。因為協定替換以後,從 TCP 到 UDP 以後,很多東西需要自己來做了。

各視訊廠商關注的最重要的名額是抗丢包,多數公司追求當丢包在 50%、60%、70% 的時候,在不同場景去滿足訴求。比如視訊會議如果隻是為了開會,最大的訴求其實是在音頻端——音頻清晰度和流暢度,而畫面如果有一點卡頓,我們勉強還能接受。當然,如果那個視訊會議是講 PPT,那就不能接受了,那優先級可能變成視訊的清晰度。是以,不同場景需要有各種各樣不同的政策。

比如大家如果去看直播場景和視訊會議類型的場景,它面臨最大的不同是什麼呢?直播場景的話,比如我是主播,其實隻要攝像頭跟我、以及我跟伺服器的鍊路整體沒有太大問題,基本上觀衆之間互相是沒什麼影響,這個觀衆看的時候會卡,另外一個觀衆有可能是不卡的,因為觀衆之間沒有什麼影響。但如果是視訊會議類型的場景就完全不一樣了,比如現在有十個人在開會,這十個人裡任何一個人,出現卡了或者視訊、音頻不大正常,就會影響整場會的效率。

在這樣的場景裡,為了要保證延時,同時又要保證流暢度的時候,抗丢包層面需要做非常多的事情,包括綜合的政策。

我們去看很多音視訊公司,它們很大的競争力在于對端的适配能力。因為每個端的狀況不大一樣,比如有人用蘋果,有人用安卓,尤其是安卓,安卓手機有無數種,每種手機的音頻能力、視訊能力有很大差别,還有大家所處的網絡環境,比如現在連了 Wi-Fi,走動的時候可能 Wi-Fi 點會切換,還有可能從 Wi-Fi 切到 4G,這裡面網絡點怎麼去處理也是非常關鍵的。

是以當整體延時越來越往下探的時候,它的技術門檻在不斷地升高,我們怎麼樣做好卡頓的控制,是各家公司去做這類型業務上面臨的最大的一個問題。

這裡主要講的關鍵技術,一是推流,二是分發,三是整個拉流層面為了控制延時做的一些事情。推流主要是協定層面和抗丢包,分發層面主要是背後整張網絡的分發。

很多公司做視訊業務,通常有幾種方法,一是直接基于雲廠商的 CDN 建構整張音視訊網絡,還有一種是基于邊緣計算節點建構一張自己的音視訊網絡,但這都是有一個問題要解決的。不管用什麼方案,都有這樣一個問題解決:這麼多的節點要怎麼更好地排程?這涉及到非常複雜的排程問題,因為每個節點的帶寬能力、計算資源能力可能不一樣,怎麼根據使用者的情況去做整張網絡的排程。

超高清是未來,但還有很多技術側問題要解決

帶寬層面,從目前來看,大家都在想 5G 帶寬變大了以後,到底找誰把帶寬用起來,總得有人把帶寬用起來。就像 4G,其實是視訊用起來的,短視訊把 4G 視訊帶寬撐起來。現在網際網路一大部分流量,主體都是視訊構成的。5G 時代也是一樣,我們為什麼需要更大的帶寬消耗,肯定要從業務側看到很大的變化。

5G 和雲原生時代的技術下半場,視訊化是最大最新的确定性5G+雲原生,給業務帶來什麼變化最典型場景:視訊讓延時再低些音視訊傳輸延遲引入分析超高清是未來,但還有很多技術側問題要解決

圖中可能是大家經常看到的一些清晰度,我們現在多數場景裡能看到的 720p 視訊、1080 4K 和 8K。8K 其實很少看到,因為 8K 對螢幕要求非常高,基本要很大的屏才能展現 8K 的效果。

阿裡曾經在幾年前冬奧會的時候做過一個 demo,叫 5G+8K 看冬奧會的滑雪現場,它的運動感非常強,是以是非常明顯的。而現在特别火爆的 VR/AR 是需要更高的清晰度,現在很多 VR 還是 4K,是以導緻我們會覺得顆粒感很強,但當 VR 結合 8K 的時候,就會覺得顆粒感的問題好了很多,畫面比較接近真實。

隻有更大的帶寬,我們才可能把清晰度更往前推進。關于清晰度,以前有人說,你去問很多人,他都會覺得現在的東西已經夠清晰了,不需要更清晰。但當你給了他一個更清晰的東西的時候,他會發現他需要更清晰的。最典型的是,蘋果推視網膜屏,當視網膜屏推出以後,大家就有了更好的體驗。

現在短視訊廠商也在不斷推進 4K。很多人以前都覺得短視訊沒必要那麼清楚,因為手機螢幕太小了,還不至于能看出 4K 的差别。

但從業界發展看,我們覺得這個趨勢還是比較明顯的,整體朝更清晰化發展,它肯定是有訴求的。而為什麼現在進展比較慢?有很多原因,第一個是當清晰度要往前推進的時候,不光是後面播放側的問題,還有很大的問題是制作側。當然,現在很多錄影機可能是 4K,但是拍了以後怎麼把 4K 視訊做剪輯、處理,其實是非常複雜的,更不要說帶寬消耗。帶寬除了能不能放出來以外,還有一個問題是每放一次背後全部是帶寬消耗,這個帶寬消耗全是成本。

我們覺得超清是一個很好的發展方向,但怎麼解決在超清的發展過程中面臨的很多問題,是技術側都需要關注的。

5G 和雲原生時代的技術下半場,視訊化是最大最新的确定性5G+雲原生,給業務帶來什麼變化最典型場景:視訊讓延時再低些音視訊傳輸延遲引入分析超高清是未來,但還有很多技術側問題要解決

超高清技術裡面涉及到很多東西,簡單講就是從視訊輸入開始,就是拍一段視訊,然後到一段視訊最後被使用者看到的時候,到底我們要做些什麼。

大家可能聽到過一些詞,比如上圖裡的“超分”。簡單來說,就是手機拍出一段 2K 視訊,怎麼把它超分成 4K 的視訊,讓你看到一個類似 4K 的效果,這樣做是為了制作端的成本問題,因為很多制作端都不具備制作超高清的能力。

另外,大家可能聽過窄帶高清等技術,其實是為了解決給你一段高清視訊,但怎麼來控制整個帶寬成本的問題。如果做高清業務,成本是非常重要的。長視訊就非常典型,多數長視訊會提供非常多種清晰度的選擇,多數公司會提供越來越清晰化和越來越好的體驗,就像優酷自己,我們會提供幀享的東西去讓大家能看到更好的不同的體驗。

還有很多場景的問題,比如拍不同場景,航拍和運動類的視訊對清晰度的要求是比較高的,尤其是運動類的視訊就非常明顯。阿裡優酷做世界杯播放的時候,能明顯地感受到,如果清晰度不夠,很多時候可能連球在哪兒都不一定能看到,遠景的時候是比較難的。在那段時間,大家在不斷研究怎麼能讓這個畫面變得更加清晰。

是以我覺得,對于很多公司來講超高清技術是需要往前演進,需要解決從制作到分發、處理到播放整個鍊條的問題。帶寬是基礎,隻有帶寬越來越大的時候,這個東西才有可能變成現實。

因為我現在跟視訊接觸得比較多,從這 5G 和雲原生這兩個命題講,我目前看到視訊是結合最緊密的技術。

5G 帶來的更多是低延時和大帶寬。我們需要思考的是,當延時越來越低的時候,有可能帶來什麼新的業務創新,創新模式到底有什麼改變。延時越來越低,在視訊場景我們看到會帶來越來越多業務上的變化,很多業務跟以前完全不一樣了。

因為視訊的成熟,在疫情期間很多事情開始轉向,以前必須線下的可以轉向線上業務。當整個社會技術在進步的時候,所有業務系統側都要去思考,視訊隻是相對來講可能更明顯一點。另外是帶寬,有什麼業務對帶寬的消耗越來越大。

舉另外一個例子,計算資源的消耗。最早多數計算資源是用來做線上業務系統,比如交易系統等等,消耗了大量的機器。但是後來我們看到很典型的變化是大資料,大資料變成了更主力的計算資源的消耗,再後來是 AI。

其實場景都在不斷變化,在所有業務場景裡應該去思考延時越來越低會帶來什麼,然後帶寬的變化會帶來什麼,最後是基于雲更快速做業務創新的機會到底在哪裡,因為雲原生更重要的是,我怎麼更好地、更快速地完成整個業務的疊代和創新以及嘗試,可能對所有做系統結構、做系統架構技術的人來說,這是需要慢慢結合自己的業務去思考的一個話題。 

如上文所講,5G 和雲原生時代的技術下半場,視訊化是最新最大的确定性,從圖文到視訊,視訊雲促成了内容的視訊化,從線下到線上,視訊雲變革了資訊的互動方式。

2021,我們開啟全球首個聚焦視訊雲技術的業界頂級賽事——“新内容新互動”全球視訊雲創新挑戰賽,大賽由阿裡雲聯手英特爾主辦,與優酷戰略技術合作,面向全球開發者征集參賽。

5G 和雲原生時代的技術下半場,視訊化是最大最新的确定性5G+雲原生,給業務帶來什麼變化最典型場景:視訊讓延時再低些音視訊傳輸延遲引入分析超高清是未來,但還有很多技術側問題要解決

繼續閱讀