音視訊技術開發周刊 | 228

每周一期，縱覽音視訊技術領域的幹貨。

K歌中的歌唱評價與嗓音分析

作為國内首創的綜合評分功能，音街的綜合評分系統可對使用者的音準、節奏、氣息、顫音、滑音、情感等次元進行綜合評價，這些多元度評分在增加演唱趣味性的同時，也可為作品分發提供可用的标簽等等。本次LiveVideoStackCon 2021北京線下峰會我們邀請到了網易雲音樂進階音頻算法工程師高月潔老師，本次分享将圍繞歌唱與嗓音分析，介紹相關的體系與算法實作。

用神經網絡重新審視 VVC 的 SAO 環路濾器

Philippe 首先介紹道，在最近的視訊編解碼器中，環路後處理濾波已經成為一種至關重要的元件。它可以減少壓縮僞影，并減少與原始樣本的失真。AVC 首先引入了去塊濾波器，之後 HEVC 額外引入了 Sample Adaptive Offset 後處理濾波器，以減少振鈴效應和顔色偏差。最近釋出的 VVC 标準設計了一種自适應的環路濾波器，使用基于維那濾波器的自适應濾波系數，來最小化重建像素和原始像素之間的 MSE。

深入解析QUIC協定

QUIC(Quick UDP Internet Connection)是Google提出的一個基于UDP的傳輸協定，因其高效的傳輸效率和多路并發的能力，已經成為下一代網際網路協定HTTP/3的底層傳輸協定。除了應用于Web領域，它的優勢同樣适用于一些通用的需要低延遲、高吞吐特性的傳輸場景。本文從QUIC的由來和優勢出發，分享實際項目中需要考慮的問題和解決思路，通過測試對比QUIC和TCP的實際傳輸能力，希望有助于大家了解和實踐QUIC協定。

關于WebRTC發展的擔憂和思考

本篇為WebRTC技術專家Tsahi Levent-Levi釋出在BlogGeek.me上的文章，我們翻譯了其中部分内容釋出在LiveVideoStack的公衆号上。感謝Tsahi的授權。

我對WebRTC的主要擔心是：一場大戰蓄勢待發。一方面，谷歌雖然一直引領WebRTC的發展，但作為一家大公司，它很可能沒有從WebRTC中看到足夠的價值。另一方面，行業中的其他人對于WebRTC的主要庫libwebrtc（歸谷歌所有，由其控制和維護）正在發生的事感到沮喪不已。這就導緻了不同分支的産生——人們不斷讨論和嘗試為WebRTC這一規模宏大的項目找到更好的結構解決方案。

全 IP 制作中的現實挑戰

本次演講中，Gordon Castle 介紹了 Eurosport 技術轉型的背景、優勢以及面臨的挑戰。ETT(Eurosport Technology Transformation) 指代 Eurosport 技術轉型。ETT 旨在替換老化的基礎設施，因為它限制了改變的能力，限制了靈活性導緻難以擴充，技術不足以支援新的發展，而且營運成本不斷上升。而我們想要做的是建立一個全新的、基于 2110 的基礎設施，采用不同的技術方法允許位置和商業靈活性，降低添加新服務的技術成本，讓我們更快地進入新服務市場和消費者測試。

技術幹貨 | WebRTC 技術解析之 Android VDM

WebRTC 中的Android VDM（Video Device Manager）技術子產品，是指 WebRTC 基于 Android 系統，對視訊資料采集、編碼、解碼和渲染的管理。當你拿到一部Android 手機，通過網易雲信 SDK 進行 RTC 通信時，你是否好奇， Android 系統的 VDM 是如何實作的？WebRTC 又是如何使用 Android VDM 的？本文對 WebRTC 中 Android VDM 的實作進行了分解和梳理。

王者QQ微信都在用的動畫神器要開源了：把傳遞時間縮短90%

PAG團隊自研實作了一套輕量純GPU繪圖引擎，通過最大化利用平台端提供的所有能力，以500K左右的包體覆寫了Skia的絕大部分功能，并且在接口設計上充分暴露了針對現代GPU渲染的優化能力。是以，包體減小的同時，渲染性能的上限實際得到了進一步的提升。

另外，PAG 4.0版本基于這個全新的2D繪圖引擎，也将正式拓展對Web端的支援。據悉，目前PAG 4.0版本已經走完騰訊開源稽核流程。

使用 Amazon Voice Focus AMI 降低音頻中的噪音

Amazon Chime SDK 團隊為客戶推出了Amazon Voice Focus AMI，以幫助降低噪音并提高其音頻内容的品質。Amazon Voice Focus 是一種深度學習噪聲抑制算法，用于 Amazon Chime SDK 會議。它現在打包為 Amazon Linux 2 (AL2) Machine Image (AMI)。Amazon Voice Focus AMI 可幫助建設者、内容創作者和媒體制作人減少背景噪音（如風扇、割草機和狗叫聲）以及前景噪音（如打字和洗牌）。

https://aws.amazon.com/cn/blogs/business-productivity/using-amazon-voice-focus-ami-to-reduce-noise-in-audio/

了解直播及其工作原理

直播是指通過網際網路實時傳輸演出的音頻和視訊内容。随着實時視訊的流行，直播俨然已成為衆多企業群組織市場戰略的重要組成部分。直播可用于活動（賽事）直播、提供客戶服務以及舉行網絡研讨會等一切内容。

本篇文章将帶你探索什麼是直播、直播的工作原理以及如何将它用于你自己的企業或者組織中。讓我們一起來看一個典型的直播架構，然後為你詳細解釋轉碼、封裝、DRM、廣告插入、基于CDN的傳輸、回放以及其他組成直播管道的服務。

位元組跳動智創語音團隊釋出高保真、低延遲、高并發的AI歌唱合成技術

位元組跳動智能創作語音團隊SAMI（Speech, Audio and Music Intelligence）近日上線一項高保真、低延遲、高并發歌唱合成技術。該技術在兼顧保真度和速度上實作了一定的突破：一方面，AI模型可以模拟人類獨特的音色、技巧和情感，使得演唱效果媲美真人；同時，該模型可以提供超低延遲、高并發的歌唱合成服務，可以輕松适配C端業務場景。

谷歌推出全能扒譜AI：隻要聽一遍歌曲，鋼琴小提琴的樂譜全有了

谷歌近日推出了“多任務多音軌”音樂轉音符模型MT3。作者使用單一的通用Transformer架構T5，而且是T5“小”模型，其中包含大約6000萬個參數。該模型在編碼器和解碼器中使用了一系列标準的Transformer自注意力“塊”。為了産生輸出标記序列，該模型使用貪婪自回歸解碼：輸入一個輸入序列，将預測出下一個出現機率最高的輸出标記附加到該序列中，并重複該過程直到結束。生成的樂譜通過開源軟體FluidSynth渲染成音頻。MT3使用梅爾頻譜圖作為輸入。對于輸出，作者建構了一個受MIDI規範啟發的token詞彙，稱為“類MIDI”。

車載雷射雷達白皮書

目前，超過 100 家不同的開發公司已投入約 10 億美元，用于開發高分辨率雷射雷達（ LiDAR ）傳感器。随着多家 OEM 廠商宣布将雷射雷達解決方案納入暢銷車型，其在汽車市場中的應用也将提速。

自動駕駛中可解釋AI綜述和未來研究方向

該研究為開發自動駕駛車輛的可解釋人工智能（XAI）方法提供了全面的資訊。首先，全面概述了目前最先進的自動駕駛汽車行業在可解釋方面存在的差距。然後，展示該領域中可解釋和可解釋閱聽人的分類。第三，提出了一個端到端自動駕駛系統體系結構的架構，并論證了XAI在調試和調控此類系統中的作用。最後，作為未來的研究方向，提供自主駕駛XAI方法的實地指南，提高操作安全性和透明度，公開獲得監管機構、制造商和所有密切參與者的準許。

插圖源自Pexels