天天看点

衡量QoE和视频质量的最新ITU-T标准

本文来自Streaming Learning Center的博客,作者是H.264,H.265和VP9编码实时和按需制作的领先专家Jan Ozer,本文主题是“衡量QoE和视频质量的最新ITU-T标准”。

01

PART

介绍

尽管基于标准的视频编解码器(例如H.264和HEVC)占据主导地位,但基于标准的视频质量指标并没有达到同等的使用率或关注度。随着ITU-T提出的两个创新且高度准确的指标,这种情况可能会在短期内改变。这两个模型分别是:

ITU-T Rec. P.1203,该指标同时考虑视频质量和QoS(例如延迟和卡顿)两个因素,用于计算HTTP自适应流(HAS)会话的质量。这是同类中的第一个标准化指标。

ITU-T Rec. P.1204,该指标用于计算H.264,H.265和VP9视频文件的质量,可以提供优于VMAF的准确度。标准里的1204.3是基于码流的无参考模型,这意味着不需要源文件与编码文件进行比较,因此可以在分发系统中的任何位置计算该指标。

本文首先简要介绍建立这些标准的各方组织,之后讨论各个标准的不同之处,它们是如何工作的以及各自的准确性。

参与组织

国际电信联盟电信标准化部门(ITU-T)协调电信和信息通信技术标准。在制定与质量相关的标准时,ITU-T经常与视频质量专家组(VQEG)进行配合,该独立组通过电子邮件或面对面会议为视频质量评估专家提供论坛,以交流信息并为共同的目标而努力。

ITU-T第12研究组第14号课题独立于VQEG制定标准,主要致力于研究基于码流的参量视频质量模型,这些模型不需要访问任何视频信号或参考视频,因此可以更轻量化的直接应用在网络环境中或客户端设备。

最后,TU Ilmenau视听技术小组也积极参与到第14号课题中视频质量模型的标准化研究。TU Ilmenau也是本文所述两个标准参考软件的来源。

基于码流的度量标准

大部分质量指标(如PSNR,SSIM,VMAF和SSIMPLUS)都是全参考指标,这意味着它们会将编码文件与源视频进行比较来计算分数,不仅耗时而且只能将度量标准应用到源文件可用的地方。

衡量QoE和视频质量的最新ITU-T标准

图 1:不同指标在分发系统中的部署位置

相反,此处提出的ITU-T标准主要使用基于码流的度量标准来分析码流,实际上并未解码文件或将其与源文件进行比较。这是来自TU Ilmenau报告的关于它们在P.1204.3研究的摘要:该模型本身对从视频码流中提取的特征进行操作,并且将用于衡量视频质量的经典方法与机器学习相结合,以提高其预测准确性。首先解析码流并提取相关的量化参数,运动矢量,帧大小等特征,然后P.1204.3模型将这些特征集成到每个视频序列的最终MOS分。

与全参考指标相比,基于码流的指标CPU开销要低得多,并且可以部署在分发系统中的任何位置(图1显示了不同指标的部署位置,并标识了其他类型的指标)。当然,关于质量指标最重要的方面是准确性,更具体地说是预测人类主观评分的准确性。我们将在两种模型中再次讨论。

02

PART

ITU-T Rec.P.1203

让我们仔细看看P.1203。如前所述,ITU-T Rec. P.1203预测了HTTP自适应流(HAS)的体验质量(QoE)。它由一个主要标准和三个子标准组成:

  • ITU-T P.1203:在可靠传输上基于参数化码流的渐进式下载和自适应视听流媒体服务的质量评估
  • ITU-T P.1203.1:视频质量评估模块(短期,提供每秒输出信息)
  • ITU-T P.1203.2:音频质量评估模块(短期,提供每秒输出信息)
  • ITU-T P.1203.3:视听整合和最终分数整合,反映了在30秒至5分钟之间与记忆相关的质量

像许多其他质量模型一样,P.1203以平均意见分数(MOS)的形式输出质量,范围为1-5,其中1表示质量低,5表示质量高。

图2显示了该模型的工作流程。音频和视频模块使用从解析码流中获得的信息,并将MOS数据传递到第三个模块,该模块将引入初始加载延迟,卡顿和其他分发相关的数据,并输出最终分数。请注意,此分数还考虑了不同的观看设备对于整个MOS分数的影响,因此与在更具区别性的TV上观看的视频流相比,传送到移动端的同一视频流的得分可能更高。

衡量QoE和视频质量的最新ITU-T标准

图 2:P.1203工作流程

对于长度达到5分钟,分辨率达到1080p HD,帧率达到30 fps的视频序列,都可以计算其P.1203。视频必须使用H.264编解码器编码,支持各种音频编解码器(包括AAC)。对于其他视频编解码器,可以使用TU Ilmenau开发的扩展。

在操作上可以实时或在会话结束后运行P.1203模型。无论是实时测量还是流会话后的计算,都需要至少访问用于传输的编解码器,码率,帧率和分辨率,以及客户端发生的任何缓冲。可以从服务器或DASH/HLS清单产生的片段中收集与视频/音频相关的数据,并且缓冲通常由播放器本身记录。

P.1203运行模式

在考虑P.1203的准确性之前,需要先了解视频质量评估模块P.1203.1提供的四种运行模式,具体取决于视听流中的可用信息和可用的计算资源,如图3所示。

衡量QoE和视频质量的最新ITU-T标准

图 3:评估视频质量的不同模式

P.1203最简单的运行模式(模式0)包含编解码器,码率,分辨率和fps。除了模式0的数据外,模式1还可检查传输流的数据包头以获得帧大小和类型。模式2和3可以访问码流本身,其中模式2仅访问2%的流以减少计算量。模式0可以与HAS清单中可用的信息一起使用,因为这些信息包括编码阶梯中每个梯级所需的信息。模式3可以与传输流中可用的信息一起使用,这些信息可以在流传输之前(在源或CDN上),传输期间(通过部署在网络本身中的探测器)或在客户端设备提取。所有模型还需要与播放器相关的数据,例如加载延迟,卡顿和质量切换。

P.1203准确性

要评估视频质量指标的准确性,可以从观看者那里收集主观平均意见分数(MOS),运行该指标并比较MOS分。皮尔逊线性相关系数(PLCC)是一种数值度量,它测量连续变量对之间的线性关系的强度和方向。分数范围介于+1和-1之间,越接近+1表示相关性越高。

根据ITU-T官方文件,P.1203根据所使用的模式提供0.81至0.89的PLCC。显然,这意味着所有模式都具有很强的相关性。准确性的直观表示如图4所示,顶部的四个图显示了移动测试的性能,而底部的四个图显示了计算机测试的性能。所有图在垂直方向上表示客观预测值,在水平线上表示主观MOS分。当然,没有度量标准是100%准确的,每个序列代表的预测点越接近实线,性能就越好。

衡量QoE和视频质量的最新ITU-T标准

图 4:P.1203性能

总而言之,P.1203是第一个尝试通过结合视觉质量和QoS性能来衡量QoE的指标,并且使用了可以在分发系统中的任何地方有效应用的基于码流的模型。一旦商业化,可能对所有流媒体制作者都有巨大的价值。到目前为止似乎还没有任何可用于集成该模型的商业工具。但是可从https://github.com/itu-p1203/itu-p1203/获得ITU-T P.1203的参考软件,并可免费用于研究目的。

03

PART

ITU-T Rec.P.1204

P.1204与视频质量专家组(VQEG)合作发布了三种模型:

  • ITU-T P.1204.3:基于码流的模型
  • ITU-T P.1204.4:基于像素(半参考,性能与全参考等效)
  • ITU-T P.1204.5:混合模型

本文重点介绍基于码流的模型,该模型可以适用于H.264,H.265和VP9编解码器编码,以及高达4K的分辨率,60 fps的帧率和10bit位宽的视频序列。

P.1204准确性

作为可以适用于长度超过5分钟的视频序列的全新度量标准,P.1203没有可比较的指标,很少有可用于测试的公开数据集。相比之下,P.1204.3适用于基于码流的短视频,并且可以与PSNR,VMAF和SSIM等全参考指标竞争。

TU Ilmenau 在其报告中使用公开可用的数据集AVT-VQDB-UHD1将P.1204.3与PSNR,SSIM,MS-SSIM和VMAF进行了比较。图5显示了每个指标的预测值与所有测试序列的实际主观分数的比较,其中每个点对应于数据集中的一个序列。从图中可以看出,P.1204.3对主观分数的预测最准确。P.1204.3标准的PLCC最高,达到0.942,VMAF为0.873,位居第二。

衡量QoE和视频质量的最新ITU-T标准

图 5:P.1204.3性能

P.1204.3也是基于码流的模型,这使得它可以更快地应用在分发系统内的任何位置上。与P.1203一样,目前仍没有任何商用工具可以实现此指标。可以从https://github.com/Telecommunication-Telemedia-Assessment/bitstream_mode3_p1204_3下载P.1204.3的参考软件用于非商业研究目的。

04

PART

总结

ITU-T最近发布的用于预测HTTP自适应流会话的视频质量模型,即ITU-T Rec. P.1203,将视频质量和音频质量得分集成到一个长达5分钟的视频会话的得分中,考虑了初始加载延迟和卡顿带来的影响。同时发布了适用于H.264 / HEVC或VP9编码的UHD/4K 60 fps视频序列的一组高性能模型ITU-T Rec. P.1204。

TU Ilmenau及其合作伙伴已经在标准化模型的背景下开发了几种工具,这些工具可以随时使用,并且可以免费用于研究目的。有:

  • ITU-T Rec. P.1203模型的参考实现
  • ITU-T Rec. P.1204.3码流模型的参考实现
  • 用于H.264,H.265和VP9的码流解析器

所有这些工具都可以从https://telecommunication-telemedia-assessment.github.io/bitstream_based_models/获得,包括数据集和软件的其他链接。