还记得Meta的“分割一切模型”吗?这个去年4月发布的模型,在传统计算机视觉任务中掀起了巨大波澜。时隔一年多,Meta在SIGGRAPH大会上重磅推出了Segment Anything Model 2(SAM 2),不仅开源,还带来了诸多革命性进展。
SAM 2不仅在图像分割上有卓越表现,更首次拓展到了视频分割领域。它能够实时处理任意长度的视频,即使是未曾见过的对象也能轻松分割和追踪。这一模型的架构采用了创新的流式内存设计,使其能够按顺序处理视频帧,特别适合实时应用。
与前代相比,SAM 2的图像分割准确率进一步提升,同时在视频分割性能上也超越了现有工作,所需的交互时间缩短至原来的1/3。Meta表示,这项进步表明了整个行业在计算效率上的巨大提升,即使在没有数据中心的情况下也能运行。
Meta此次开源的数据集规模庞大,包含约51,000个真实世界视频和超过600,000个时空掩码(masklets),视频数量比现有最大的数据集多4.5倍,注释数量多53倍。这个数据集SA-V在CC BY 4.0许可下发布,可以用于商业性质的修改或分发。
SAM 2同样遵循Apache 2.0许可协议,代码和模型权重已经开源,并根据BSD-3许可分享评估代码。
Meta还提供了一个在线试玩的Web demo,任何人都可以体验这个实时、交互式的视频分割功能。
SAM 2的构建历程
SAM 2的开发旨在实现对图像和视频的通用分割。相较于静态图像,视频中对象的运动、变形和遮挡等挑战更大。
Meta将图像视为单帧视频,以此统一处理图像和视频输入。
在开发过程中,Meta设计了一个新的任务,即可提示的视觉分割任务。SAM 2 可以在视频的任意帧中通过输入提示定义目标对象的时空掩码(masklet),并实时生成分割结果。通过这种方法,SAM 2 可以在视频中准确跟踪对象。
为了支持这一功能,Meta创建了全新的SA-V数据集,规模是现有最大视频分割数据集的数倍。这个数据集帮助Meta训练SAM 2,实现了在视频分割上的最先进性能。Meta的方法不仅提升了分割的准确性,还使得对象选择和分割更加便捷。
SAM 2的独特之处在于其对视频对象分割的支持。模型能接收点、框或掩码作为输入提示,然后生成目标对象的分割结果。通过输入更多提示,分割结果可以进一步精细化,直到达到预期效果。
图像与视频分割的统一架构
SAM 2的架构从图像分割扩展到视频分割。用户可以通过点击、边界框或掩码来提示模型识别目标对象。SAM 2的轻量级掩码解码器接收当前帧的图像嵌入和编码提示,输出该帧的分割掩码。
在视频分割中,SAM 2会将该帧的分割结果传播到整个视频,生成时空掩码(masklet)。若有进一步提示,模型能更新其预测。为此,SAM 2引入了记忆机制,包括记忆编码器、记忆库和记忆注意模块。
记忆编码器基于当前的分割预测创建帧的记忆,并存储在记忆库中。每个新处理的帧,SAM 2使用记忆注意模块关注目标对象的过去记忆,生成嵌入并用于掩码解码器。这样,模型能实时处理任意长度的视频。
此外,SAM 2还具备应对视频分割中的歧义能力。例如,若用户点击自行车的轮胎,模型会输出多个分割结果,以应对轮胎或整辆车的分割需求。当物体暂时被遮挡时,SAM 2的遮挡头会预测目标对象是否在当前帧可见,从而有效处理遮挡问题。
SA-V:构建最大的视频分割数据集
为了扩展“分割一切”的能力至视频领域,Meta建立了SA-V数据集,克服了现有数据集缺乏多样性和注释不足的挑战。现有的数据集通常仅覆盖完整对象,缺乏对对象部件的注释。
SA-V数据集的构建过程采用了互动模型闭环的方式。人类注释员使用 SAM 2进行视频中的 masklet 注释,生成的数据又用于更新 SAM 2。这个循环过程极大提高了模型和数据集的质量。
使用SAM 2的注释速度是原来的8.4倍,这比单独使用SAM或结合现成的跟踪器更快。最终,SA-V数据集包含超过51,000个视频和超过600,000个masklet注释。
SA-V数据集的特点包括:覆盖全球47个国家的地理多样性视频,注释范围包括完整对象、对象部件及复杂场景,例如对象被遮挡、消失或重新出现的情况。
卓越表现与测试结果
SAM 2相比前代在视频对象分割中表现卓越。在初始化时,SAM 2能准确跟踪对象部位,而基线模型则容易过度分割,如将人的头部包含在内。
通过将图像视为单帧视频,Meta联合训练了SAM 2,用于图像和视频分割。使用的数据集包括去年发布的SA-1B图像数据集、SA-V数据集以及内部授权的视频数据集。
在17个零样本视频数据集上,SAM 2显著超越了先前的方法,所需的人机交互次数减少三倍。
在23个数据集的零样本基准测试中,SAM 2表现优于SAM,速度快六倍。
在DAVIS、MOSE、LVOS和YouTube-VOS等现有视频对象分割基准中,SAM 2的表现优于之前的最先进模型。此外,SAM 2的推理速度接近实时,约为每秒44帧。
在视频分割注释时,SAM 2 的效率比逐帧手动注释快8.4倍。此外,为确保公平性,Meta评估了模型在不同人口群体中的表现,结果显示在性别和年龄组之间表现差异较小。
SAM 2的局限性
尽管SAM 2在图像和短视频分割上表现出色,但在复杂场景中仍有提升空间。对于剧烈视角变化、长时间遮挡或拥挤场景,模型有时会失去目标对象。
在处理长视频时,SAM 2有时会混淆相似的对象,如在拥挤场景中。针对这些情况,用户可以通过在任意帧中点击修正目标对象,从而恢复准确的分割。
对于同时分割多个对象,SAM 2的效率显著下降。模型缺乏对象间的通信,仅使用共享的每帧嵌入来处理。这一限制影响了分割效率和精度。
对于快速移动的复杂对象,SAM 2可能错过细节,导致预测不稳定。通过增加更多的提示可以部分解决这一问题,但无法完全消除帧间的抖动。这表明模型的时间平滑性有待改进。
未来应用
SAM 2不仅限于现有的应用,还可以作为更大AI系统的一部分,未来可用于增强现实眼镜识别日常物品,为用户提供提示和指导。
Meta 鼓励 AI 社区下载模型、使用数据集,并尝试演示,推动通用视频和图像分割的发展。期待社区创造出新的洞察和有用的体验。
如果你觉得这篇文章对你有所帮助,欢迎点赞、收藏以及转发分享。同时,请关注我,以获取更多关于人工智能的最新资讯和见解!
参考