还记得Meta的“分割一切模型”吗？这个去年4月发布的模型，在传统计算机视觉任务中掀起了巨大波澜。时隔一年多，Meta在SIGGRAPH大会上重磅推出了Segment Anything Model 2（SAM 2），不仅开源，还带来了诸多革命性进展。

SAM 2不仅在图像分割上有卓越表现，更首次拓展到了视频分割领域。它能够实时处理任意长度的视频，即使是未曾见过的对象也能轻松分割和追踪。这一模型的架构采用了创新的流式内存设计，使其能够按顺序处理视频帧，特别适合实时应用。

与前代相比，SAM 2的图像分割准确率进一步提升，同时在视频分割性能上也超越了现有工作，所需的交互时间缩短至原来的1/3。Meta表示，这项进步表明了整个行业在计算效率上的巨大提升，即使在没有数据中心的情况下也能运行。

Meta此次开源的数据集规模庞大，包含约51,000个真实世界视频和超过600,000个时空掩码（masklets），视频数量比现有最大的数据集多4.5倍，注释数量多53倍。这个数据集SA-V在CC BY 4.0许可下发布，可以用于商业性质的修改或分发。

SAM 2同样遵循Apache 2.0许可协议，代码和模型权重已经开源，并根据BSD-3许可分享评估代码。

Meta还提供了一个在线试玩的Web demo，任何人都可以体验这个实时、交互式的视频分割功能。

SAM 2的构建历程

SAM 2的开发旨在实现对图像和视频的通用分割。相较于静态图像，视频中对象的运动、变形和遮挡等挑战更大。

Meta将图像视为单帧视频，以此统一处理图像和视频输入。

在开发过程中，Meta设计了一个新的任务，即可提示的视觉分割任务。SAM 2 可以在视频的任意帧中通过输入提示定义目标对象的时空掩码（masklet），并实时生成分割结果。通过这种方法，SAM 2 可以在视频中准确跟踪对象。

为了支持这一功能，Meta创建了全新的SA-V数据集，规模是现有最大视频分割数据集的数倍。这个数据集帮助Meta训练SAM 2，实现了在视频分割上的最先进性能。Meta的方法不仅提升了分割的准确性，还使得对象选择和分割更加便捷。

SAM 2的独特之处在于其对视频对象分割的支持。模型能接收点、框或掩码作为输入提示，然后生成目标对象的分割结果。通过输入更多提示，分割结果可以进一步精细化，直到达到预期效果。

图像与视频分割的统一架构

SAM 2的架构从图像分割扩展到视频分割。用户可以通过点击、边界框或掩码来提示模型识别目标对象。SAM 2的轻量级掩码解码器接收当前帧的图像嵌入和编码提示，输出该帧的分割掩码。

在视频分割中，SAM 2会将该帧的分割结果传播到整个视频，生成时空掩码（masklet）。若有进一步提示，模型能更新其预测。为此，SAM 2引入了记忆机制，包括记忆编码器、记忆库和记忆注意模块。

记忆编码器基于当前的分割预测创建帧的记忆，并存储在记忆库中。每个新处理的帧，SAM 2使用记忆注意模块关注目标对象的过去记忆，生成嵌入并用于掩码解码器。这样，模型能实时处理任意长度的视频。

此外，SAM 2还具备应对视频分割中的歧义能力。例如，若用户点击自行车的轮胎，模型会输出多个分割结果，以应对轮胎或整辆车的分割需求。当物体暂时被遮挡时，SAM 2的遮挡头会预测目标对象是否在当前帧可见，从而有效处理遮挡问题。

SA-V：构建最大的视频分割数据集

为了扩展“分割一切”的能力至视频领域，Meta建立了SA-V数据集，克服了现有数据集缺乏多样性和注释不足的挑战。现有的数据集通常仅覆盖完整对象，缺乏对对象部件的注释。

SA-V数据集的构建过程采用了互动模型闭环的方式。人类注释员使用 SAM 2进行视频中的 masklet 注释，生成的数据又用于更新 SAM 2。这个循环过程极大提高了模型和数据集的质量。

使用SAM 2的注释速度是原来的8.4倍，这比单独使用SAM或结合现成的跟踪器更快。最终，SA-V数据集包含超过51,000个视频和超过600,000个masklet注释。

SA-V数据集的特点包括：覆盖全球47个国家的地理多样性视频，注释范围包括完整对象、对象部件及复杂场景，例如对象被遮挡、消失或重新出现的情况。

卓越表现与测试结果

SAM 2相比前代在视频对象分割中表现卓越。在初始化时，SAM 2能准确跟踪对象部位，而基线模型则容易过度分割，如将人的头部包含在内。

通过将图像视为单帧视频，Meta联合训练了SAM 2，用于图像和视频分割。使用的数据集包括去年发布的SA-1B图像数据集、SA-V数据集以及内部授权的视频数据集。

在17个零样本视频数据集上，SAM 2显著超越了先前的方法，所需的人机交互次数减少三倍。

在23个数据集的零样本基准测试中，SAM 2表现优于SAM，速度快六倍。

在DAVIS、MOSE、LVOS和YouTube-VOS等现有视频对象分割基准中，SAM 2的表现优于之前的最先进模型。此外，SAM 2的推理速度接近实时，约为每秒44帧。

在视频分割注释时，SAM 2 的效率比逐帧手动注释快8.4倍。此外，为确保公平性，Meta评估了模型在不同人口群体中的表现，结果显示在性别和年龄组之间表现差异较小。

SAM 2的局限性

尽管SAM 2在图像和短视频分割上表现出色，但在复杂场景中仍有提升空间。对于剧烈视角变化、长时间遮挡或拥挤场景，模型有时会失去目标对象。

在处理长视频时，SAM 2有时会混淆相似的对象，如在拥挤场景中。针对这些情况，用户可以通过在任意帧中点击修正目标对象，从而恢复准确的分割。

对于同时分割多个对象，SAM 2的效率显著下降。模型缺乏对象间的通信，仅使用共享的每帧嵌入来处理。这一限制影响了分割效率和精度。

对于快速移动的复杂对象，SAM 2可能错过细节，导致预测不稳定。通过增加更多的提示可以部分解决这一问题，但无法完全消除帧间的抖动。这表明模型的时间平滑性有待改进。

未来应用

SAM 2不仅限于现有的应用，还可以作为更大AI系统的一部分，未来可用于增强现实眼镜识别日常物品，为用户提供提示和指导。

Meta 鼓励 AI 社区下载模型、使用数据集，并尝试演示，推动通用视频和图像分割的发展。期待社区创造出新的洞察和有用的体验。

如果你觉得这篇文章对你有所帮助，欢迎点赞、收藏以及转发分享。同时，请关注我，以获取更多关于人工智能的最新资讯和见解！

参考

从图像到视频分割，Meta推出“分割一切”2.0模型，开源代码数据

SAM 2的构建历程

图像与视频分割的统一架构

SA-V：构建最大的视频分割数据集

卓越表现与测试结果

SAM 2的局限性

未来应用

继续阅读

视频|李豫贵到团省委开展青年工作调研

终端AI分级标准落地，手机大模型“战火”烧到了智能体

J Clin Invest丨杨伟莉/李世华/李晓江团队利用猴模型揭示帕金森疾病新病理机制

大模型训练遭投毒损失千万美元？Anthropic发现LLM代码库暗藏bug

全市近千名青少年齐聚中海博，在航海、航空、建筑三大模型竞赛中一展身手

DeepMind联合MIT开发Fluid，让自回归模型实现文生图的大规模扩展

近日菲律宾一中国人被同胞清空弹夹监控视频曝光!

AI周报 | 字节跳动大模型训练被“投毒”；微软将终止中国个人Azure OpenAI服务

Tesla澄清Optimus并非背后有人操控发布最新展示视频

会声会影视频封面图怎么设置

为了流量不择手段！贩卖悲伤、制造同情......短视频的摆拍套路有多深？

小商贩有暴力倾向，城管态度始终很好，原视频我看了，咱有一说一

字节跳动回应大模型训练被实习生攻击：已被辞退，不影响线上业务

篮球场女孩被男子踹飞倒地后续：警方介入，视频曝光，评论区沦陷

以军新视频指辛瓦尔曾带妻儿隧道避难，纸巾留下DNA泄露行踪

微视频｜金砖力量