還記得Meta的“分割一切模型”嗎?這個去年4月釋出的模型,在傳統計算機視覺任務中掀起了巨大波瀾。時隔一年多,Meta在SIGGRAPH大會上重磅推出了Segment Anything Model 2(SAM 2),不僅開源,還帶來了諸多革命性進展。
SAM 2不僅在圖像分割上有卓越表現,更首次拓展到了視訊分割領域。它能夠實時處理任意長度的視訊,即使是未曾見過的對象也能輕松分割和追蹤。這一模型的架構采用了創新的流式記憶體設計,使其能夠按順序處理視訊幀,特别适合實時應用。
與前代相比,SAM 2的圖像分割準确率進一步提升,同時在視訊分割性能上也超越了現有工作,所需的互動時間縮短至原來的1/3。Meta表示,這項進步表明了整個行業在計算效率上的巨大提升,即使在沒有資料中心的情況下也能運作。
Meta此次開源的資料集規模龐大,包含約51,000個真實世界視訊和超過600,000個時空掩碼(masklets),視訊數量比現有最大的資料集多4.5倍,注釋數量多53倍。這個資料集SA-V在CC BY 4.0許可下釋出,可以用于商業性質的修改或分發。
SAM 2同樣遵循Apache 2.0許可協定,代碼和模型權重已經開源,并根據BSD-3許可分享評估代碼。
Meta還提供了一個線上試玩的Web demo,任何人都可以體驗這個實時、互動式的視訊分割功能。
SAM 2的建構曆程
SAM 2的開發旨在實作對圖像和視訊的通用分割。相較于靜态圖像,視訊中對象的運動、變形和遮擋等挑戰更大。
Meta将圖像視為單幀視訊,以此統一處理圖像和視訊輸入。
在開發過程中,Meta設計了一個新的任務,即可提示的視覺分割任務。SAM 2 可以在視訊的任意幀中通過輸入提示定義目标對象的時空掩碼(masklet),并實時生成分割結果。通過這種方法,SAM 2 可以在視訊中準确跟蹤對象。
為了支援這一功能,Meta建立了全新的SA-V資料集,規模是現有最大視訊分割資料集的數倍。這個資料集幫助Meta訓練SAM 2,實作了在視訊分割上的最先進性能。Meta的方法不僅提升了分割的準确性,還使得對象選擇和分割更加便捷。
SAM 2的獨特之處在于其對視訊對象分割的支援。模型能接收點、框或掩碼作為輸入提示,然後生成目标對象的分割結果。通過輸入更多提示,分割結果可以進一步精細化,直到達到預期效果。
圖像與視訊分割的統一架構
SAM 2的架構從圖像分割擴充到視訊分割。使用者可以通過點選、邊界框或掩碼來提示模型識别目标對象。SAM 2的輕量級掩碼解碼器接收目前幀的圖像嵌入和編碼提示,輸出該幀的分割掩碼。
在視訊分割中,SAM 2會将該幀的分割結果傳播到整個視訊,生成時空掩碼(masklet)。若有進一步提示,模型能更新其預測。為此,SAM 2引入了記憶機制,包括記憶編碼器、記憶庫和記憶注意子產品。
記憶編碼器基于目前的分割預測建立幀的記憶,并存儲在記憶庫中。每個新處理的幀,SAM 2使用記憶注意子產品關注目标對象的過去記憶,生成嵌入并用于掩碼解碼器。這樣,模型能實時處理任意長度的視訊。
此外,SAM 2還具備應對視訊分割中的歧義能力。例如,若使用者點選自行車的輪胎,模型會輸出多個分割結果,以應對輪胎或整輛車的分割需求。當物體暫時被遮擋時,SAM 2的遮擋頭會預測目标對象是否在目前幀可見,進而有效處理遮擋問題。
SA-V:建構最大的視訊分割資料集
為了擴充“分割一切”的能力至視訊領域,Meta建立了SA-V資料集,克服了現有資料集缺乏多樣性和注釋不足的挑戰。現有的資料集通常僅覆寫完整對象,缺乏對對象部件的注釋。
SA-V資料集的建構過程采用了互動模型閉環的方式。人類注釋員使用 SAM 2進行視訊中的 masklet 注釋,生成的資料又用于更新 SAM 2。這個循環過程極大提高了模型和資料集的品質。
使用SAM 2的注釋速度是原來的8.4倍,這比單獨使用SAM或結合現成的跟蹤器更快。最終,SA-V資料集包含超過51,000個視訊和超過600,000個masklet注釋。
SA-V資料集的特點包括:覆寫全球47個國家的地理多樣性視訊,注釋範圍包括完整對象、對象部件及複雜場景,例如對象被遮擋、消失或重新出現的情況。
卓越表現與測試結果
SAM 2相比前代在視訊對象分割中表現卓越。在初始化時,SAM 2能準确跟蹤對象部位,而基線模型則容易過度分割,如将人的頭部包含在内。
通過将圖像視為單幀視訊,Meta聯合訓練了SAM 2,用于圖像和視訊分割。使用的資料集包括去年釋出的SA-1B圖像資料集、SA-V資料集以及内部授權的視訊資料集。
在17個零樣本視訊資料集上,SAM 2顯著超越了先前的方法,所需的人機互動次數減少三倍。
在23個資料集的零樣本基準測試中,SAM 2表現優于SAM,速度快六倍。
在DAVIS、MOSE、LVOS和YouTube-VOS等現有視訊對象分割基準中,SAM 2的表現優于之前的最先進模型。此外,SAM 2的推理速度接近實時,約為每秒44幀。
在視訊分割注釋時,SAM 2 的效率比逐幀手動注釋快8.4倍。此外,為確定公平性,Meta評估了模型在不同人口群體中的表現,結果顯示在性别和年齡組之間表現差異較小。
SAM 2的局限性
盡管SAM 2在圖像和短視訊分割上表現出色,但在複雜場景中仍有提升空間。對于劇烈視角變化、長時間遮擋或擁擠場景,模型有時會失去目标對象。
在處理長視訊時,SAM 2有時會混淆相似的對象,如在擁擠場景中。針對這些情況,使用者可以通過在任意幀中點選修正目标對象,進而恢複準确的分割。
對于同時分割多個對象,SAM 2的效率顯著下降。模型缺乏對象間的通信,僅使用共享的每幀嵌入來處理。這一限制影響了分割效率和精度。
對于快速移動的複雜對象,SAM 2可能錯過細節,導緻預測不穩定。通過增加更多的提示可以部分解決這一問題,但無法完全消除幀間的抖動。這表明模型的時間平滑性有待改進。
未來應用
SAM 2不僅限于現有的應用,還可以作為更大AI系統的一部分,未來可用于增強現實眼鏡識别日常物品,為使用者提供提示和指導。
Meta 鼓勵 AI 社群下載下傳模型、使用資料集,并嘗試示範,推動通用視訊和圖像分割的發展。期待社群創造出新的洞察和有用的體驗。
如果你覺得這篇文章對你有所幫助,歡迎點贊、收藏以及轉發分享。同時,請關注我,以擷取更多關于人工智能的最新資訊和見解!
參考