2023 年 4 月,Meta 釋出 Segment Anything Model (SAM),号稱能夠「分割一切」,這一颠覆傳統計算機視覺 (CV) 任務的創新性成果引起了業内的廣泛讨論,并被快速應用于醫療圖像分割等垂直領域的研究中。日前,SAM 再更新,Meta 開源了 Segment Anything Model 2 (SAM 2),成為計算機視覺領域的又一個劃時代裡程碑。
從圖像分割跨越到視訊分割,SAM 2 在實時提示分割方面展現出了卓越性能,該模型将圖像和視訊的分割、跟蹤功能引入到統一的模型中,隻需在視訊幀上輸入提示(點選、框或掩碼),就能精準識别并分割圖像或視訊中的任何對象,這種獨特的零樣本學習能力賦予了 SAM 2 極高的通用性,在醫學、遙感、自動駕駛、機器人、僞裝物體檢測等領域展現出巨大的應用潛力。Meta 對其充滿信心:「我們相信,我們的資料、模型和見解将成為視訊分割和相關感覺任務的重要裡程碑!」
确實如此,SAM 2 前腳上線,大家就迫不及待的用了起來,效果好到 Unbelievable!
圖源:Carlos Santana
SAM 2 開源不到半個月,多倫多大學研究人員就将它用在醫學圖像和視訊上,還順便發表了一篇 paper!
論文原文:
https://arxiv.org/abs/2408.03322
多倫多大學研究 圖源:Marktechpost AI Research News
模型需要資料來訓練,SAM 2 也不例外。Meta 在同一時間還開源了用于訓練 SAM 2 的大規模資料集 SA-V,據悉,該資料集可用于訓練、測試和評估通用對象分割模型 (generic object segmentation models),HyperAI超神經已經在官網上線了「SA-V:Meta 建構最大的視訊分割資料集」,一鍵即可下載下傳!
SA-V 視訊分割資料集直接下載下傳:
https://go.hyper.ai/e1Tth
更多高品質資料集下載下傳:
https://go.hyper.ai/P5Mtc
超越現有視訊分割資料集!SA-V 涵蓋多主題、多場景
Meta 研究人員使用資料引擎收集了一個大型且多樣化的視訊分割資料集 SA-V,如下表所示,該資料集包含 50.9K 個視訊,642.6K 個 masklets (由 SAM 2 輔助手動注釋 191K、由 SAM 2 自動生成 452K ),與其他常見的視訊對象分割 (VOS) 資料集相比,SA-V 在視訊、masklets 和 masks 數量上均有大幅提升,其标注的 masks 數量是現有任何 VOS 資料集的 53 倍,為未來的計算機視覺工作提供了豐富的資料資源。
SA-V與開源VOS資料集在視訊數量、時長 掩碼片段數量、掩碼數量、幀數量和消失率方面的比較
* SA-V Manual 僅含手動标注的标簽
* SA-V Manual+Auto 将手動标注的标簽與自動生成的掩碼片段結合
據了解,SA-V 包含的視訊數量超過了現有的 VOS 資料集,平均視訊分辨率為 1401×1037 pixels,收集的視訊涵蓋各種日常場景,包括 54% 的室内場景視訊和 46% 的室外場景視訊,平均時長為 14 秒。此外,這些視訊的主題也多種多樣,包括位置、物體、場景等,Masks 的範圍從大型物體(如建築物)到細粒度的細節(如室内裝飾)。
SA-V 資料集中的視訊
如下圖所示,SA-V 中的視訊覆寫 47 個國家,并由不同的參與者拍攝,圖 a 可得,與 DAVIS、MOSE 和 YouTubeVOS 掩碼大小分布相比,SA-V 小于 0.1 的歸一化掩碼面積 (normalized mask area) 超過 88%。
資料集分布(a)掩碼片段大小分布 (b)視訊的地理多樣性 (c)錄制視訊工作者的自我報告人口統計
研究人員根據視訊作者及其地理位置對 SA-V 資料集進行劃分,確定資料中的相似對象有最小重疊 (minimal overlap)。為了建立 SA-V 驗證集和 SA-V 測試集,在選擇視訊時,研究人員聚焦具有挑戰性的場景,要求标注者識别快速移動、被其他物體遮擋、具有消失/重制模式的目标。最終,SA-V 驗證集中有 293 個 masklets 和 155 個視訊,SA-V 測試集中有 278 個掩碼片段和 150 個視訊。此外,研究人員還使用内部可用的授權視訊資料進一步擴充訓練集。
SA-V 視訊分割資料集直接下載下傳:
https://go.hyper.ai/e1Tth
以上就是 HyperAI超神經本期為大家推薦的資料集,如果大家看到優質的資料集資源,也歡迎留言或投稿告訴我們哦!
更多高品質資料集下載下傳:
https://go.hyper.ai/P5Mtc