關注并星标
從此不迷路
計算機視覺研究院
學習群|掃碼在首頁擷取加入方式
論文位址: https://arxiv.org/pdf/2208.09686.pdf
代碼位址: https://github.com/YuHengsss/YOLOV
01 概述
視訊目标檢測(VID)具有挑戰性,因為目标外觀的高度變化以及某些幀中的各種劣化。積極的一面是,與靜止圖像相比,在視訊的某一幀中進行檢測可以得到其他幀的支援。是以,如何跨不同幀聚合特征是VID問題的關鍵。
大多數現有的聚合算法都是為兩階段檢測器定制的。但是,由于兩階段的性質,此類檢測器通常在計算上很耗時。今天分享的研究者提出了一種簡單而有效的政策來解決上述問題,該政策花費了邊際開銷,并顯著提高了準确性。具體來說,與傳統的兩階段流水線不同,研究者主張将區域級候選放在一階段檢測之後,以避免處理大量低品質候選。此外,建構了一個新的子產品來評估目标架構與其參考架構之間的關系,并指導聚合。
進行了廣泛的實驗和消融研究以驗證新提出設計的有效性,并揭示其在有效性和效率方面優于其他最先進的VID方法。基于YOLOX的模型可以實作可觀的性能(例如,在單個2080Ti GPU上的ImageNet VID資料集上以超過30 FPS的速度達到87.5% AP50),使其對大規模或實時應用程式具有吸引力。
02 背景
視訊目标檢測可以看作是靜止圖像目标檢測的進階版本。直覺地說,可以通過将幀一一輸入靜止圖像目标檢測器來處理視訊序列。但是,通過這種方式,跨幀的時間資訊将被浪費,這可能是消除/減少單個圖像中發生的歧義的關鍵。
如上圖所示,視訊幀中經常出現運動模糊、相機散焦和遮擋等退化,顯着增加了檢測的難度。例如,僅通過檢視上圖中的最後一幀,人類很難甚至不可能分辨出物體在哪裡和是什麼。另一方面,視訊序列可以提供比單個靜止圖像更豐富的資訊。換言之,同一序列中的其他幀可能支援對某一幀的預測。是以,如何有效地聚合來自不同幀的時間消息對于準确性至關重要。從上圖可以看出,研究者提出的方法給出了正确的答案。
03 新架構
考慮到視訊的特性(各種退化與豐富的時間資訊),而不是單獨處理幀,如何從其他幀中為目标幀(關鍵幀)尋求支援資訊對于提高視訊檢測的準确性起着關鍵作用。最近的嘗試是在準确性上的顯着提高證明了時間聚合對問題的重要性。然而,大多數現有方法都是基于兩階段的技術。
如前所述,與一級基礎相比,它們的主要缺點是推理速度相對較慢。為了減輕這種限制,研究者将區域/特征選擇放在單級檢測器的預測頭之後。
研究者選擇YOLOX作為基礎來展示研究者的主要主張。提出的架構如上圖所示。
讓我們回顧一下傳統的兩階段管道:
1)首先“選擇”大量候選區域作為提議;
2)确定每個提議是否是一個目标以及它屬于哪個類。計算瓶頸主要來自于處理大量的低置信區域候選。
從上圖可以看出,提出的架構也包含兩個階段。不同的是,它的第一階段是預測(丢棄大量低置信度的區域),而第二階段可以被視為區域級細化(通過聚合利用其他幀)。
通過這一原則,新的設計可以同時受益于一級檢測器的效率和從時間聚合中獲得的準确性。值得強調的是,如此微小的設計差異會導緻性能上的巨大差異。所提出的政策可以推廣到許多基礎檢測器,例如YOLOX、FCOS和PPYOLOE。
此外,考慮到softmax的特性,可能一小部分參考特征持有大部分權重。換句話說,它經常忽略低權重的特征,這限制了可能後續使用的參考特征的多樣性。
為了避免這種風險,研究者引入了平均池化參考特征(A.P.)。具體來說,選擇相似度得分高于門檻值τ的所有參考,并将平均池化應用于這些。請注意,這項工作中的相似性是通過N (Vc)N(Vc)T計算的。算子N(·)表示層歸一化,保證值在一定範圍内,進而消除尺度差異的影響。通過這樣做,可以維護來自相關特征的更多資訊。然後将平均池化特征和關鍵特征傳輸到一個線性投影層中進行最終分類。該過程如是上圖所示。
有人可能會問,N(Qc)N(Kc)T或N(Qr)N(Kr)T是否可以作為相似度執行。事實上,這是另一種選擇。但是,在實踐中,由于Q和K之間的差異,它不像我們在訓練期間的選擇那樣穩定。
04 實驗及可視化
對于給定的關鍵候選,通過三種不同方法選擇的參考候選之間的視覺比較。展示了4個在聚合中貢獻最大的參考候選。
具體來說,在下表的上半部分,研究者報告了所涉及的競争模型的性能,而沒有采用任何後處理。由于一級檢測器的特性和研究者的政策的有效性,YOLOV可以顯著利用檢測精度和推理效率。為了公平比較,下表中列出的所有模型都在相同的硬體環境下進行了測試,除了MAMBA和查詢屬性。下表的下半部分報告了YOLOV和其他帶有後處理的SOTA模型的結果。在i7-8700K CPU上測試後處理的時間成本。
上排是基礎的檢測結果,下排是YoloV的結果
© THE END
轉載請聯系本公衆号獲得授權
計算機視覺研究院學習群等你加入!
ABOUT
計算機視覺研究院
計算機視覺研究院主要涉及深度學習領域,主要緻力于目标檢測、圖像分割、模型量化、模型部署等研究方向。研究院接下來會不斷分享最新的論文算法新架構,我們這次改革不同點就是,我們要着重”研究“。之後我們會針對相應領域分享實踐過程,讓大家真正體會擺脫理論的真實場景,培養愛動手程式設計愛動腦思考的習慣!
VX:2311123606
01 | ● Yolov7:最新最快的實時檢測架構,最詳細分析解釋(附源代碼) |
02 | ● ECCV2022:在Transformer上進行遞歸,不增參數,計算量還少! |
03 | ● 改進的YOLO:AF-FPN替換金字塔子產品提升目标檢測精度 |
04 | ● QueryDet:級聯稀疏query加速高分辨率下的小目标檢測(代碼已開源) |