AAAI 2023 | 騰訊優圖實驗室16篇論文入選，含多标簽分類、姿态估計、目标檢測、HOI、小樣本學習等研究方向

關注并星标

從此不迷路

計算機視覺研究院

AAAI 2023 | 騰訊優圖實驗室16篇論文入選，含多标簽分類、姿态估計、目标檢測、HOI、小樣本學習等研究方向

轉自騰訊優圖

近日，AAAI 2023（Association for the Advancement of Artificial Intelligence）國際先進人工智能協會公布了錄用結果，本屆會議共有8777篇投稿，錄用1721篇，錄用率19.6%。

AAAI是人工智能領域的主要學術組織之一，是一個國際化的非營利科學組織，旨在推動人工智能領域的研究和應用，增進大衆對人工智能的了解。會議始于1980年，既注重理論，也注重應用，還會讨論對人工智能發展有着重要影響的社會、哲學、經濟等話題。

今年，騰訊優圖實驗室共有16篇論文入選，内容涵蓋了多标簽分類、姿态估計、目标檢測、HOI、小樣本學習等研究方向，展示了騰訊優圖在人工智能領域的技術能力和學術成果。

以下為騰訊優圖實驗室入選論文概覽：

面向具有标注噪聲的人臉表情識别

Attack can Benefit: An Adversarial

Approach to Recognizing Facial Expressions under Noisy Annotations

大規模人臉表情資料集通常表現出極端的噪聲标簽問題，模型容易過拟合于噪聲标簽樣本。同時，表情資料集也表現出極端的類别分布不均衡問題，兩個問題互相耦合，給解決表情識别資料中的噪聲标簽問題帶來困難。

在本文中，我們提出一個全新的噪聲标簽定位和重标記方法，即使用對抗攻擊來定位噪聲标簽樣本。首先，為了減輕資料分布不平衡的影響，本文提出了一種分治政策，将整個訓練集分成兩個相對平衡的子集。

其次，基于兩個觀察結果 (1) 對于用噪聲标簽訓練的深度卷積神經網絡，決策邊界附近的資料更難區分，更容易被錯誤标記; (2) 網絡對噪聲标簽的記憶會導緻顯著的對抗弱點，我們設計了一種幾何感覺對抗弱點估計方法，能夠在訓練集中發現更多可攻擊的資料并将其标記為候選噪聲樣本。最後，再使用剩餘的幹淨資料來重新标記這些候選噪聲樣本。

實驗結果表明，我們的方法達到了SOTA，相關的可視化結果也證明了所提出方法的優勢。

聯邦學習對抗魯棒性研究

Delving into the Adversarial

Robustness of Federated Learning

與集中式訓練的模型類似，聯邦學習（FL）訓練的模型同樣缺乏對抗魯棒性。本文主要讨論了聯邦學習中的對抗魯棒性。為了更好地了解現有FL方法的魯棒性，我們對各種對抗攻擊和對抗訓練方法進行了評估。

此外，我們揭示了在FL中直接采用對抗性訓練所産生的負面影響，即這會嚴重損害了幹淨樣本的準确率，尤其是在非獨立同分布下中。在這項工作中，我們提出了一種基于決策邊界的聯邦對抗訓練（DBFAT）的方法，它由兩個元件（即局部重新權重和全局正則化）組成，以提高FL系統的準确性和魯棒性。

在多個資料集上的大量實驗表明，在IID和非IID設定下，DBFAT始終優于其他基線方法。

TaCo:一種基于對比學習的

文本屬性識别方法

TaCo: Textual Attribute Recognition

via Contrastive Learning

随着辦公數字化程序的持續提速，利用人工智能技術自動、快速、精準地解析輸入文檔圖檔的内容，并進一步了解、提取和歸納，即文檔智能（DocAI），目前是計算機視覺和自然語言處理交叉學科的一個熱門研究方向。在優圖實際業務場景中，文檔智能技術已經産出了良好的商業價值，在表單了解、版面分析等場景中起到了關鍵性的支撐。視覺富文檔獨有的多模态屬性，即文本内容，圖像資訊及文檔整體布局的高度耦合，既加大了問題的複雜性，也為技術創新提供了新的着力點。

文字是資訊的重要載體。除内容外，其多樣的視覺屬性，如字型/顔色/斜體/粗體/劃線，也傳達了設計者的理念和思路。如能擷取精準的文字視覺屬性，對設計從業人員快速擷取素材，以及文檔圖檔轉word這樣的效率工具的開發有直接的助益。但數千種中英文字型，結合開放的配色設計及粗體，斜體等多種狀态，即便對于文字設計專家來說，準确判斷文字的視覺屬性也是一個很大的挑戰。是以，研發文字視覺屬性識别能力的有潛力為廣泛應用賦能。

設計文字視覺屬性識别系統并不如想象中簡單，因為文字視覺屬性間的差別往往是細微的。以字型舉例，兩個不同字型間往往僅有細微的局部細節差異。與日俱增的新文字樣式更近一步加劇了識别的困難，也對系統的泛化性提出了更高的要求。此外，我們在實際應用中觀察到，即便是掃描PDF和精心拍攝的圖檔也會引入噪聲和模糊，使細微的局部細節更加難以區分，加大了在特征空間中劃分的難度。

從算法上看，文字視覺屬性識别可定義為一個多标簽分類問題，輸入文本圖檔，輸出文本的各個視覺屬性。現有技術方案可以劃分為三個類别：1）基于手工設計特征描述符和模闆比對的方法。通常不同文字屬性具有不同的視覺風格，可通過統計特征來描述并識别；2）基于深度神經網絡的分類方法，用網絡提取特征并用于識别；3）基于序列的屬性識别方法。基于實際場景的觀察，單個文本行内的多個文字往往具有一緻的屬性。通過将輸入圖像視為連續的序列信号并模組化時序關聯，可利用字元間的相關資訊和語義一緻性來提升識别效果。

遺憾的是，以上方案受困于：1）資料預處理流程複雜。有監督方法依賴于大量專家标注資料；2）可擴充性差，僅支援部分預先定義的類别；3）準确性低，難以捕捉實際場景下相似屬性的細微差別。

基于以上觀察，我們設計了TaCo （Textual Attribute Recognition via Contrastive Learning）系統用以彌補鴻溝。

基于雙生完形自編碼器的

自監督視覺預訓練方法

The Devil is in the Frequency:

Geminated Gestalt Autoencoder for

Self-Supervised Visual Pre-Training

近年來，自監督掩模圖像模組化(MIM)範式由于其從未标記的資料中學習視覺表示的出色能力，正獲得越來越多研究者的興趣。該範式遵循從掩模圖像中恢複内容的“掩模-重構”流程，為了學習高階語義抽象表示，一系列研究工作嘗試采用大比例掩模政策，重構像素。

然而，該類方法存在“過平滑”問題。相比而言，另一個方向的工作引入額外的資料，并采用離線方式直接在監督資訊中融入語義。與上述方法不同，我們将視角轉移到具有全局視角的傅裡葉域，并提出了一種新的掩模圖像模組化(MIM)方法，稱為雙生完形自編碼器(Ge2-AE)，用于解決視覺預訓練任務。

具體來說，我們為模型配備了一對并行的解碼器，分别負責從像素和頻率空間重構圖像内容，兩者互相限制。通過這種方法，預訓練的編碼器可以學習到更魯棒的視覺表示，在下遊識别任務上的一系列實驗結果證明了這種方法的有效性。

我們還進行了定量和定性的實驗來研究我們方法的學習模式。在業内，這是第一個從頻域角度去解決視覺預訓練任務的MIM工作。

05 定位再生成：基于視覺-語言連接配接包圍框的

場景文本視覺問答方法

Locate Then Generate: Bridging Vision

and Language with Bounding Box

for Scene-Text VQA

*本文由騰訊優圖實驗室和中國科技大學共同完成

本文提出了一種新的多模态場景文本視覺問答架構(STVQA)，該架構可以讀取圖像中的場景文本進行問答。除了可以獨立存在的文本或視覺對象外，場景文本在作為圖像中的視覺對象的同時，通過傳遞語言語義，自然地将文本和視覺形态聯系在了一起。

與傳統的STVQA模型将場景文本中的語言語義和視覺語義作為兩個獨立的特征不同，本文提出了“先定位後生成”(LTG)範式，将這兩種語義明确地統一起來，并以空間包圍框作為橋梁連接配接它們。

具體來說，LTG首先利用由區域建議網絡和語言細化網絡組成的答案定位子產品 (ALM)在可能包含答案詞的圖像中定位區域，兩者通過場景文本邊界框進行一對一映射轉換。接下來，給定ALM選擇的答案詞，LTG使用基于預訓練語言模型的答案生成子產品 (AGM)生成可讀的答案序列。采用視覺和語言語義顯式對齊的好處是，即使沒有任何基于場景文本的預訓練任務，LTG也可以在TextVQA資料集和ST-VQA資料集上分别提高 6.06% 和 6.92%的絕對準确性，與非預訓練基線方法相比，我們進一步證明，LTG通過空間包圍框連接配接有效地統一了視覺和文本模式，這在之前的方法中研究尚淺。

基于少量真實樣本指導的穩健網圖原型學習

FoPro: Few-Shot Guided Robust Webly-Supervised Prototypical Learning

最近，基于網際網路（圖像）的監督學習（WSL）研究旨在利用來自網際網路上的大量可通路資料。大多數現有方法都側重于從網際網路圖像中學習出對噪聲穩健的模型，而常常忽略了網絡圖像領域和真實世界業務領域之間的差異所造成的性能下降問題。隻有解決了上述性能差距，我們才能充分挖掘網際網路上開源資料集的實用價值。

為此，我們提出了一種名為FoPro的利用少量真實世界樣本指導網絡圖像原型表示學習的方法。它隻需要現實業務場景中的少量有标注樣本，就可以顯著提高模型在真實業務領域的性能。

具體地，本方法使用少量真實場景資料來初始化每個類别中心的特征表示，作為“現實”原型。然後，通過對比學習縮小網絡圖像執行個體和真實原型之間的類内距離。最後，該方法用度量學習的方式來衡量網絡圖像與各類别原型之間的距離。類别原型由表示空間内相鄰的高品質網絡圖像不斷修正，并參與移除距離較遠的分布外樣本（OOD）。

實驗中，FoPro使用一些真實領域的樣本指導網絡資料集的訓練學習，并在真實領域的資料集上進行了評估。該方法在三個細粒度資料集和兩個大規模資料集上均實作了先進性能。與現有的WSL方法相比，在同樣的少量真實樣本實驗設定下，FoPro在真實場景下的泛化性能表現出色。

一種通用的粗-細視覺

Transformer加速方案

CF-ViT: A General Coarse-to-Fine

Method for Vision Transformer

*本文由騰訊優圖實驗室和廈門大學共同完成

Vision Transformers (ViTs)的核心操作是self-attention，而self-attention的計算複雜度和輸入token數目的平方成正比，是以壓縮ViT計算量最直接的思路就是減少推理時的token數目，也即減少圖像劃分的patch數目。

本文通過兩階段自适應推理減少推理過程的token數目：第一階段将圖像劃分為粗粒度(大尺寸)patch，目的是使用較少的計算量識别“簡單”樣本；第二階段将第一階段中資訊量高的粗粒度patch進一步劃分成細粒度(小尺寸)patch，目的是使用較少的計算量識别“困難”樣本。

本文還設計了全局注意力用于識别資訊量高的粗粒度patch，以及特征複用機制用于增大兩階段推理的模型容量。在不影響Top-1 準确率的情況下，該方法在ImageNet-1k上将LV-ViT-S的FLOPs降低53%， GPU上實測推理速度也加快了2倍。

通過視覺語言知識蒸餾的

端到端人-物互動檢測

End-to-End Zero-Shot HOI Detection via Vision and Language Knowledge Distillation

大多數現有的人-物互動檢測方法嚴重依賴于具有預定義人-物互動類别的完整标注，這在多樣性方面受到限制，并且進一步擴充成本高昂。我們的目标是推進零樣本人-物互動檢測，以同時檢測可見和不可見人-物互動。基本的挑戰是發現潛在的人-物對并識别新的人-物互動類别。為了克服上述挑戰，我們提出了一種新的基于視覺語言知識提取的端到端零樣本人-物互動檢測架構。

我們首先設計了一個互動式評分子產品，該子產品與兩階段二部分比對算法相結合，以動作不可知的方式實作對人-物對的互動區分。然後，我們将來自預訓練的視覺語言教師的動作機率分布以及所看到的真相标注轉移到人-物互動檢測模型，以實作零樣本人-物互動分類。在HICO Det資料集上的大量實驗表明，我們的模型發現了潛在的互動對，并能夠識别未知的人-物互動。最後，在各種零樣本設定下，我們的方法優于先前的優秀方法。此外，我們的方法可推廣到大規模目标檢測資料，以進一步放大動作集。

基于多模态知識遷移的開放詞典多标簽學習

Open-Vocabulary Multi-Label

Classification via Multi-modal

Knowledge Transfer

分類模型在實際應用中不可避免的會遇到大量在訓練集中未出現的标簽。為了識别這些标簽，傳統的多标簽零樣本學習方法通過引入語言模型（如GloVe）來實作從訓練集可見标簽到訓練集不可見标簽的知識遷移。單模态的語言模型雖然很好地模組化了标簽之間的語義一緻性，但忽視了圖像分類中關鍵的視覺一緻性資訊。

近來，基于圖文預訓練模型的開放詞典（Open-Vocabulary）分類模型在單标簽零樣本學習上取得了令人印象深刻的效果，但如何将這種能力遷移到多标簽場景仍是亟待探索的問題。

在本文中，作者提出了一種基于多模态知識遷移（Multi-modal Knowledge Transfer, MKT）的架構實作了多标簽的開放詞典分類。具體的，作者基于圖文預訓練模型強大的圖文比對能力實作标簽預測。為了優化标簽映射和提升圖像-标簽映射的一緻性，作者引入了提示學習（Prompt-Tuning）和知識蒸餾（Knowledge Distillation）。

同時，作者提出了一個簡單但是有效的雙流子產品來同時捕捉局部和全局特征，提高了模型的多标簽識别能力。在NUS-WIDE和OpenImage兩個公開資料集上的實驗結果表明，該方法有效實作了多标簽的開放集合學習。

基于自适應層級分支融合的

線上知識蒸餾算法摘要

Adaptive Hierarchy-Branch Fusion for

Online Knowledge Distillation

*本文由騰訊優圖實驗室與華東師範大學共同完成

線上知識蒸餾無需使用預訓練教師模型進行知識蒸餾，大大提高了知識蒸餾的靈活性。現有方法主要側重于提高多個學生分支內建後的預測精度，往往忽略了使學生模型快速過拟合并損害性能的同質化問題。該問題來源于使用相同的分支架構和粗糙的分支內建政策。為了緩解此問題，在本文中提出了一種用于線上知識蒸餾的新型自适應層級分支融合架構，簡稱為AHBF-OKD。

該架構主要設計了層級分支結構和自适應層級分支融合子產品來提高模型多樣性，進而使不同分支的知識能夠互補。特别地，為了有效地将知識從最複雜的分支轉移到最簡單的目标分支，本文提出了一種自适應層級分支融合子產品來遞歸地建立層級間的輔助教師子產品。在訓練過程中，來自高層的輔助教師子產品内的知識被有效地蒸餾給目前層次結構中的輔助教師子產品和學生分支。是以，不同分支的重要性系數被自适應地配置設定以減少分支同質化。

大量實驗驗證了AHBF-OKD 在不同資料集上的有效性，包括 CIFAR-10/100 和 ImageNet 2012。例如，經過蒸餾的ResNet18 在 ImageNet 2012 上達到了29.28%的Top-1錯誤率。

基于圖像間一緻性的多人姿态估計方法

Inter-image Contrastive Consistency for Multi-person Pose estimation

近年來，多人姿态估計（MPPE）取得了令人矚目的進展。然而，由于遮擋或者人體之間的外觀差異很大，模型很難學習一緻的關鍵點表征。本篇論文中，我們提出了圖像間對比一緻性方法，來加強 MPPE任務中圖像之間的關鍵點特征的一緻性。

具體來說，我們考慮雙重一緻性限制，包括單關鍵點對比一緻性（SKCC）和成對關鍵點對比一緻性（PRCC）。 SKCC用來加強圖像中同類别關鍵點的一緻性，進而提高特定類别的魯棒性。雖然 SKCC能使模型有效減少由于外觀變化引起的定位錯誤，但由于缺乏關鍵點結構關系指導，在極端姿勢（例如遮擋）下仍然具有挑戰性。是以，我們提出PRCC來加強圖像之間成對關鍵點關系的一緻性。 PRCC 與 SKCC 合作，進一步提高了模型在處理極端姿勢時的能力。

在三個資料集（即 MS-COCO、MPII、CrowdPose）上的廣泛實驗表明，所提出的 ICON 比基線取得了較大的改進。

基于變分特征融合的少樣本目标檢測模型

Few-Shot Object Detection via

Variational Feature Aggregation

由于少樣本目标檢測器通常在樣本較多的基礎類進行訓練，并在樣本較少的新穎類上進行微調，其學習到的模型通常偏向于基礎類，并且對新穎類樣本的方差敏感。為了解決這個問題，本文提出了基于元學習架構的兩種特征聚合算法。

具體來說，本文首先提出了一種類别無關的特征聚合算法CAA，其通過聚合不同類别的查詢（Query）和支援（Support）特征，使得模型學習到類别無關的特征表示，并減少了基礎類與新穎類之間的混淆。

基于 CAA，本文又提出了變分特征聚合算法VFA，其通過将樣本編碼為類别的分布，實作了更加魯棒的特征聚合。本文使用了變分自動編碼器（VAE）來估計類别的分布，并從對樣本方差更魯棒的分布中抽樣變分特征。

此外，本文解耦了分類和回歸任務，以便在不影響目标定位的情況下，在分類分支上進行特征聚合。

用于僞裝物體分割的高分辨率疊代回報網絡

High-resolution Iterative Feedback Network for Camouflaged Object Detection

發現視覺同化到背景中的僞裝對象對于物體檢測算法和人類來說都是棘手的問題。因為兩者都容易被前景對象與背景環境之間完美的内在相似性所迷惑或欺騙。

為了應對這一挑戰，我們提取高分辨率紋理細節，以避免細節退化，因為這種細節退化會導緻邊緣和邊界視覺模糊效應。我們引入了一種新穎的HitNet 網絡架構，以疊代回報方式通過高分辨率特征改進低分辨率表征，其實質是多尺度分辨率之間基于全局循環的特征互動。

另外，為了設計更好的回報特征流并避免由遞歸路徑引起的特征崩塌，我們提出了一種疊代回報政策，以對每個回報連接配接施加更多限制。

在四個具有挑戰性的資料集上進行的大量實驗表明，與 35 種先進的方法相比，我們的 HitNet 打破了性能瓶頸并取得了顯着改進。此外，為了解決僞裝場景中資料稀缺的問題，我們提供了一個将顯着物體轉換為僞裝物體的應用程式，進而從不同的顯着物體中生成更多的僞裝訓練樣本，代碼将公開。

SpatialFormer: 基于語義和

目标感覺注意力的小樣本學習方法

SpatialFormer: Semantic and Target Aware Attentions for Few-Shot Learning

最近的小樣本學習方法強調生成強區分性的嵌入特征，以準确計算支援集和查詢集之間的相似性。目前基于 CNN 的cross-attention方法通過增強支援和查詢圖像對的互相語義相似區域來生成更有區分性的特征。然而，它存在兩個問題：CNN 結構基于局部特征産生不準确的注意力圖，以及互為相似的背景導緻幹擾。

為了緩解這些問題，我們設計了一種新穎的SpatialFormer結構，以基于全局特征生成更準确的注意力區域。傳統的 Transformer 模組化内在執行個體級相似性導緻小樣本分類準确率下降，而我們的SpatialFormer探索了對輸入之間的語義級相似性以提高性能。

然後，我們提出兩個注意子產品，稱為 SpatialFormer Semantic Attention (SFSA) 和 SpatialFormer Target Attention (SFTA)，以增強目标對象區域，同時減少背景幹擾。其中，SFSA 突出了對特征之間具有相同語義資訊的區域，而 SFTA 找到了與基本類别相似的新特征的潛在前景對象區域。

大量實驗證明了我們方法的有效性，并且我們在多個基準資料集上取得了更優的性能。

基于校正教師模型的稀疏标注目标檢測

Calibrated Teacher for

Sparsely Annotated Object Detection

完全監督的目标檢測需要标注訓練圖像中的所有目标執行個體，但這需要大量的标注人力成本，同時在标注中往往存在有不可避免的漏标。圖像中漏标的目标将會提供誤導性的監督并損害模型訓練，為此我們研究稀疏标注的目标檢測方法，通過為遺漏的目标生成僞标簽來減輕此問題。

早期的稀疏标注目标檢測方法往往依賴于預設的得分門檻值來篩選漏标框，但是在不同的訓練階段，不同的目标類别，以及不同目标檢測器中，其有效門檻值是不同的。是以，具有固定門檻值的已有方法仍存在優化空間，并且需要針對不同的檢測器繁瑣地調整超參數。

為了解決這一障礙，我們提出了一個"校準教師模型"，其中對預測的置信度估計經過得分校準，使其符合檢測器的實際精度。進而，針對不同訓練階段以及不同檢測器将具有相似的輸出置信度分布，是以多個檢測器可以共享相同的固定門檻值并實作更好的性能。

此外，我們提出了一個簡單但有效的FIoU機制，以降低因漏失标注而引起的假陰性目标的分類損失權重。

廣泛的實驗表明，我們的方法在12種不同的稀疏标注目标檢測設定下達到了最優的性能。

基于大規模通用資料集的

退化圖像高分辨率GAN反演方法

High-Resolution GAN Inversion

for Degraded Images

in Large Diverse Datasets

在過去的幾十年裡，大量的、多樣化的圖像資料顯示出越來越高的分辨率和品質。然而，我們獲得的一些圖像可能受到多種退化，影響了感覺和下遊任務的應用。我們需要一種通用的方法從退化的圖像中生成高品質的圖像。在本文中，我們提出了一個新的架構，利用StyleGAN-XL的強大生成能力進行反演來解決上述問題。

為了緩解StyleGAN-XL在反演時遇到的挑戰，我們提出了聚類正則反演（CRI）：（1）通過聚類将龐大且複雜的隐空間劃分為多個子空間，并為反演過程找到更優的初始化起點，進而降低優化難度。（2）利用GAN網絡隐空間的特性，在反演過程中引入帶有正則化項的偏移量，将隐向量限制在能生成高品質圖像的隐空間内。

我們在複雜的自然圖像的多種修複任務（補全、上色和超分辨率）上驗證了我們的CRI方案，在定量和定性方面都獲得了較好的結果。我們進一步證明了CRI針對不同資料和不同的GAN模型是魯棒的。

就我們所知，本文是首個采用StyleGAN-XL從受退化的自然圖像中生成高品質圖像的工作。

注：以上資料均為實驗室資料

轉載請聯系本公衆号獲得授權

計算機視覺研究院學習群等你加入！

計算機視覺研究院主要涉及深度學習領域，主要緻力于人臉檢測、人臉識别，多目标檢測、目标跟蹤、圖像分割等研究方向。研究院接下來會不斷分享最新的論文算法新架構，我們這次改革不同點就是，我們要着重”研究“。之後我們會針對相應領域分享實踐過程，讓大家真正體會擺脫理論的真實場景，培養愛動手程式設計愛動腦思考的習慣！

計算機視覺研究院

公衆号ID｜ComputerVisionGzq

🔗

AAAI 2023 | 騰訊優圖實驗室16篇論文入選，含多标簽分類、姿态估計、目标檢測、HOI、小樣本學習等研究方向

繼續閱讀

使用opencv的dnn子產品進行人臉檢測

YOLOv8來啦 | 詳細解讀YOLOv8的改進子產品！YOLOv5官方出品YOLOv8！1、YOLOv5回顧2、YOLOv8核心介紹參考文章

對YOLO-v1的了解及閱讀筆記YOLO-v1 閱讀筆記

yolox運作報錯--can‘t find starting numberyolox運作報錯–can’t find starting number

【論文閱讀筆記】Deep Neural Networks for Object Detection

【論文閱讀筆記】CenterNet：Objects as Points

【論文閱讀筆記】ThunderNet: Towards Real-time Generic Object Detection

【ICLR2019】Oral 論文彙總

【ICLR2019】Poster 論文彙總

目标檢測系列（IV）：YOLO V1、YOLO V2、YOLO V3

pp-picodet從環境配置到部署全流程（5）——PaddleLite端側部署1. PaddleDetection支援的部署形式說明

目标檢測架構｜又一新架構來襲，關系網絡用于目标檢測（文末附源碼）

yolov7 tensorrt模型加速部署【實戰】

目标檢測：YOLOV3論文解讀一、yolov3論文解讀

Pytorch機器學習（九）—— YOLO中對于錨框，預測框，産生候選區域及對候選區域進行标注詳解 Pytorch機器學習（九）—— YOLO中錨框，預測框，産生候選區域及對候選區域進行标注詳解前言一、基本概念二、代碼講解總結

2021-09-30三維點雲測量正方形包裹體積