天天看點

HDMapNet: An Online HD Map Construction and Evaluation Framework

Paper name

HDMapNet: An Online HD Map Construction and Evaluation Framework

Paper Reading Note

URL: https://arxiv.org/pdf/2107.06307.pdf

TL;DR

  • HDMapNet 編碼環視相機 and/or 雷達點雲,預測 BEV 視角下的向量化地圖元素,所提出的方法不是用來替代傳統的全局高精地圖,而是提供一個預測局部語義地圖的簡單方案,用于實時的運動預測和規劃

Introduction

  • 高精地圖在自動駕駛領域有廣泛應用,但是傳統的高精地圖建構需要大量的人工參與标注,本文提出一種根據端上 sensor 采集資料自耦東建構局部地圖的方法 HDMapNet
    • 傳統建構高精地圖一般是先基于雷射雷達采集點雲資訊,然後基于 SLAM 建構全局一緻的地圖,利用人工标注地圖中的語義資訊
    • 所提出的方法不是用來替代傳統的全局高精地圖,而是提供一個預測局部語義地圖的簡單方案,用于實時的運動預測和規劃
  • HDMapNet 編碼環視相機 and/or 雷達點雲,預測 BEV 視角下的向量化地圖元素
  • 提出了一種 sematic-level 和 instance-level metric 用于評估地圖學習的性能
HDMapNet: An Online HD Map Construction and Evaluation Framework

Dataset/Algorithm/Model/Experiment Detail

實作方式

HDMapNet: An Online HD Map Construction and Evaluation Framework
  • 模型輸入為單幀rgb圖檔、雷達點雲,輸出為預測的向量化地圖元素(車道分隔線,車道邊界,人行橫道),模型分為四個主要子產品
    • Perspective view image encoder:對于環視圖檔逐個提取圖像特征
    • Neural view transformer:将圖檔特征轉換到相機坐标系下,然後組轉換到 BEV 視角,其中轉換 perspective view 到 camera coodinate 下的方式使用過一個全連接配接層實作
      HDMapNet: An Online HD Map Construction and Evaluation Framework
      然後通過相機外參将相機坐标系下特征轉換到 BEV 視角(車輛坐标系)下的特征;最終的圖像特征是将所有環視圖像的 BEV 視角特征加起來
    • Point cloud encoder:使用了增加 dynamic voxelization 的PointPillar 的變種,将 3d space 分割為多個柱狀空間,然後對柱狀空間的點雲提取 pillar-wise 特征,對于每個點的輸出為 K+3(特征次元K + 三維位置資訊3);将提取的特征投影到 BEV 視角下,因為多個點可能會被投影到同一個圓柱空間中,是以這裡使用了 PointNet 聚合點特征到圓柱特征;最後通過一個卷積網絡提取特征
      HDMapNet: An Online HD Map Construction and Evaluation Framework
    • Bird’s-eye view decoder:輸入是 BEV 下的圖像 and/or BEV 下的點雲特征(concat),bev decoder 輸出車道線的語義分割,同時還會預測 instance embedding 和 semantic segmentation,分别是由三個 FCN 分支得到
  • decoder 訓練
    • Semantic prediction:語義分割基于 cross-entropy loss
    • Instance embedding:将 BEV 下的 embedding 進行聚類,主要是在距離和方差層面計算聚類的損失,提升類内緊湊性和類間區分度,其中 C 是真值中的聚類數,Nc 是 c 類别中的元素數量,uc 是 c 類别的 mean embedding, δ \delta δ 是定義的 margin
      HDMapNet: An Online HD Map Construction and Evaluation Framework
    • Direction prediction:預測每個車道線中每個像素的朝向,朝向轉換為一個圓形空間中離散後的方向表示,正向和反向的方向在訓練中設定為1,其他的方向設定為0。
  • 測試階段
    • Vectorization:首先預測 BEV 下的車道線語義分割,然後基于Density-Based Spatial Clustering of Applications with Noise (DBSCAN) 進行 instance embedding 聚類,然後經過 nms 去除備援預測,最後通過預測的車道線的像素朝向将車道線表示成向量

實驗結果

評估設定

  • semantic metrics
    • Eulerian metrics:基于 IOU 進行密集評測像素層面的評測
      HDMapNet: An Online HD Map Construction and Evaluation Framework
    • Lagrangian metrics:基于 chamfer 距離評估車道線邊緣上的采樣點,進而評估 shape 的差異
      HDMapNet: An Online HD Map Construction and Evaluation Framework
  • Instance metrics:基于 Chamfer distance 的預設定門檻值,低于該門檻值的判斷為一個正确的 instance,否者是 fp
    HDMapNet: An Online HD Map Construction and Evaluation Framework

nuscenes 資料集實驗

  • 可視化對比,IPM 是在perspective 圖像上預測然後将地圖分割結果轉換到 BEV 下, IPM(B) 是直接在 BEV 下進行分割預測,IPM(CB) 是perspective圖像上提取特征然後在 BEV 下進行分割預測,Lift-Splat-Shoot 是基于深度估計的結果将2d圖像映射到3d點雲(最後映射到車輛坐标系),VPN 是一種以及 view transformeation module 的方法;- HDMapNet(Surr), HDMapNet(LiDAR), HDMapNet(Fusion) 是本文的方法,分别代表僅使用環視圖檔輸入、僅使用雷達點雲輸入、同時使用環視圖檔和雷達點雲輸入
HDMapNet: An Online HD Map Construction and Evaluation Framework
  • 定量對比實驗,可以看出 fusion(同時使用圖像和雷射雷達)有最佳結果(超過 baseline或者僅使用 camera 資料 50% 左右),另外不同模态資料可能有各自擅長的任務
    HDMapNet: An Online HD Map Construction and Evaluation Framework
  • temporal fusion:基于 ego poses 拼接時序上的特征,經過 maxpooling 後送入 decoder,時序 fusion 能夠提升 iou
    HDMapNet: An Online HD Map Construction and Evaluation Framework

Thoughts

  • 提供的局部地圖建構方法雖然大部分子產品都是複用之前工作,但系統性很強,訓練評測都提出了針對性的優化
  • 多模态融合的精度提升非常明顯

繼續閱讀