天天看點

基于場景的自動駕駛評估方法

作者:小朱若旅

摘要:

過去十年,工業界和學術界對自動駕駛功能的開發力度不夠。由于操作空間大,各種複雜的場景和自動駕駛功能都需要應對,預計評估工作将大幅增加。為了有效量化這些功能的收益和風險,本文描述了一種使用真實世界駕駛資料評估自動駕駛的整體方法。

基于場景定義,描述了一種從真實世界駕駛資料中識别相關場景的合适方法,該方法能夠處理場景特定特征,例如所有交通參與者的時間和空間依賴性。為了量化在考慮的駕駛場景中自動駕駛的影響,應用了統計名額“影響大小”。自動駕駛需要在混合交通中運作的基本要求意味着評估的參考必須是人工駕駛行為。

1.介紹

由于過去幾十年微電子和計算能力方面的技術進步,用于支援駕駛員的各種汽車功能已經開發并引入市場。這些所謂的進階駕駛員輔助系統(ADAS)具有越來越高的自動化程度,以實作舒适和安全的旅行[4]。在環境感覺技術和複雜決策算法不斷發展的推動下,車輛自動化的最終目标似乎是一個可解決的挑戰,過去幾年的各種原型車輛都證明了這一點[1,2,3]。

然而,正如Winnerin所描述的那樣,随着系統算法和覆寫場景的複雜性不斷增加,這些系統的測試和評估工作正在急劇增加[5]。是以,驗證自動化駕駛功能的新概念是必要的,例如“基于場景”的評估高維場景空間,如[6,7]。除了建立新的評估架構,還必須确定适當的衡量标準,特别是評估的參考。

為此,應考慮自動駕駛功能的基本要求,即在混合交通中的安全駕駛和功能操作,同時不對其他交通産生負面影響。這些基本要求意味着自動駕駛功能需要在正常駕駛行為的範圍内運作,并且至少應該與非自動駕駛一樣安全。是以,評估的參考應該是人類駕駛員或人類駕駛行為。由于每個駕駛員的駕駛行為是不同的,用分布來描述似乎是有用的。在進行自動駕駛功能的評估之前,需要獲得駕駛行為的這些分布。這項工作通過使用時間序列分類技術來描述人類駕駛行為的綜合架構。

2.背景

在之前的歐洲項目中開發的評估架構,如PReVAL [9]、eIMPACT [10]、assesse[11]、interactIVe[12]和美國研究項目(如[13])主要涉及主動安全功能或相應的ADAS,其中評估主要集中在功能用例的測試上。對于自動駕駛,需要擴充評估方法,以確定涵蓋該功能所涉及的整個情境空間。

已經定義了評估自動駕駛的不同方法[8]。然而,這些方法主要集中在功能安全驗證方面或确定這些功能對交通安全的影響。這些方法既考慮了真實世界的測試,也考慮了通過模拟進行的虛拟評估。例如,在[6]中提出了利用不同測試工具進行驗證的綜合評估架構,其目标是實作有效的評估。在這種情況下,提出了一組相關駕駛情況,即所謂的“相關情況圈”,這些情況被不同的測試工具所利用——從模拟到現場測試。[14]中提出了另一種通過功能運作期間的安全性來評估自動駕駛功能的功能安全性的方法。這裡,類似于特洛伊木馬方法,自動駕駛功能在“循環之外”執行,以便在真實駕駛情況下測試該功能而沒有任何潛在危險。

為了評估輔助和自動駕駛功能的交通安全性能,在[7]中定義了一種方法。這種方法的基礎是使用虛拟實驗。在此,建議通過結合來自現場操作試驗(FOT)、自然駕駛研究(NDS)、實驗室和駕駛模拟器實驗的知識,量化評估功能的收益和風險。

建議的評估方法的共同點是,在相關的場景下評估被測試的功能。

在過去的幾年中,已經為相關的場景導出了幾個定義。Reichart[15]描述了一個駕駛場景的分類方案,用于分析基于交通參與者的時間和空間組合的車輛引導中的人類表現。Domschet al.在[16]中引入了一個駕駛情況的定義,包括駕駛員、環境和車輛方面,其中作者引入了變量,以進一步規範駕駛情況的各個部分。

根據場景定義,必須确定應評估功能的相關場景。對于基于用例派生的測試用例來說,這項任務微不足道。對于在一次試駕中包含不同場景的公共道路上分别進行的現場測試,需要一種分類方法。

原則上,用于檢測場景的分類方法可以基于三種不同的方法:不同尺度上基于模型的足迹、系統暴露度量或機器學習[8]

在[18]中,提出了一種基于模型足迹的場景分類算法,用于對ADAS影響評估相關場景中的FOT資料進行分類。在此方法中,基于決策樹檢測相關駕駛情況。在這種情況下,特征選擇和檢測門檻值由專家知識設定。而檢測門檻值設定在非常保守的水準上,以確定對所有事件的可靠檢測。通過視訊幀的專家評審來評估最終分類器的性能。根據專家評審的結果,對分類器進行了調整。這個疊代過程一直進行到分類結果令人滿意為止。由于手動調整決策樹參數的過程非常耗時,是以使用數學運算調整決策樹是很有前途的。

[19]中介紹了模組化和識别駕駛情況的機率方法。與前面描述的方法不同,使用貝葉斯網絡和模糊特征作為輸入參數,對态勢和傳感器測量中的不确定性進行模組化。在此,情況和機動決策的價值可以視為一種品質度量。

在[20]中,提出了一種利用機器學習技術進行車隊合并态勢方面模組化和分類的方法。這種方法的重點是分類器的線上性能,特别是處理駕駛場景中典型的特征集。由于這些通常是随着時間的推移而發展的,是以隻使用單一時間快照的分類算法将是不合适的。是以,作者将駕駛場景分解為稱為場景切片的可分析子集,并采用時間序列分類來識别相關場景。

3.自動駕駛評估場景的定義

為了能夠評估相關駕駛場景中的自動駕駛功能,術語場景和情景的定義至關重要。根據第二節中的文獻調查和[21]中的定義,駕駛場景是對駕駛情況的抽象和一般描述,沒有對駕駛情況參數進行任何說明。此外,這些場景包括對相關參與者意圖的語義描述,并受到自動駕駛功能系統狀态的啟發,如[1]中提出的。與駕駛場景相反,根據[21],駕駛情況是駕駛場景的具體發展。是以,駕駛情況較長的描述了可以模拟和分析的情況。

基于場景的自動駕駛評估方法

根據之前的定義,測試和參考資料中包含的駕駛情況通過分類算法配置設定給定義的場景。為了對測試和參考資料進行分析和分類,所有場景方面的時間和空間序列,例如自我車輛、動态對象和環境,必須分别用信号時間序列描述,如圖1所示。

然而,分類算法并不能同時對多個場景進行分類。由于可能同時發生多種情況(例如,變道和車輛跟馳),分類方法的設計必須允許同時對幾種情況進行分類。是以,對于每個場景,應用并訓練一個分類器,将資料分類到适當的場景類中。表一概述了所有定義的場景。

基于場景的自動駕駛評估方法

4.自動駕駛評估方法

A.方法論

在下一節中,給出了在某些情況下評估自動駕駛功能性能的方法。它以前面描述的方法論和情景分類方法為基礎。由于自動駕駛功能的操作模式覆寫了高維操作空間,包括許多不同的駕駛場景,是以需要考慮各種變化。

是以,需要一種涵蓋盡可能多的不同駕駛場景的整體評估方法。作者提出了一種基于場景的評估方法,該方法分别基于真實駕駛現場資料。現實世界駕駛的使用已經隐含了某些駕駛場景的大量變化。如圖2所示,所開發的方法預見了測試和參考駕駛行為資料的分類,以作為相關場景評估的第一步。

基于場景的自動駕駛評估方法

然後,通過使用相關場景中的參考資料評估自動駕駛功能,将功能的性能與每個場景中的人的表現進行比較。

B.測試工作量估算

由于交通的随機性,測試方法必須確定有足夠的測試資料和參考資料可用。為此目的,euroFOT資料庫的部分被認為是[22],用于估計相關駕駛場景的平均頻率。為了計算發生k = 30個駕駛場景的最小測試距離,這是評估函數所必需的,根據Winnerin[23]所描述的方法,假設一個累積泊松分布。根據單個事件發生所需的平均距離sref,計算k個事件發生所需的距離,機率為P= 95%。

最小距離的計算依據如下描述泊松分布的方程,而發生駕駛情況的機率則由

基于場景的自動駕駛評估方法

對評估方法中考慮到的所有情況估計總必要的測試距離(參見執行個體表iv)。

C.相關駕駛場景的分類

如前一節所述,自動駕駛功能是在基于場景的方法中進行評估的。為了對參考和測試資料中的這些場景進行分類,分析了幾種分類器,以找到對駕駛場景進行分類的最佳解決方案。

為了考慮到之前列出的所有駕駛場景和情境參與者的時間和空間依賴性,該方法還包括時間序列分類。第五節詳細概述了分類方法。

D.自動化效果的統計估計

為了确定自動駕駛功能的行為是否在正常駕駛行為的範圍内,并進一步量化與正常駕駛行為的偏差,必須确定一個适當的方法。是以,根據[24]的說法,這是一種量化兩組之間差異的簡單方法,與單獨使用統計顯著性檢驗相比,它顯示出許多優點。正如[24]中所描述的,效應量是兩組之間的标準化平均差異,強調差異的大小,而不是将其與樣本量混淆。

然而,為了估計自動駕駛功能的行為與人類駕駛行為的偏差,通過使用以下等式計算了效應大小:

基于場景的自動駕駛評估方法

5.利用時間序列分類方法對相關場景進行分類

在之前的相關場景分類架構中,如[18],分類器的特征選擇和拟合是通過專家知識完成的,而本文提出的分類方法通過使用過濾器和包裝器函數實作自動特征選擇。此外,該方法利用分割算法考慮場景的時間序列特征。下面将介紹特征提取、特征選擇和分類算法選擇的方法。

A.特征提取

在對訓練和測試資料中從車輛感覺傳感器獲得的資料集進行适當劃分的基礎上,計算出合适的特征和名額。這些特性可以分為三組:

1)擴充特征

第一組将車輛資料和傳感器的不同信号與專家知識結合起來,生成新的特征。一個很好的例子是臨界名額,如時間到碰撞(TTC)或估計時間到下一個Cut-In機動的交通參與者。

2)拓展特征的導數

在第二組特征中,計算第一組特征的所有特征的導數。

3)擴充特征的分割

在第三組中,計算第一組特征的分段。由于時間序列是駕駛場景的基本組成部分,在分類方法中必須使用這些時間關系。在這種方法中,由于使用這種方法産生的低資料量,使用了[19]中提出的底部向上分割算法。利用斜率、均值和回歸線的長度計算信号時變區間的分段。對每個時間步計算基于分割的特征,而對每個時間步存儲前一個、目前和分割元素的分割資料。餘量平方和用于測量近似誤差的餘量平方和圖3顯示了特征“距離左車道”的信号分割示例。

基于場景的自動駕駛評估方法

B.特征選擇

在資料特征提取的基礎上,選擇和訓練相應的分類算法。首先,将帶有人類專家知識标記的駕駛場景資料集分為訓練資料集和測試資料集。訓練資料集用于基于過濾器和包裝器方法的自動特征選擇。最初的特征選擇是通過[27]中提出的幾種濾波方法完成的。為了找到特征的最終選擇,使用了包裝器函數。這些功能能夠對特征子集進行評估,是以,由于從選擇中添加和排除特征,在特征之間進行互動。通過剔除特征後的剩餘分類誤差來分析特征子集的性能。這裡使用正向選擇包裝器,因為該方法從單個特征的最小特征集開始,而向後選擇則從所有特征開始。由于這兩種方法的性能根據[26]是相同的,正向選擇包裝更有效。對于場景“Cut In”,表2中顯示的特征被選中。

基于場景的自動駕駛評估方法

C.分類算法的選擇

在特征選擇之後,可以使用訓練資料集訓練每個場景的分類器。分類器的性能通過其在測試資料集中正确檢測場景的能力來評估。由于給定的場景在給定的資料集中分布不均勻,F1Score被視為評估分類器性能的主要名額。下表顯示了自動化車輛測試資料和駕駛員參考資料集的標明分類算法及其在各個場景中的性能。然而,由于信号可用性和品質較低,駕駛員參考資料集的性能低于測試資料集。

基于場景的自動駕駛評估方法

6.結果

本節介紹了建議評估方法的結果。首先,給出了所用分類方法的結果和優點。之後,評估方法用于評估縱向自動化功能,重點是車輛在以下場景中的性能。

A.分類器的性能

通過分析所使用的分段分類技術對F1Score績效名額的影響,評估分類器性能。是以,作為基線,根據F1Score計算分類器的性能,而不考慮分割元素。沒有分割的結果與有分割的F1Score結果進行了比較。結果表明,特别是對于變道場景,分割對分類器性能有很大影響。與細分的F1得分名額相比,F1得分名額下降約ΔF1得分=-26.09%。關于cut-in和free driving/vehicle following場景,細分的影響可以忽略不計。(F1分數(F1 Score),是統計學中用來衡量二分類模型精确度的一種名額。它同時兼顧了分類模型的精确率和召回率。F1分數可以看作是模型精确率和召回率的一種權重平均,它的最大值是1,最小值是0。)

基于場景的自動駕駛評估方法

B.自動駕駛功能評估

為了确定自動駕駛功能的性能是否偏離人類駕駛行為,必須在規定的場景中對測試和參考資料進行分類。根據評估重點,分别針對應評估自動駕駛功能的場景,必須估計實際測試的測試距離。表IV中概述了使用第四節B中給出的方法估計的測試距離。

基于場景的自動駕駛評估方法

為了示範測試長度的估計方法,選擇了變道場景,而實際交通中275km的測試行駛是針對k=30變道情況進行的。對測試資料的分析證明,在260公裡的試駕過程中發生了23次換道情況,是以測試長度足夠。

對于人類駕駛行為參考資料,考慮了euroFOT資料集[18]。使用的參考和測試資料集如下表所示。

基于場景的自動駕駛評估方法

總共,在參考資料集中檢測到n=50827條分類車道變更情況。圖4顯示了所有分類平面變化情況的側向位移Sy的時間序列。此外,拟合的7階多項式回歸軌迹和95%的預測區間也得到了很好的計算。

基于場景的自動駕駛評估方法

為了示範駕駛場景中功能性能的評估,由于隻考慮了縱向自動化功能,是以選擇了車輛跟車場景。選擇用于評估的名額是縱向加速度軸和時間間隔THW。車輛跟馳/自由駕駛場景中橫向和縱向加速度的人駕駛參考資料如圖5所示,以對數标度表示。

基于場景的自動駕駛評估方法

1)縱向加速度

為了評估縱向加速度方面的功能是否偏離人類駕駛行為,按照第IV.D節中的建議計算影響大小。參考和試驗資料的分布如圖6所示。

基于場景的自動駕駛評估方法

通過使用等式(3)計算車輛跟馳情況下縱向加速度ax的影響大小,計算出的影響大小dFollow,ax=0.1284。根據[24],小于dsmall=0.2的效應大小可視為“小”影響。

2)時間間隔

為了評估訓示時間間隔,還确定了圖7所示參考和試驗分布的影響大小。

基于場景的自動駕駛評估方法

這裡,計算了以下效應大小,THW=0.1019。由于時間間隔和縱向加速度的影響大小可被視為“小”,是以自動化在車輛跟馳場景中的影響也可以被視為是“小”。

7.結論

本文提出了一種基于情景的方法,以利用人類駕駛行為評估自動駕駛。在分析駕駛場景特征的基礎上,提出了一種适用的場景分類方法,該方法同時具有場景分類和時間序列分段技術。通過使用衍生分類方法,将待評估的駕駛資料分類到相關駕駛場景中,其中通過計算統計名額“影響大小”來評估自動駕駛功能。使用泊松分布預先計算獲得足夠行駛資料所需的試驗工作量。結果表明,該分類方法能夠以足夠的性能檢測相關場景。最後,證明了所選縱向自動化示例的行為與人類參考行為僅存在“小”偏差。在進一步的研究中,作者計劃通過額外的模拟來分析自動駕駛,以涵蓋複雜自動駕駛功能運作的高維情況空間。

來源 | 軒轅實驗室

繼續閱讀