天天看點

基于傳感器的人類行為識别DL方法難在哪?這篇綜述列了11項挑戰

除此之外,他們還總結了可用于評估不同挑戰任務的公共資料集并讨論了尚待解決的問題,同時為未來的方向提供了一些見解。

基于傳感器的人類行為識别DL方法難在哪?這篇綜述列了11項挑戰

原文連結:

https://arxiv.org/abs/2001.07416

本文提出的分類體系可分為以下 11 個方面:

1. 特征提取(Feature Extraction)

特征提取是人類行為識别的關鍵步驟之一,也是得到高識别率的挑戰之一。這在一定程度上是由于人類活動的範圍很廣,而且某一特定行為的表現方式千差萬别。本文将特征提取的方法分為三類:時間特征提取(Temporal Feature Extraction)、多模态特征提取(Multimodal Feature Extraction)和統計特征提取(Statistical Feature Extraction)

基于傳感器的人類行為識别DL方法難在哪?這篇綜述列了11項挑戰

圖1. 幾種多模态特征提取的方法。

2. 注釋的稀缺性(Annotation Scarcity)

深度學習依賴大量的标記資料,然而,如此大量的可靠标記資料并不總是可獲得的,原因有二:1. 注釋過程是昂貴、耗時且非常繁瑣的;2. 标注過程容易受到各種噪聲源的影響,如傳感器噪聲、分割問題以及不同人之間活動的差異,這使得标注過程容易出錯。本文将解決注釋稀缺性的方法分為兩類:無監督學習(Unsupervised Learning)和半監督學習(Semi-supervised Learning)。其中,在沒有任何标記資料給定真值的情況下,無監督學習至今仍然無法獨立完成行為識别。是以,半監督學習的人類行為識别方法是最近的趨勢。

本文列舉了三種常用于行為識别系統的半監督學習方法,分别是:協同訓練(Co-training)、主動學習(Active Learning)和資料增強(Data augmentation)。

3. 類不平衡性(Class Imbalance)

類不平衡性是由于一些特定活動的傳感器資料很難擷取,比如老年人摔倒等等。此外,在不受限制的條件中記錄的原始資料天然地是類不平衡的。當使用不平衡的資料集時,傳統的模型傾向于預測訓練樣本數量較多的類别而忽略訓練樣本數量較少的類别。是以,類别失衡問題的解決迫在眉睫。

4. 資料的異質性(Heterogeneity)

許多最新的人類行為識别方法都假設訓練資料和試驗資料是獨立同分布的。然而,這是不切實際的。這是由于行為識别的傳感器資料是異質的。傳感器資料的異質性可以分為三類。

首先是使用者的異質性(Heterogeneity with Users)。由于生物和環境因素,同樣的行為由不同的人實施可以有不同的表現。例如,有些人走得很慢,有些人走得很快。第二個異質性與時間有關(Heterogeneity with Time)。在動态流環境中,行為的資料分布随着時間變化(Concept Drift),新的行為也可能出現(Concept Evolution/Open-Set)。第三類異質性與傳感器有關(Heterogeneity with Sensors)。用于人類活動識别的傳感器通常是敏感的。一個小變化會對傳感器資料造成很大的幹擾。可能導緻傳感器異質性的因素包括傳感器執行個體(Sensor Instances)、類型(Sensor Types)、位置(Sensor Positions)和布局(Sensor Layouts)。

考慮到以上三種類型産生的資料異質性,且在現實場景中識别系統常常在無限制的情況下布置傳感裝置,我們可以觀察到訓練資料和測試資料兩者之間的分布差異,是以,無縫的深度學習模型對于行為識别是必要的。

基于傳感器的人類行為識别DL方法難在哪?這篇綜述列了11項挑戰

圖 2. 三種随時間變化的異質性的分布情況。

5. 複合行為(Composite Activities)

大多數人類行為識别任務是基于簡單的活動,比如走路和坐着。然而,記錄人類日常活動更有意義的方式是由一系列簡單行為組成的複合行為。例如,「洗手」可以表示為 {打開水龍頭,皂洗,搓手,關掉水龍頭}。由于複合行為不僅僅需要識别人體活動,還需要識别周遭環境的資訊,是以比識别簡單行為更有挑戰性。

6. 資料分割(Data Segmentation)

由于原始傳感器資料由連續流信号表示,是以固定大小的視窗通常被用于将原始傳感器資料序列分割成段,作為模型的輸入。這對于克服單一時間步長樣本的限制是至關重要的。理想情況下,一個分區資料段隻有一個行為,是以一個模型對于單一視窗内的所有樣本隻預測一個标簽。但是,一個視窗中的樣本不一定總是共享相同的标簽,尤其是在行為轉換的過程中。是以,一個好的分割方法是提高行為識别精度的關鍵。

7. 并行行為(Concurrent Activity)

在真實的場景中,除了按順序逐個執行每個行為之外,一個人可以同時進行多個行為,這被稱為并行行為。例如,一個人可以在看電視時打電話。從傳感器的角度來看,一段資料可能對應多個行為。是以,并行行為識别可以抽象為一個多标簽任務(multi-label task)。

8. 多人行為(Multi-occupant Activity)

生活和工作空間通常由多個人居住,是以,設計解決多人行為問題的方案具有重要的現實意義。主要有兩種類型的多人行為:1. 平行行為(Parallel Activity),比如一個人在吃飯,另一個人在看電視。2. 合作行為(Collaborative Activity),多個居住者合作執行相同的活動,如兩個受試者打乒乓球。對于平行行為的識别,當隻有可穿戴傳感器時,可将其劃分為多個單人行為識别任務,并采取傳統的解決方案;當使用環境或對象傳感器時,資料關聯映射到多人的感覺信号是主要挑戰,并且随着空間中人數的增加而變得更加困難。合作行為通常包括人與人之間的互動并使用各種器械,是以,上下文和對象使用資訊在設計識别解決方案中起着至關重要的作用。

9. 運算成本(Computation Cost)

雖然深度學習模型在基于傳感器的人類行為識别中顯示出了主導作用,它們通常是資源密集型的。例如早期的 DCNN 架構,AlexNet,它有 5 個 CNN 層和 3 個全連接配接層,處理 61M 參數(249MB 記憶體),執行 1.5B 高精度操作進行預測。對于不可移植的應用程式,我們通常使用圖形處理單元(GPU)加速計算。然而,GPU 是非常昂貴和耗電的,是以不适合用于移動裝置上的實時應用程式。目前的研究已經證明了通過引入額外的層和節點來加深神經網絡是一種關鍵的提高模型性能的方法,但是這樣不可避免地增加了計算複雜度。是以,如何解決計算量大的問題實作實時性是一個非常重要和具有挑戰性的課題。

10. 隐私性(Privacy)

人類行為識别的主要應用是對人類行為的監測,是以傳感器需要不斷地捕捉使用者的活動。由于執行行為的方式因使用者而異,是以對手可以通過時間序列傳感器資料推斷使用者的敏感資訊,如年齡。具體來說,對于深度學習技術而言,其黑箱特性可能會在無意中暴露出使用者的鑒别特征。研究表明,即使 CNN 隻接受針對行為分類的交叉熵損失訓練,所獲得的 CNN 特征仍然具有很強的使用者識别能力。是以,解決深度學習模型的隐私洩露問題至關重要。

11. 深度學習對于傳感器資料的可解釋性(Interpretability of Deep Learning Models in Sensory Data)

人類行為的傳感器資料是不可讀的。一個資料樣本可能包括在一個時間視窗内從多個位置(如手腕、腳踝)得到的不同資料(如加速度、角速度)。但是,隻有少數從具體位置采集的資料有助于确定某些活動。不相關的資料會引入噪聲,影響識别性能。此外,資料的重要性随時間而變化。例如,在帕金森病檢測系統中,異常隻出現在短時間内的步态中,而不是整個時間視窗中。直覺地說,當身體的某個部分在積極地運動時,相關的資料才有更大的意義。本文将用于人類行為識别的可解釋的深度學習方法分為三類:傳統方法,軟注意力方法(Soft Attention)和硬注意力方法(Hard Attention)。

基于傳感器的人類行為識别DL方法難在哪?這篇綜述列了11項挑戰

表 1. 常用的公共資料集。

本文為機器之心釋出,轉載請聯系本公衆号獲得授權。

繼續閱讀