天天看點

自動抑郁症檢測:一個情感音頻文本語料庫和基于GRU/BILSTM的模型

作者:史内芬Schnieffen

抑郁症是全球性的心理健康問題,最嚴重的情況可能導緻自殺。自動抑郁症檢測系統在促進抑郁症自我評估和提高診斷準确性方面提供了巨大幫助。是以,本文提出了一種新穎的抑郁症檢測方法,利用參與者訪談中的語音特征和語言内容。

此外,本文建立了一個情感音頻文本抑郁語料庫(EATD-Corpus),其中包含抑郁症和非抑郁症志願者的音頻和提取的轉錄響應。

自動抑郁症檢測:一個情感音頻文本語料庫和基于GRU/BILSTM的模型

情感音頻文本抑郁語料庫

EATD-Corpus是第一個也是唯一一個包含中文音頻和文本資料的公共抑郁症資料集。在兩個抑郁症資料集上評估,所提出的方法取得了最先進的性能。超越其他方法的結果表明了所提出方法的有效性和泛化能力。

而自動抑郁症檢測的相關工作,則可以從五個部分來描述:分析傳統方法、去中心化的整合程式、收集資料集EATD-CORPUS、多模态抑郁症檢測方法和實驗與結論的分析。

傳統方法

分析傳統方法,抑郁症是一種常見的心理障礙,其主要症狀包括持續的低落情緒、失去興趣和缺乏精力。在最嚴重的情況下,抑郁症可能導緻自殺。根據世界衛生組織的報告,全球約有2.64億人患有抑郁症。

然而,全球抑郁症患者的治療率仍然很低。這主要歸因于兩個因素。

首先,傳統的抑郁症治療方式耗時、費用高,有時也不太有效。診斷和治療的成本可能成為财務困難者的沉重負擔,是以使他們不願意向醫生尋求幫助。

其次,在抑郁症診斷的臨床訪談中,患者可能會隐瞞他們的真實心理狀态,以免受到對抑郁症患者的偏見或歧視行為。在這種情況下,臨床醫生無法做出正确的診斷。

上述因素促使了自動抑郁症檢測系統的出現,該系統可以幫助個人私下評估自己的抑郁狀态,并增加他們向心理學家咨詢的意願。

此外,在患者隐瞞真實心理狀态時,這樣的系統對心理學家診斷抑郁症也将大有幫助。

早期的自動檢測抑郁症的研究緻力于從與抑郁症高度相關的問題中提取有效特征。是對臨床訪談的文本記錄進行内容分析,手動選擇與某些主題相關的問題(例如睡眠品質或最近的感受)。基于從標明問題中提取的文本特征,并使用随機森林來檢測抑郁傾向。

同樣,前人在分析訪談記錄後也手動選擇與抑郁相關的問題。使用所選問題建構決策樹來預測參與者的抑郁狀态。再後來對話題模組化進行了拆分,将訪談拆分為主題相關的片段,并從中提取音頻、視訊和語義特征。

采用特征選擇算法來保留最具區分性的特征。還有的建構了與抑郁診斷、醫療/心理治療或消極情緒等因素相關的語義名額。利用高斯階梯模型,這些在抑郁檢測方面取得了良好的表現。

去中心化的整合程式

去中心化的整合程式,在自動抑郁症檢測領域,目前存在一些限制。

是以,一些方法嚴重依賴于手動選擇的問題,需要心理學家的專業知識參與。此外,所有這些預設問題都必須在采訪過程中回答,否則分析可能會失敗。如何在沒有預設問題的情況下提高檢測性能仍然是一個具有挑戰性的任務。

為促進抑郁症檢測的研究,首先建立了EATD-Corpus,一個公開可用的中文抑郁症資料集,包括來自162名志願者采訪的音頻和文本轉錄。然後,本文提出了一種新穎的自動抑郁症檢測方法。

在該方法中,使用Gate Recurrent Unit (GRU)模型和一個帶有注意力層的Bidirectional Long Short-Term Memory (BiLSTM)模型來彙總音頻和文本特征的表示。此外,一個多模态融合網絡将彙總的特征整合到抑郁症檢測中。

收集資料集

收集資料集,本文開發了一個應用程式,通過這個程式虛拟面試官會問每個受訪者三個問題,并收集他們的音頻回答。受訪者可以錄制回答并線上上傳回答音頻。此外,每個志願者都需要完成一個SDS問卷,分數表明志願者的抑郁症嚴重程度。

目前,已經有162 名志願者成功完成了線上面試。根據他們的 SDS 分數,30名志願者被認為患有抑郁症,其餘132名志願者則沒有抑郁症。

對收集到的音頻進行了幾個預處理操作。首先,删除無聲音頻、持續時間小于1秒的音頻以及錄音開頭和結尾的靜音部分。然後,使用預設參數的RNNoise消除背景噪聲。之後,使用Kaldi從音頻中提取轉錄文本。最後,對所有轉錄文本進行了手動檢查和更正。

還有一個英文資料集,DAIC-WoZ資料集是一個公開的英文抑郁症資料集,包含了142名參與者的錄音和文字轉錄,并标注了PHQ-8得分。

PHQ-8問卷是另一種用于抑郁症篩查的流行問卷,但相比SDS,其問題更少。PHQ-8得分大于或等于10的參與者被視為有抑郁症。

DAIC-WoZ資料集包含一個訓練集(30個抑郁症患者和77個非抑郁症患者)、一個開發集(12個抑郁症患者和23個非抑郁症患者)和一個測試集,但測試集不公開。實驗最終在DAIC-WoZ和EATD-Corpus資料集上進行。

多模态抑郁症檢測方法

利用多模态抑郁症檢測方法,本文提出了一種高效的自動抑郁症檢測方法。包括一個門控循環單元(GRU)模型和一個帶有注意力層的雙向長短期記憶(BiLSTM)模型。

這兩個模型總結音頻和文本表示,然後将它們連接配接起來,并傳遞到一個一層全連接配接(FC)網絡。模态注意力是一個訓練好的權重向量,用于預測兩種模态的重要性。FC網絡輸出一個二進制标簽,訓示是否存在抑郁症。

自動抑郁症檢測:一個情感音頻文本語料庫和基于GRU/BILSTM的模型

該方法使用文本和音頻特征來預測抑郁狀态。

文本特征是通過使用ELMo将轉錄句子投影到高維句子嵌入中提取的。對于音頻特征,從音頻中提取Mel頻譜圖。然而,提取的Mel頻譜圖的大小差别很大,因為音頻長度範圍從2秒到1分鐘不等。是以,進一步采用NetVLAD從Mel頻譜圖生成相同長度的音頻嵌入。

自動抑郁症檢測:一個情感音頻文本語料庫和基于GRU/BILSTM的模型

為了提取文本特征,采用帶有注意力層的雙向LSTM模型,用于強調哪些句子對抑郁檢測最有貢獻。該模型由兩個BiLSTM層組成,其輸出被饋送到注意力層進行權重計算。接下來的兩層全連接配接網絡用于預測參與者是否處于抑郁狀态。

GRU模型用于處理音頻特征,将音頻嵌入總結為音頻表示。所提出的GRU模型由兩個GRU層組成,接下來是一個兩層FC網絡,輸出二進制标簽,預測是否存在抑郁症。為了整合音頻和文本資訊,GRU模型和BiLSTM模型的最後一層生成的表示被水準拼接起來。

Modal attention是一個訓練的權重向量,表示不同模态的重要性。注意力向量和拼接的表示的點積産生權重表示,然後傳遞到單層FC網絡中。

自動抑郁症檢測:一個情感音頻文本語料庫和基于GRU/BILSTM的模型

分析實驗結果

分析實驗結果,在抑郁症資料集中,資料不平衡問題嚴重存在。

不平衡的資料集會給訓練的分類模型引入對非抑郁的偏好。是以,在訓練之前需要平衡抑郁和非抑郁兩個類别的樣本數量。在這項工作中,本文采用重采樣來解決資料不平衡問題。

對于DAIC-WoZ資料集,通過組重采樣來平衡兩個類别的樣本數量。每個參與者的每10個響應被分組,同時還包括相應的音頻和文本記錄。從不同的抑郁症參與者的組中随機選擇樣本,直到兩個類别的樣本數相等。

例如,可以從DAIC-WoZ資料集中建構出一個平衡的訓練集,其中包含77個抑郁樣本和77個非抑郁樣本。需要注意的是,重采樣僅在訓練集中執行。在測試階段,從每個個體的響應中随機選擇一個音頻和文本片段用于評估。

自動抑郁症檢測:一個情感音頻文本語料庫和基于GRU/BILSTM的模型

對于EATD-Corpus,采用重新排列志願者響應的方法來增加抑郁類别的大小。三個響應的順序被重新排列,這些重新排列的響應被重采樣以建立新的訓練樣本。因為每個個體有6種響應重新排列方式,是以抑郁類别的大小可以增加6倍。

在DAIC-WoZ的文本轉錄中,同一問題的回答被連接配接在一起,并編碼為ELMo的所有三層嵌入的平均值。為每個參與者獲得一個N × 1024的矩陣,其中N是問題數量。

為了解決資料不平衡的問題,該矩陣被分成大小為10 × 1024的m個小矩陣,其中m是 N除以10的整數部分。對抑郁症患者的分割矩陣進行重新采樣.相應的音頻根據文本轉錄中的時間戳進行分段。從提取的Mel頻譜中生成256維音頻嵌入的NetVLAD。

與文本特征類似,對于每個參與者獲得的矩陣被分成子矩陣并進行重新采樣。

在提取音頻和文本嵌入之後,使用GRU模型和帶注意力層的BiLSTM模型進行訓練。然後,将128維文本256維音頻表示水準連接配接以訓練模态注意力。連接配接表示和模态注意力的點積被饋送到多模态網絡中,該網絡生成二進制标簽。

為了性能比較,報告F1分數、召回率和精确率值。

該方法與某些現有的抑郁症檢測方法的表現可以看出,與僅采用音頻特征的方法相比,所提出的GRU模型獲得了最高的性能,其F1分數為0.77。與僅采用文本特征的方法相比,所提出的BiLSTM模型獲得了第二好的性能,其F1分數為0.83,僅比最佳方法差了0.01。

所提出的多模态融合方法産生了最好的結果,其F1分數為0.85。與接受音頻和文本特征的其他方法相比,改進的方法獲得了更好的性能。此外,提出的單模态模型和融合模型的召回率接近于1。這表明改進的方法在實踐中可以發現大多數抑郁症患者。

自動抑郁症檢測:一個情感音頻文本語料庫和基于GRU/BILSTM的模型

在EATD-Corpus資料集上,使用三折交叉驗證評估了所提出方法的性能。志願者被分成三組,其中兩組用于訓練,另一組用于測試。對訓練集中每個抑郁志願者的音頻和轉錄進行了重新排列和重采樣。

然後,從訓練集和測試集中提取了大小為3×256和3×1024的音頻和文本嵌入。分别訓練了所提出的GRU模型和BiLSTM模型來生成表示,然後将它們連接配接起來傳遞到多模态融合網絡中輸出二進制标簽。

本文還評估了三個傳統分類器的性能,即SVM、随機森林和決策樹。所有這些方法都使用三折交叉驗證進行評估。可以看到,當僅使用單一模态時,提出的GRU/BiLSTM模型與其對手相比表現最佳。

當僅考慮音頻特征時,方法的F1分數為0.66,而第二個最好的F1分數為0.50。對于文本特征,改進後的方法的F1分數為0.65,而第二個最好的F1分數為0.64。

結果表明了改進的方法在處理抑郁症檢測問題方面的優勢。與使用單一模态的模型相比,融合模型表現出更高的性能,F1分數提高到0.71。同樣,融合模型的召回率也顯著提高到0.84,表明方法可以檢測到大多數抑郁症狀例子。

是以,融合性能隻在兩種基于深度學習的方法之間進行了比較。這些結果證明了所提出的融合方法的有效性。 DAIC-WoZ和EATD-Corpus的結果表明,改進的方法具有強大的泛化能力,可以應用于不同的抑郁症資料集。

總結本次的工作,釋出了第一個公開的中文抑郁症資料集EATD-Corpus。該資料集包括162名志願者對三個情緒相關問題的音頻響應,同時還提供了音頻的文本轉錄,并經過人工校正。

考慮到公共多媒體抑郁症資料集的稀缺性,EATD-Corpus為從事抑郁症研究的心理學和計算機科學研究人員提供了寶貴的資料資源。

此外,提出了一種新的抑郁症檢測方法,該方法可以通過分析參與者的音頻信号和語言内容來檢測抑郁症狀态。

改進的方法将音頻/文本特征編碼為嵌入向量,不依賴于采訪中提出的問題内容。在兩個抑郁症資料集DAIC-WoZ和EATD-Corpus上評估了所提出方法的性能。

通過實驗結果表明,兩個抑郁症資料集所提出的方法非常有效。而專業人員們,也會以此為依據,開發一個應用程式,在基于這個切實可行的方法下讓使用者能夠自我檢測抑郁症狀态。

繼續閱讀