如果可以通過算法來判斷女朋友有沒有生氣。。。

作者 | 神經小姐姐

本文經授權轉自HyperAI超神經（ID：HyperAI）

知乎上有很多關于「如何判斷女朋友是否生氣」之類的問題，有人回答：字越少，事越大；還有人說：真生氣，一個月不聯系；假生氣，會撒嬌說「我生氣了」。

「女朋友是生氣了麼？」是千古難題

是以，女朋友的「我沒生氣/真的沒生氣」=「很生氣」；「我生氣了」=「撒嬌，沒生氣，親親抱抱舉高高嘛」。這樣的情緒邏輯讓直男們抓狂。

女朋友的情緒根本就感受不出來啊

究竟應該怎麼樣才能聽出女朋友到底生氣了沒呢？據說，AI 已經在聽音識情緒上做出成績，可能比男生抓耳撓腮地琢磨半天的結果更準确。

Alexa 語音助手：正在修煉成為暖男

亞馬遜語音助手 Alexa 在感覺情緒方面，可能比男朋友還機智。

今年，經過最新更新後，Alexa 已經能夠通過分析使用者指令的高低和音量等反應，識别出快樂、高興、憤怒、悲傷、煩躁、恐懼、厭惡、厭倦甚至壓力等情緒，并對相應指令做出回應。

比如，如果一個女生一邊擤鼻涕一邊咳嗽一邊又跟 Alexa 說自己有點餓了，那麼 Alexa 就會通過對女生說話的的音調（虛弱、低沉）和背景音（咳嗽、擤鼻涕）分析出她很可能得病了，然後發出來自機器的貼心關懷：要不要來碗雞湯，或者叫個外賣？甚至直接線上訂購一瓶止咳糖漿一小時内送貨上門？

這表現，是不是比鋼鐵直男男朋友還貼心？

人工智能做情緒分類已不是什麼新鮮事了，不過，最近，亞馬遜 Alexa Speech 團隊前段時間打破了傳統方法，發表了新的研究成果。

傳統的方法都是有監督的，其擷取的訓練資料已經根據說話者的情緒狀态被标記過。而亞馬遜 Alexa Speech 團隊的科學家最近采用了一種不同的方法，他們在國際聲學，語音和信号處理會議（ICASSP）上發表了介紹這種方法的論文《Improving Emotion Classification through Variational Inference of Latent Variables》（http://t.cn/Ai0se57g）

他們沒有采用詳盡注釋過「情感」的語料庫來訓練系統，而是提供了一個對抗自編碼器（AAE）。這是一個包含來自 10 個不同發言者的 10,000 個話語的公開資料集。

他們得到的研究結果是，在判斷人們的聲音中的效價（emotion valence）或情感價值（emotional value）時，神經網絡的準确度提高了 4％。在團隊的努力下，通過使用者聲音，便能可靠地确定使用者的心情或情緒狀态。

AAE 模型原理示意圖

論文的共同作者，Alexa Speech 組進階應用科學家 Viktor Rozgic 解釋道，對抗自編碼器是包含編碼器的兩部分模型——編碼器（encoder）和解碼器（decoder）。編碼器學習生成輸入語音的緊湊（或潛在）表示，編碼訓練示例的所有屬性；而解碼器重建來自緊湊表示的輸入。

對抗自編碼器的架構

研究人員的情緒表征由三個網絡節點組成，三個網絡節點分别用于三種情緒測量：效價，激活（activation，說話者是警覺的，投入的還是被動的），以及支配（說話者是否感覺被周邊局面控制）。

訓練分三個階段進行。第一階段使用無标簽的資料單獨訓練編碼器和解碼器。第二階段為對抗訓練，對抗性鑒别器試圖區分編碼器産生的真實表示與人工表示的技術，該階段用于調整編碼器。在第三階段，調整編碼器以確定潛在情緒表示，來預測訓練資料的情緒标簽。

為了捕獲有關語音信号的資訊，在涉及句子級特征表示的「hand-engineered」實驗中，他們的 AI 系統在評估效價方面比傳統訓練網絡的準确度提高了 3％。

此外，他們表示，當向網絡提供一組表示 20 毫秒幀(或音頻片段)聲學特性的序列時，效果提高了 4%。

MIT 實驗室打造神經網絡 1.2 秒感覺憤怒

亞馬遜不是唯一一家研究改進的基于語音的情緒檢測的公司。麻省理工學院媒體實驗室 Affectiva 最近示範了一個神經網絡 SoundNet：可以在短短 1.2 秒内（已經超越人類感覺憤怒所需時間）将憤怒與音頻資料分類，并且無論哪種語言。

Affectiva 的研究人員在新論文《Transfer Learning From Sound Representations For Anger Detection in Speech》（https://arxiv.org/pdf/1902.02120.pdf）中描述了該系統。它建立在語音和面部資料打造情感檔案的基礎上。

為了測試 AI 模型的通用性，該團隊使用以英文訓練的模型，對國語語音情感資料訓練的模型（國語情感語料庫，簡稱MASC）進行了評估。結果它不僅可以很好地推廣到英語語音資料，對漢語資料也很有效，盡管性能略有下降。

針對英文與中文的訓練結果 ROC 曲線，虛線表示随機分類器的 ROC

團隊表示，「識别憤怒應用廣泛，包括會話界面和社交機器人，互動式語音應答（IVR）系統，市場研究，客戶代理評估和教育訓練，以及虛拟現實和增強現實。」

未來的工作将開發其他大型公共語料庫，并為相關的基于語音的任務訓練 AI 系統，例如識别其他類型的情緒和情感狀态。

以色列 App 識别情緒：準确率 80%

以色列創業公司 Beyond Verbal 開發了一款名為 Moodies 的應用，它能夠通過麥克風采集說話者的聲音，經過 20 秒左右的分析，判斷說話者的情緒特征。

Moodies 擁有一套特殊的算法，軟體會對說話者的節奏、時間、聲音大小、停頓以及能量等情緒次元進行分析

盡管語音分析專家承認語言與情緒具有相關性，但不少專家卻質疑這種實時測算的準确性——這類工具收集到的聲音樣本非常有限，實際的分析可能需要收集數年的樣本。

「以目前認知神經學的水準，我們根本沒有技術真正地了解一個人的思想或者情感。」哥倫比亞大學心理學教授助理 Andrew Baron 說道。

不過 Beyond Verbal 負責市場的副總裁 Dan Emodi 表示，Moodies 經過了三年多的研究，根據使用者的回報，應用分析的準确率約為 80%。

Beyond Verbal 公司表示，Moodies 可以應用于自我情緒診斷、客服中心處理顧客關系甚至檢測求職者是否說謊，當然你也可以帶到約會的場景中，看對方是否真的對自己感興趣。

語音情緒識别依然面臨挑戰

雖然很多科技公司已經在這方面有着多年的研究，也得到不錯的成果。但是，正如上文 Andrew Baron 所質疑的，這項技術還面臨多個挑戰。

就像女朋友一句平靜的「我沒生氣」并不代表她真的沒生氣一樣，一個發音中可以包含多種感情，不同情感的邊界也難以界定，哪個情緒是目前主導的情緒？

國内某語音情緒識别産品展示

并不是所有的語氣都像視訊中這樣明顯與激烈，表達情感是一個個性化極強的事情，根據個人，環境甚至文化差異都很大。

此外，一種情緒可能持續很長時間，但期間也會有快速變化的情緒，情感識别系統是檢測長期的情緒還是短時的情緒呢？比如某人限于失業的痛苦中，但期間因為朋友的關心短暫開心了一下，但實際上他仍處于傷心狀态，AI 該怎麼定義他的狀态呢？

而另一個令人擔心的事是，當這些産品能夠聽懂人的情緒後，是否會因為使用者對它的依賴，而詢問更多隐私性的問題，擷取使用者多方面資訊，進而将「服務」變成「買賣」？

願你會擁有大白，也擁有真正懂你的人

很多人都想擁有一個溫暖又貼心的大白，這個在科幻動畫裡才有的高情商機器人，未來是否會成真呢？

非常低落而緩慢地跟小冰說話得到無情回答

目前，很多聊天機器人依然沒有情商，無法感覺使用者的小情緒，常常把天聊死。是以，真正能夠聽懂你的，依然是陪伴在你身邊傾聽你的人。

【END】