在這個科技公司不斷推出新形式的魔法般的日常技術的時代,還有一個看起來尚未解決的問題:長篇轉錄(long-formtranscription)。當然,檔案的語音聽寫(voice dictation)已被 nuance 的 dragon 軟體征服。多虧了自我學習的遞歸神經網絡和其它 21 世紀的神奇技術,我們的手機和智能家居裝置已可以了解相當複雜的指令。但是,為長段的實際人類對話提供精确轉錄的任務仍然超出了今天甚至最先進的軟體的能力。
當這一問題能得到大規模地解決,那就可能解鎖口述曆史的浩瀚檔案,讓追求速度的讀者(太長了就不聽)可以更容易消化播客(podcast)内容,而且它還能成為改變各地記者的世界的福利,解放美好生活中寶貴的幾個小時。它能讓人使用文本來搜尋 youtube。對研究者而言它就像是幻想變成了現實,但對其他人而言,它會帶來一個有新形式文本全景監獄(panopticon;譯者注:全景監獄指有全方位監控手段的監獄,犯人的一切都處于監控之中;盡管實際上完全監控是不可能的,但因為潛意識裡被注視,犯人會保持安分)的反烏托邦(美泰公司語音識别驅動的「你好芭比」已能夠偵聽與它玩的孩子,這樣的反烏托邦可能已經存在了)。研究者聲稱可用的轉錄技術隻是一個時間問題,盡管到底需要多少時間還是一個未知數。
為長段的實際人類對話提供精确轉錄的任務仍然超出了今天甚至最先進的軟體的能力。
「我們過去常開玩笑說,語音識别要麼是可以解決的,要麼是不可能的,這要看你問的是誰了。」隸屬于加州大學伯克利分校的國際計算機科學研究所(icsi)音頻和多媒體實驗室主管 gerald friedland 說,「事實介于兩者之間。」與說話者無關的自然的人類語音的轉錄的未來會是怎樣?關于它的答案的範圍表明這個玩笑屬于一類「因為真實是以可笑」的笑話。
「如果你讓人來轉錄電話上的對話語音,錯誤率大約為 4%。」微軟一位資深科學家黃學東說,他的牛津計劃為萌芽中的語音識别企業家提供了一個可以使用的公共 api。「如果你将所有系統結合到一起——結合 ibm 和谷歌和微軟以及所有最好的——讓人驚訝的是這個錯誤率将達到大約 8%。」黃學東還估計商業上可用的系統的錯誤率大概接近 12%。「這沒有人類那麼好,」黃學東坦言,「但這是語音界所能做到的最好的。其糟糕程度大約是人類的兩倍。」
但黃學東很快補充說就算和五年前的這一領域進行比較,這樣的錯誤率也是非常了不起的。而且現在已經到了開始讓他對聽覺感到興奮的時候了。
從 80 年代初在北京的清華大學開始,30 多年來黃學東一直在研究語音識别的問題。「我們有這個與計算機進行自然對話的夢想,」黃學東說,還列出了1995 年在卡内基梅隆大學 raj reddy 的開創性的實驗室以及在微軟開始的一長串「魔法時刻」和标杆事件。黃學東參與了這一過程,并在 2014 年 1 月的《communicationsof acm》期刊上發表了一篇與 reddy 和 dragonsystems 公司的 jim baker 合著的論文《語音識别的一個曆史視角》。
「十年前,(錯誤)率大概是 80%!」他說,「接下來有一個從80% 到 10% 的錯誤減少,而現在我們在接近 8%!如果我們能在接下來 2 或 3 年保持這一趨勢,肯定會發生一些神奇的事情。預測未來總是很困難的,但基于這一領域而不是某個個人的曆史資料和跟蹤記錄……在未來 2 或 3 年内,我認為我們将在一個典型的移動手機配置上接近人類的語音轉錄水準。」
百度機器學習團隊的一位研究科學家 carl case 正在為這個中國的網絡巨頭開發自己的語音識别系統 deep speech。
「我們使用最先進的英語和漢語語音系統在 deep speech 中取得了一些非常良好的進展,」case 說,「但我仍然認為要從『在一些背景對一些人可用』到真正對你我之間的這場對話同樣可用(從未見過面,通過一個相對嘈雜的電話線,但互相了解并沒有問題),還有一些工作要做。」case 及其同僚已經在有風的、背景中播放着音樂和其它不利條件下的汽車中測試他們的技術了。和他們微軟的同行一樣,他們也向公衆釋出了他們的 api,部分是以科學的名義,還有部分是因為它得到的使用者越多,它就會變得越好。
話語的經濟
對于自由職業者和其他類型的想要轉錄卻無力負擔每分鐘 1 美元的傳統轉錄員的人來說,解決方案是存在的。但是,它們都不是完全完美的。程式員(偶爾也給 wired 投稿)andy baio 寫了一個可以将音頻采訪切割成 1 分鐘的片段的腳本,然後該腳本會将這些片段上傳到亞馬遜的 mechanical turk,然後将轉錄這些一分鐘片段的工作外包給一組人類。它是節省了金錢,但卻需要一些不可小看的準備和整理。(casting words 似乎已經建立了一個基于同樣技術的商業模式,但其收費還是回到了每分鐘 1 美元。)為了更容易操作衆包接口,還有一個共享經濟時代的網站transcribeme——由一個小型的人工轉錄者大軍提供轉錄,他們聽從該公司的召喚「貨币化你的空閑時間(monetizeyour downtime)」。
google docs 為有興趣進行測試的人提供了一個内置的免費可用的語音轉錄工具。你可以在你的計算機上播放錄制好的音頻,該系統将會盡可能好地在一個谷歌文檔中得到合适的文本。但在為本文而使用 skype 錄制的 5 次電話采訪中,僅僅隻有一個被認為說得足夠慢和清晰而可識别轉錄成文本,其錯誤率大約為 15%。那些隻想轉錄播客的人可能會有更好的運氣。
盡管目前已有的轉錄技術不能處理有多種聲音或背景嘈雜的音頻,但像 nuance 的 dragon naturallyspeaking (也是卡内基梅隆大學 reddy 的實驗室的産物)這樣的可靠軟體在處理經過訓練的單一語音上已具有相當好的能力。《speech technology》雜志編輯部主管 david byron 提出了一種叫做「parroting(鹦鹉學舌)」的技術:實時聽錄音并用麥克風将其重複錄入以用于軟體進行轉錄。這節省了一些打字工作,但還遠遠不夠即時——而且還會迫使采訪者重溫他們最尴尬的采訪時刻。
語音障礙
roger zimmerman 是一位懷疑長篇轉錄技術即将實作的人,他是 3play media 公司研發部門主管,該公司可能是目前唯一一家提供自動長篇轉錄商業應用的公司。zimmerman 說他們使用了一些不能透露的供應商的 api 的組合,3play 最初的轉錄平均有 80% 的準确度——有時會多一點,有時會少一點——并在被發送給客戶之前還會用人類轉錄員進行校對。「語音識别技術還遠遠沒接近人類的能力,」zimmerman 說,「而且很多很多年内都不能達到,我的猜測是還需要幾十年。」「人們不像文本一樣說話,」zimmerman 說,自 1980年代他在麻省理工學院下屬的voice processing corporation 找到一份工作以來,他就一直在研究語音技術。「我已經猶豫過,我已經糾正過,我已經回來并重複了,而在無組織性的自然語音上,這種語言模型并不适合。這是其中薄弱的組成部分。這是現在依賴于基本的人工智能的系統的組成部分。他們用聲學模組化已經實作的是信号處理方向的任務,而且這些新的深度神經網絡有很好的架構設計,他們在解碼一個聲學信号時了解他們正在做的事,但他們并不真正了解要模仿人類的語言交流過程一個語言模型需要做什麼。他們在使用數字運算來解決高很多的尚未得到真正解決的人工智能問題。」
但 jim glass 認為「這并沒有那麼難」,他是麻省理工學院的一位進階研究科學家,上司着口語系統(spoken language systems)研究組,他同時還是 3play 的一位顧問。glass 說,事實上這項技術已經有了。「思考這個問題的方式是(問)你的需求所能容許的錯誤率是多少,是以如果你過一遍這個轉錄過程後還會跳回到音頻上進行驗證,你可能願意容忍一定的錯誤量。今天的技術已能足夠好的做到這一點了。需要有人來決定他們想讓這項能力可用。」
「曆史上,語音技術的部分問題是公司們在尋找如何從中牟利的方法,而我不知道它們是否已經知道了該怎麼樣去做。」glass說,他指出現在已有一些提供給想在這一新興領域有所作為的開發者的工具包了。
豐富的探讨
尚未被結合到 google voice 這樣的商業可用的轉錄技術中的部分是「兩方分類(two party diarization)」,即一種可以确定說話人和說話内容的獨立于說話者的系統。一個人講清楚是一回事,但參與到活躍對話中的兩個人則完全是另一回事。而這至少在科學研究的疆域内是一個已經得到了部分解決的問題。有一個專門針對于此的領域:富轉錄(rich transcription)。2012 年,電氣和電子工程師協會(ieee)将它們《transactions on audio, speech, andlanguage processing》期刊的一整期都奉獻給了「富轉錄中的新前沿」。
曆史上,語音技術的部分問題是公司們在尋找如何從中牟利的方法,而我不知道它們是否已經知道了該怎麼樣去做。
gerald friedland 說,在一個相對清楚的電話線上,目前的技術可以 98% 的準确度識别說話人。friedland 在非營利性的 icsi 中上司着分類項目(diarization project),該組織參與了美國國家标準和技術協會營運的試驗。通過會議記錄項目(meeting recorder project)測試群體錄音的情形,icsi 确認一旦麥克風不再是手機提供的那種近程類型時,錯誤率将躍升至 15% 到 100% 之間。friedland指出一旦現在很多研究者研究的相對清楚的廣播新聞語音轉錄為長篇文本的問題得到了解決,這種範圍的問題就必須得到處理。
他說:「如果你将你的手機放在桌子上,想盡可能地錄下被說出的一切,然後再嘗試轉錄它,你将遇到很多這些問題的組合:新詞彙(話語)、雞尾酒會噪音問題、常見噪聲、人們說話重疊和人們從不完美地說話。它會有咳嗽聲和笑聲,還可能有大喊大叫,也可能有竊竊私語。它變得非常多樣化。」在分類研究的失敗測試中常常導緻混亂的兩個聲音頻譜是兒童和老人的聲音。
「你可以結合這些場景,」他說,「我認為這一切保證了就像人類一樣聽懂的完美的語音識别器不會在一個可預見的時間内實作。你和我可能看不到那一天。」
這不應該被解讀成:意味着我們不是生活在一個語音技術的黃金時代。這個月,friedland 幫助在 kickstarter 上推出了 movi,一個基于 arduino 的且無需使用雲就能運作的語音識别器/語音合成器。「它不使用網際網路,」friedland 說,「要做識别,你不一定需要使用雲。它有幾百個句子就能工作,而且它能适應。」他嘲笑了索尼、蘋果、谷歌、微軟等将語音發送到雲中進行處理的公司。「所有這些都在利用人們認為(語音識别)是非常困難的,是以需要在雲端完成的事實。如果你有一個對着計算機說話的揚聲器,我們應該就能認為這個問題已經得到了解決。」
對于目前而言, friedland 說,大部分轉錄創業公司都授權使用了谷歌的 api 并以此作為開始。但這一領域和市場對每一層次的創新都是敞開的,隻要一個項目取得了成功,那就會有各種離奇的前所未見的社會變化到來。
本文來源于"中國人工智能學會",原文發表時間"2016-05-26"