天天看點

微軟收購NLP明星公司Maluuba,Bengio将成為微軟顧問

微軟收購NLP明星公司Maluuba,Bengio将成為微軟顧問

公司背景

加拿大滑鐵盧大學(University of Waterloo)以計算機學科聞名,2011 年 8 月 18 日,學校在讀研究所學生 Kaheer Suleman 發明了一款智能程式,取名 Maluuba。同年,他與幾位同學創立了 Maluuba 公司,他們最初的想法是做一款智能語音旅行工具,使用者可以通過語音搜尋航班。

2012 年 2 月,Maluuba 從三星風投獲得 200 萬美元種子輪投資。半年後,他們的第一款産品出現在公衆視野中,這款程式能把使用者的語音請求轉化為有用的資訊或行動。雖然不少媒體将之稱為「Android 平台的 Siri」,但 Maluuba 的初衷卻是要挑戰 Siri,而後續發展也表明,Maluuba 的确比 Siri 更出色。

Maluuba 通過綁定第三方服務來實作語音助手功能。2012 年 11 月,公司對外釋出了自然語音處理 API 接口,移動開發者可以在自己的應用中添加類似 Siri 的語音處理功能。2012 年 12 月份推出了語音購物功能,使用者可以通過語音進行購物。在語音助手領域,Maluuba 的步伐比較快。

2013 年,随着越來越多消費類電子産品公司和裝置制造商樂于将一些新技術融入自己産品,Maluuba 也加快了與智能手機、電視、自動駕駛汽車等公司的合作。比如,LG 旗艦 G 系列手機的 voicemate 應用就采用了 Maluuba 的技術。2013 年 2 月,Maluuba 正式宣布向 Windows Phone 平台遷移。Maluuba 的 Windows Phone 8 版本擁有 Android 版本的大部分功能,例如可以搜尋餐館、影院、新聞和企業(以及進行語音購物)、設定鬧鐘、提醒和會議安排、打電話、發短信和郵件、訓示方向和天氣,甚至還內建了 Outlook 月曆。

Maluuba 最初願景是想讓機器擁有人類水準的了解力。人工智能面臨的重大挑戰之一就是那些缺乏大規模标記資料集的領域,或者難以對相關環境進行較好模拟的領域。語言就是一個很好例子。網際網路上包含有無窮無盡的網頁,但上面全都是文字,沒有一個地方找得到以機器能夠了解的形式所書寫的關于這些文字意思的内容。是以,機器學會閱讀将是人工智能在處理和了解人類語言程序中一個裡程碑式事件,也是一個真正人工智能必須達到的标準。

不過,Maluuba 成立之初就認識到,深度強化學習的基礎研究和技術成熟尚需時日。2014 年,時機趨于成熟。标志性事件就是 DeepMind 采用了深度學習技術的人工智能程式在無需監督的情況下,就可以掌握多種電子遊戲。

2015 年 8 月,Maluuba 融資 900 萬加元(A 輪)用于進一步推進深度學習研究。同年 12 月,Maluuba 在深度學習重鎮——加拿大蒙特利爾開設了一個新的研發實驗室(有 13 名深度學習研究人員,負責人是公司 CTO Kaheer Suleman)。Maluuba 關注機器學習中的兩個細分研究領域:對話和機器了解。同時,像 Maluuba 也更關心研發解決通用問題的人工智能,對解決真實世界問題更感興趣。他們相信自己能找出更好的人機互動方式,并與蒙特利爾大學教授、人工智能專家 Yoshua Bengio 和阿爾伯塔大學教授、強化學習專家 Richard Sutton 等展開合作。

目前,全世界已有超過 5000 萬台移動電子裝置(比如,智能手機、自動駕駛汽車等)采用了 Maluuba 的自然語言處理服務。

重要成果:EpiReader

2016 年 3 月,Maluuba 登上新聞頭條。研究人員釋出論文(

http://arxiv.org/abs/1603.08884v1

),介紹了他們最新的進展。論文描述了一個能夠閱讀幾百個童話故事的算法。訓練結束後,該算法可以正确地回答算法并不熟悉文本的多選題,準确率超過 70%。研究人員還在《哈利波特和魔法石》上進行測試,該算法能夠以近似的準确率回答相關文本問題。這一成績超過當時最好的神經網絡方法 15%,也比當時最好的特征工程解決方案好 2%。Yoshua Bengio 說:「從數字上看,這是一次大的飛躍。」

4 月,Maluuba 将一段技術示範視訊放上了 YouTube,視訊中的人工智能機器人 Marcy 在閱讀了第五季《權利的遊戲》梗概後,馬上領會了故事的複雜情節。好比對這部美劇一無所知的普通人在簡單閱讀維基百科劇情介紹後,立刻弄懂了整個故事。

微軟收購NLP明星公司Maluuba,Bengio将成為微軟顧問
點選檢視原視訊

技術示範表明,Maluuba 已經可以處理大批量的文字資料,并且能回答更加複雜困難的開放性問題了。在機器學習和人工智能領域,這是一個巨大的突破。Maluuba 的産品副總裁 Mohamed Musbah 表示:「人們在未來的幾個月中會看到一些非常有趣的事情。」

2016 年 6 月 7 日,Maluuba 在 arXiv 上發表了一篇論文《Natural Language Comprehension with the EpiReader》(arXiv:1606.02270),介紹了一種全新的機器文本了解模型 EpiReader。

在之前機器之心的專訪中,Maluuba 介紹說,EpiReader 采取兩個步驟來确定問題答案。第一步 (Extractor), 我們使用了一個雙向 GPU 逐字閱讀故事和問題,接着采用一種類似 Pointer Network 中的 Attention 機制在故事中挑選出可能作為答案備選的單詞。第二步 ( Reasoner ),這些備選答案被插入「完型填空」式的問題中,構成一些「假設」,接着卷積神經網絡會将每個假設與故事中的每個句子加以比較,尋找文本蘊涵 ( Textual Entailment ) 關系。簡單來說, 蘊涵是指,兩個陳述具有很強的相關性。是以,最近似故事假設的蘊涵得分最高。最後,将蘊涵得分與第一步得到的分數相結合,給出每一個備選答案正确的機率。

最近,Maluuba 釋出了一篇新的技術部落格,介紹他們在通用人工智能上的研究(參閱《

建構好奇的機器,Maluuba 的通用人工智能探索(附論文)

》)。

與微軟合作的原因:通用人工智能

Maluuba 在官方部落格上解釋道:

到目前為止,我們關注的領域是機器閱讀了解,對話和了解以及通用(人類)智能,比如記憶、常識推理以及資訊搜尋行為。這些領域的早期研究成果加快了我們擴充團隊的需求,顯然,我們需要用重要資源來支援我們的團隊以推進終極目标的實作。

微軟非常契合我們的公司。微軟大衆化人工智能的雄心讓這個星球上每個人群組織與人工智能技術使用方式從根本上保持一緻。微軟為我們提供了将我們的研究傳遞給百萬個人使用者和公司使用者的機會,他們可以從真正智能機器的出現中受益良多。另外,微軟龐大的技術資源——包括後端基礎架構(如微軟Azure和其完備的硬體基礎設施)以及工程人員将幫助我們加速研究和提供市場解決方案的步伐。簡言之,我們的新拍檔能讓我們更加快速的走向當初的願景。

微軟也表示,Maluuba 在深度學習和強化學習方面的專業知識将幫助我們解決問題和決策系統推進我們的人工智能民主化政策,并使其可以為每個人服務——所有消費者,企業和開發者。随着最近微軟在語音識别和圖像識别上使用深度學習技術的巨大成果,以及今天來自 Maluuba 成員的新力量,公司相信「更好的還在後面,我們将向機器閱讀和寫作發起新的進攻。」

此外,不久之前微軟在其官方部落格上開放了一個包含 10 萬個問題和答案的資料集

MS MARCO

。通過将資料集免費開放給領域内更多的研究者,微軟希望能夠推進機器閱讀領域的突破性研究。這個開源資料集的負責人 Rangan Majumder 曾說,「為了實作人工通用智能的目标,我們首先需要機器能夠像人類一樣閱讀和了解文檔。這個資料集是向這個方向邁出的一步。」

微軟的長期目标一直是通用人工智能,Maluuba 的研究能夠助力微軟實作這一宏偉目标。優勢互補,微軟收購 Maluuba 也就不足為奇了。

蒙特利爾的人工智能領域地位正在獲得認可

這次收購表明,蒙特利爾在人工智能領域的重要地位最近正在逐漸被全球各大公司認可。在微軟之前,谷歌曾在 2016 年 11 月宣布在蒙特利爾成立一個新的人工智能研究機構,并對該市的幾所大學進行了投資。值得一提的是,谷歌在這一動作中試圖拉攏的 Yoshua Bengio——Maluuba 的顧問也随着這次收購與微軟産生了聯系。在所有大公司都在争搶人工智能領域人才的環境中,微軟的努力或許另有深意。

Maluuba 表示,「沒有 Yoshua Bengio 教授(深度學習創始人之一)、Richard Sutton(最重要的強化學習先驅)以及蒙特利爾日益壯大的研究所學生态圈的巨大幫助,我們無法走到今天。特别是,Bengion 教授為我們的研究人員的研究工作提供了非常寶貴的正常咨詢和指導。過去幾年中,Bengio 教授也因為他的遠見——将蒙特利爾打造成人工智能研究的核心而得到了特别認可。通過蒙特利爾大學和麥克吉爾大學的研究,這座城市已經發展成為世界上最大的深度學習學術中心;現在,這個區域大學中有大約 150 深度學習研究人員。加拿大的學院、公司以及創業公司生态系統正為人工智能領域帶來巨大創新,證明加拿大,特别是蒙特利爾能夠與矽谷試比高下。在這一新的篇章裡,我們會繼續積極地與蒙特利爾以及發表世界頂級人工智能研究的學術社群合作。」

成功的秘訣

前一段時間,在接受機器之心專訪時,Maluuba 給其他人工智能創業者和研究人員給出的一些建議或許可以作為公司邁入今天這一新篇章的重要經驗之一。

人工智能方面。我想說,此時創業正當時,也很讓人興奮,因為這裡需要解決很多令人激動的問題,這個行業已經到了這樣一個階段:我們正處在解決這些問題的前沿,而且公司非常高興支援真正的創業者來解決這些問題,無論是資金上還是政策能力上。現在成為這個領域的創業者,很讓人激動。

但是,我想提醒需要注意的幾點。

首先,區分事實和虛構。很多人工智能領域裡的資訊都過分誇張了,因為對現狀缺乏基本了解,而且對人工智能持過于興奮态度也源于人類本性。區分事實和虛構能幫助你真正了解自己所處的位置,幫助你準确定位所要解決的問題。

第二點就是挑選别人沒有解決過的獨特問題,然後試着如何用人工智能加以解決,看看自己解決的情況如何,和别人有什麼不同。我認為幾年後,這個領域的公司就要比拼:看誰能利用最先進的技術做出沒有人想到新産品,解決别人沒有解決的問題。

援引 T.S. Eliot 一句話作為本文的結束:「In our end is our beginning.」

©本文為機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀