【AI每日播報】人臉識别315躺槍，支付寶、商湯、雲從等紛紛回應

資訊

人臉識别315躺槍，支付寶、商湯、雲從等回應

2017年的“315”落下帷幕，人臉識别技術公司紛紛躺槍。16日一大早，大家紛紛發表聲明，表示自家的人臉識别技術還是相當安全的。

晚會現場，主持人現場示範了攻破人臉識别手段。在示範過程中，一張他人的靜态自拍照，通過技術處理，可以變成能眨眼睛、能微笑的“僞活人”。甚至還可以利用這張自拍照，借助3D模組化技術，讓自己“變臉”成另一個人，輕易騙過登入系統，成功“黑”進對方賬号。

百度在節目播出後5分鐘内立刻作出回應——邀請百度深度學習實驗室主任林元慶，在百度科技園的人臉識别閘機做一次親身驗證，看百度人臉識别系統究竟能否被一段視訊“騙過”。阿裡巴巴的支付寶也很快作出回應：“你們都覺得我躺槍了嗎？”

3月16日早，我們看到國内衆多人臉識别創業公司的回應，包括雲從科技、商湯科技等。

百度推出 AI 語音轉錄軟體 SwiftScribe

百度深度學習研究院推出百度第一個 AI 驅動的轉錄軟體 SwiftScribe 的 beta 版。SwiftScribe 的核心技術是百度的語音識别引擎 Deep Speech 2。它的神經網絡使用數千小時的有标注語音資料訓練，學習将聲音與特定的詞彙和短語對應起來。除了先進的 ASR 技術，百度還設計了一個直覺的快捷鍵和創新的人機互動系統，以解決不連續的問題，這是使用者在轉錄時的最大障礙之一。

百度 SVAIL 開發了 SwiftScribe 的各個元件，包括語音識别系統和使用者界面。這種方法的一個很大的有點是，當使用者在使用 SwiftScribe 進行轉錄和編輯時，系統同時也在學習和提升。正是這種精細的端到端的方法，使 SwiftScribe 不同于市場上其他同類産品。

DeepMind 讓AI 擁有記憶并實作序列學習

在 AlphaGo 獲勝一周年之際，DeepMind 發表最新研究成果，讓神經網絡成功在學習新任務的同時，不忘老的任務，向着自适應學習邁出重要一步。

計算機程式在學習執行一項任務後，通常也很快就會忘記它們。DeepMind 在最新的 PHAS 論文中，提出可以修改學習規則進而克服程式遺忘的方法，讓程式在學習一個新任務時能夠記得舊的任務。這是程式朝向更智能化，能夠持續、自适應地學習邁出的重要一步。

Keras 2釋出：實作與TensorFlow的直接整合

Keras 在 2015 年 3 月首次推出，現在使用者數量已經突破了 10 萬。其中有數百人為 Keras 代碼庫做出了貢獻，更有數千人為 Keras 社群做出了貢獻。

近日，Keras 2推出，它帶有一個更易使用的新 API，實作了與 TensorFlow 的直接整合。這是在 TensorFlow 核心整合 Keras API 所準備的重要一步。

AI創新者

小蟻首架張駿峰：讓圖像AI人盡可用

張駿峰，小蟻科技首席架構師，負責小蟻AI圖像相關算法架構。張駿峰于2015年加入小蟻，此前，張就職于微軟長達14年，參與過Windows, .Net Framework, MSN, Office, Lync, Skype等産品的研發工作。

本文中，張駿峰就小蟻的圖像算法，包括：應用在小蟻智能錄影機及行車記錄儀上的圖像分割、物體識别、目标跟蹤算法，以及應用在小蟻微單APP上的圖像風格遷移技術展開探讨。列舉了小蟻在這兩方面的研發過程中采取的方案及遇到的突破。

技術

無人駕駛硬體平台

本文是無人駕駛技術系列的第十篇，是這一系列目前為止闡述最全面的一篇。着重介紹無人駕駛硬體平台設計。無人駕駛硬體系統是多種技術、多個子產品的內建，主要包括：傳感器平台、計算平台、以及控制平台。本文将詳細介紹這三個平台以及現有的解決方案。希望本文對無人駕駛從業者以及愛好者選擇硬體的時候有幫助。

作者唐潔，華南理工大學計算機科學與工程學院副教授；劉少山，PerceptIn聯合創始人。加州大學歐文分校計算機博士，

Google Brain對NMT訓練成本過高的幾點發現

在過去幾年裡，基于神經機器翻譯（NMT）技術的産品系統被越來越多部署在終端用戶端中，NMT本身也是以獲得了巨大進步。但目前，NMT構架還存在着一個很大的缺點，即訓練它們的成本太高，尤其是GPU的收斂時間，有時會達到幾天到數周不等。這就使得窮舉超參數搜尋（exhaustive hyperparameter search）的成本和其他常見神經網絡結構一樣，讓人望而卻步。

為此，Google Brain首次對 NMT 架構的超參數進行了大規模分析，報告了數百次實驗測試的經驗結果和方差數（variance numbers），這相當于在标準WMT英譯德任務上運作超過250,000 GPU小時數的效果。從實驗結果中，提出了有關建立和擴充NMT構架的創新觀點，也提供了一些實用建議。

使用 2048 維的大型嵌入（embeddings）有最優實驗結果，不過優勢不大；僅有 128 維的小型嵌入似乎也有足夠的能力去捕捉絕大多數必要的語義資訊。
LSTM Cell 始終比 GRU Cell表現得好。
2-4 層的雙向編碼器性能最佳。更深層的編碼器在訓練中不如2-4層的穩定，這一點表現得很明顯。不過，如果能接受高品質得優化，更深層的編碼器也很有潛力。
深度 4 層解碼器略優于較淺層的解碼器。殘差連接配接在訓練 8 層的解碼器時不可或缺，而且，密集的殘差連接配接能使魯棒性有額外增加。
把額外的關注度參數化（Parameterized additive attention），會産生總體最優結果。
有一個調适良好、具有長度罰分（length penalty）的集束搜尋（beam search）很關鍵。5-10集束寬度搭配1.0長度罰分的工作效果好像不錯。