天天看點

計算機在識别圖像時“看到”了什麼?

圖像識别技術近來進步飛速。去年,微軟和谷歌展示了能比人類更準确地識别圖像的系統。

這些進步得益于一個叫做深度學習的技術,它涉及将資料通過模拟神經元的網絡,以培養該網絡在未來過濾資料(更多資訊見“

Teaching Machines to Understand Us

”)。深度學習就是你可以使用關鍵字搜尋存儲在谷歌的照片(

更多資訊

),Facebook 能識别你照片中你朋友的原因。 在圖像識别上使用深度學習也使得機器人和自動駕駛汽車更有可行性,它甚至可以徹底改變醫學(

)。

計算機在識别圖像時“看到”了什麼?

圖像識别技術的能力和靈活性來自于, 當人工神經網絡收到很多圖像和圖像類别的資訊時,它可以自動計算出來重要的視覺特征。在深度學習中使用的神經網絡被布置成不同的層,資料一層一層根據順序通過。在訓練過程中,在神經網絡中的不同的層成為專門識别不同類型的視覺特征的網絡層。圖像識别中使用的神經網絡類型,被稱為卷積網,受到了動物的視覺皮層方面研究的啟發。

“這些神經網絡相比傳統的計算機視覺方法,是一個巨大的飛躍,因為它們直接從資料中得出結果。”馬修·蔡勒,Clarifai(Clarifai 提供了包括 buzzfeed 在内的公司組織和搜尋照片和視訊的服務) 的 CEO 說。程式員們曾經需要寫出尋找視覺特征所需的數學程式,然而這些程式并不能創造出很多有用的産品。

當蔡勒還是一個研究所學生的時候, 他在紐約大學與羅博·宏泰合作開發了一種可視化神經網絡運作的方法。在這個

連結

中的幻燈片中的圖像将帶你來到這個深度學習網絡的内部,這個用了130萬張照片訓練過,打敗了人類的圖像識别神經網絡。該網絡識别了 1000 個截然不同的物件,包括蚊帳和蚊子,而幻燈片上顯示了每個圖像中最強烈的激活神經元網絡的一個網絡層的視覺特征。

繼續閱讀