計算機在識别圖像時“看到”了什麼？

2021-11-15 23:50:00

圖像識别技術近來進步飛速。去年，微軟和谷歌展示了能比人類更準确地識别圖像的系統。

這些進步得益于一個叫做深度學習的技術，它涉及将資料通過模拟神經元的網絡，以培養該網絡在未來過濾資料（更多資訊見“

Teaching Machines to Understand Us

”）。深度學習就是你可以使用關鍵字搜尋存儲在谷歌的照片（

更多資訊

），Facebook 能識别你照片中你朋友的原因。在圖像識别上使用深度學習也使得機器人和自動駕駛汽車更有可行性，它甚至可以徹底改變醫學（

）。

圖像識别技術的能力和靈活性來自于，當人工神經網絡收到很多圖像和圖像類别的資訊時，它可以自動計算出來重要的視覺特征。在深度學習中使用的神經網絡被布置成不同的層，資料一層一層根據順序通過。在訓練過程中，在神經網絡中的不同的層成為專門識别不同類型的視覺特征的網絡層。圖像識别中使用的神經網絡類型，被稱為卷積網，受到了動物的視覺皮層方面研究的啟發。

“這些神經網絡相比傳統的計算機視覺方法，是一個巨大的飛躍，因為它們直接從資料中得出結果。”馬修·蔡勒，Clarifai（Clarifai 提供了包括 buzzfeed 在内的公司組織和搜尋照片和視訊的服務）的 CEO 說。程式員們曾經需要寫出尋找視覺特征所需的數學程式，然而這些程式并不能創造出很多有用的産品。

當蔡勒還是一個研究所學生的時候，他在紐約大學與羅博·宏泰合作開發了一種可視化神經網絡運作的方法。在這個

連結

中的幻燈片中的圖像将帶你來到這個深度學習網絡的内部，這個用了130萬張照片訓練過，打敗了人類的圖像識别神經網絡。該網絡識别了 1000 個截然不同的物件，包括蚊帳和蚊子，而幻燈片上顯示了每個圖像中最強烈的激活神經元網絡的一個網絡層的視覺特征。

計算機在識别圖像時“看到”了什麼？

繼續閱讀

DOG算子

轉詳解C#資料庫存取圖檔三大方式

一個四年java程式員的年終總結

整潔即是正義

K-近鄰算法以及圖像分類應用

位元組面試官：2021年Android常見面試題，面試必備

《光棍節程式員闖關秀》闖關攻略

【IT職場漫談】程式員可以一輩子做下去麼？

沒救了! 困擾程式員一輩子的5個魔咒, 改掉比登天還難！

一個JAVA程式員成長之路分享一個JAVA程式員成長之路分享

一個被寫偵探小說耽誤的Java開發程式員！

BMP檔案結構及圖像每行位元組計算方法

磁盤結構及在Linux中的命名

Java經典面試題詳解：帶你手撸紅黑樹總結

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

面試題解析：你接口測試是怎麼做的？