演講嘉賓:梁堃,數美聯合創始人&cto, 聯考狀元,北大學霸,曾就職于百度,小米擔任進階工程師,架構師。兩次獲得百度年度“mve”(最具有價值員工) 。成功将大資料運用于搜尋 推薦,反欺詐,風險控制等領域。具有大資料方案整體架構能力。擅長發現并解決使用者在大資料領域的痛點。
先做下自我介紹,我是梁堃,數美的聯合創始人兼cto。很榮幸有機會給大家介紹機器學習和人工智能。這次介紹分為三個部分:
第一部分,機器學習是什麼
第二部分,機器學習能做什麼
第三部分,企業機器學習應用趨勢
機器學習是什麼
一個方面來介紹機器學習,就是從機器學習的目标或者業務要做什麼來介紹。機器學習最大的是計算機科學,其中有一個很重要的分支是人工智能。人工智能裡面有兩種實作人工智能的方法,這兩種方法分别對應于人類智能的兩種思考模式,一種思考模式叫做演繹法,就是我從已知的規則和事實推導新的規則和事實。這個系統是之前60-80年代用的比較多的系統,叫專家系統。而第二種在人類思考叫做歸納法,通過對事實觀察歸納來歸納總結出來新的規律、新的事物的本質,然後再把它應用到新的事物裡面去。把這個是現在計算之中就叫做機器學習。當然最近幾年非常熱的機器學習的方法叫做深度學習,它是機器學習裡面的一個領域。
從一九四幾年開始發展出來計算機科學,它在做什麼?本質就是嘗試對業務進行自動化處理。剛出來的時候完全是針對數字計算,大規模的計算,如果要靠人來做這個事情是很困難的,需要花費大量的精力和時間。那麼能否讓機器像做成流水線計算呢?這就是最早的計算。我們不斷的去探究,不單單資料計算自動化了,普通企業各個行業的企業裡面的流程以及業務也在被資訊化、自動化。這是關于資料庫出現之後包括訂單的轉移、erp财務等等都被自動化。随着計算機越來越火,可以自動化越來越多的東西,網際網路自動化很多東西,比如對資料的檢索等。當我們進一步拓展可以自動化的範圍時我們發現了一些困難,舉個例子,比如說自動駕駛一輛汽車,這件事情就非常困難。因為計算機本質上它是一個程式,需要得到明确的指令,第一步做什麼、第二步做什麼,它才能做。而自動駕駛汽車,這個無法用一個明确的指令描述,因為這個過程非常複雜。
還有一個非常一經典問題就是有一隻小貓,連一個三歲的孩子都可以非常容易辨識出來,但是寫一段程式讓計算機系統認知就很複雜。
是以就提出來第二個分支:人工智能,就是想對非常複雜的問題或業務進行智能的自動化。為什麼叫智能的自動化?因為很難用一個确定的公式或算法來一步步的做出來。我們需要這個系統可以去觀察世界,可以像人一樣思考來智能、理性做決策,最大化目标。比如我要駕駛汽車,在最短時間内到達那個地方同時又不出任何事故,這就是人工智能。人工智能就是把原本機器學習裡面簡單程式、無法自動化的東西,用一種像人一樣智能的把它做出來。
人工智能在業界使用的方法有兩個,一個是演繹法,這種方法的核心概念就是有一個專家會把已知的知識和裡面的推理規則放到這裡面,當出現新的狀況時,系統會根據已知的知道推演出新的規則。比如說大樓裡都有防火器,其實它就是一個特别簡單的專家系統,它隻知道一個事實,溫度達到一定高度時、有煙霧的時候就會啟動。這種系統有一個好處就是隻需要專家的支援,而不需要那麼多資料的支援。而業務系統,就是我們說得機器學習。
歸納法。這時候沒有專家告訴他推理的規則,而是給他一大堆資料,這就是對世界的描述,然後會有個算法,無論是神經網絡算法還是其他,這個算法本身是觀察資料、探索資料,它會自動的根據統計學規則從資料中總結出來一些規則和事實。當一份新的資料過來,就可以應用到其中,機器學習本身還是把複雜的業務系統自動化。
而深度學習是機器學習的一個分支,我們可以做點選率預估,這個是網際網路購盈利的兩大核心之一。當一個使用者來了,我應該給他出什麼樣的廣告,這個使用者才最可能點這個廣告讓我盈利。深度學習解決的是,對這個世界做一種更抽象的解讀。比如說傳統的是無法形成多級的抽象,深度學習不一樣,深度學習是給他一個圖檔就行。深度學習主要是基于神經網絡,神經網絡的前幾層是在學習這張圖檔裡面或者學習人臉的邊邊角角的特征,這是不是有一個弧線或者陰影,比如說一些特征組合出來眼睛這個概念,一些特征組合出來鼻子這個概念。再往上這個神經網絡就會形成一個非常進階的抽象,這是一個人臉。這種進階的概念對我們而言是非常自然的,但是對于計算機而言,你想把它描述準确極其困難。
比如說“馬”這個概念,我們可以看到有各種各樣的馬,白色的馬、黑色的馬或者有的馬少一條腿甚至是一個玩具的馬、木馬,當把這個東西方在你面前,任何一個人都明确知道這是馬。但是你想給一個機器去描述的時候,什麼樣的東西是馬,這個概念極其複雜。你很難描述出來。兩個耳朵、四條腿、能跑的就是馬?不對。深度學習要解決的就是這個問題。希望通過深度學習讓計算機認識之前隻有人才認識的進階概念。
深度學習這兩年做的非常火,但其實這個概念很早就有了。70年代的時候銀行就開始使用了,目前演進為“深度學習”,銀行就做個人信用得分的預測。比如說收入、年齡、消費組成、職業,預測輸出如期還款機率或者延期還款機率等等。
機器學習在今天越來越重要,為什麼?因為這些年資訊化程度非常之高,存儲成本又非常便宜,廣泛的網際網路化讓大量資料出現在我們的存儲、出現在計算機世界當中。這樣就有機會用更加複雜的機器學習的算法,因為它有大量事實、資料可以學習。它是歸納法,本身就依賴于這個條件。是以這兩年發展非常快速。
機器學習能做什麼?
算法交易、欺詐檢測、信用評估...這是非常經典的應用,都是預測的東西。我把前的兩個提出來,前兩個就是去年到今天為止整個網際網路行業盈利最大的兩個算法,一個是線上廣告,線上廣告貫穿了整個pc端。打開任何一個網頁,都會發現這些廣告。有些是廣告主直接跟網站簽訂投放協定,但更多的是通過京東、淘寶這樣的中介去投放。當你投放廣告時,隻有使用者點選了,廣告主才會付賬。是以廣告出現在這個頁面時,你一定要把他最可能點的廣告放在上面。這裡面就涉及到非常複雜的東西。這裡面涉及到方方面面,包括你要對使用者建立畫像,你要了解你的使用者,性别、年齡、住在什麼地區什麼小區。第二是個性化推薦,相信大家對這個非常熟悉。在網際網路上我們每個人都在享受定制化的服務,你在聽音樂,它會把你感興趣的音樂推給你,你看今日頭條,他也會把你感興趣的新聞推給你。當然還有算法交易、欺詐檢測、信用評估等等,比如說我們的員工,實時檢測一個人,他是真的人還是機器人。另外,現在機器人特别進階,他們自己都會互相聊天。
那麼新興應用呢?機器學習其實能做很多事情,我挑了幾個非常震驚的例子,比如說實時翻譯,一個路牌,你把攝像頭對準它,它就會給你實時翻譯成你認識的語言。又比如微軟的一個軟體,是同聲傳譯的東西,他隻要說英語就行,他說出來的話就被實時的翻譯成中文,你說出來的話在他聽到的時候已經被實時翻譯成英文。這件事情讓我極其震驚。因為我大學有一個同學就是學同聲傳譯的,當時他學的時候非常辛苦,但是現在機器就可以做到了。自動駕駛,一兩年前還是在實驗階段,但今天已經開始上路。第一個真正路上跑的。包括特斯拉、google、百度。相信自動駕駛将來會成為一個中高端車的标配。為什麼今天可以做到這點?很簡單,因為特斯拉有數億英裡的駕駛資料。
從剛才幾個例子來看,我們想象一下機器學習可以深入到生活的方方面面。金融、制造業、機器人工廠、醫療、教育、服務等方方面面。為什麼?因為機器學習或者說基于機器學習的人工智能,它最本質的目标就是在某一個任務上做到像人一樣有智能、像人一樣可以對這個問題進行分析并做出快速的預測。在我看來機器學習會在其他方面成為核心。
企業機器學習應用趨勢
我們來看google公司的一個資料,在2002年的時候google公司全部署了機器學習模型,大幾十個,或者一百出頭的樣子。但是到2016年年初的時候,他們部署的機器學習的模型已經接近3000個。在他的每一個業務裡都有gmail、讀書、翻譯等都部署了機器學習。其實很多公司,尤其是比較早的網際網路公司都是這樣的趨勢。在我看來可能幾年之後幾乎所有大規模的業務都将用機器學習自動處理,幾乎所有的。我加了“幾乎”隻是為了嚴謹,因為很有可能是“所有”。
首先,随着業務廣泛的數字化、網際網路化,無論是工業4.0還是網際網路+都是把人的衣食住行各個方面的業務數字化、網際網路化。這會導緻什麼?會導緻我們有非常大量的資料産生。包括打車的資料、吃飯的資料、穿衣服的資料、醫療資料等等都會出現。同時,存儲和計算成本在不斷降低。幾年之後,每個企業都将成為資料企業,都将積攢自己的核心資料,這些資料是非常寶貴的财富。因為這些資料提供了機器學習、人工智能的基石。
第二,這些資料不能僅僅出些報表而已,每一個企業都将大規模部署機器學習,去把自己企業裡面盡可能多的大規模業務自動化。能用機器學習代替的東西,為什麼不呢,是以每個企業都會在自己的核心業務上部署機器學習。當然機器學習還是個挺麻煩的事情,對于有實力的大企業可以建設自己的專家團隊、機器學習團隊來進行定制化服務,但是這件事情是富人遊戲,一般的企業并不适用。現在無論是亞馬遜、微軟、阿裡都在內建标準學習子產品,以及共享行業的資訊子產品。在我看來,中小型的企業也會部署機器學習模型,隻不過他們的不是定制化的,而是一種基于雲的機器學習。它就像app标準服務一樣被使用。第三,每個企業提供的每個應用服務都是智能化的,它不再是說我要定制一個服務需要昂貴的成本。每一個客戶都在享受定制化服務、享受定制應用。這是之後兩三年企業機器學習應用的趨勢分析。當然了,三年搞不定可能會是五年。
我的介紹就到這裡,謝謝大家!
數美是一家由一線網際網路頂尖大資料專家團隊建立,頂級網際網路大佬領投的大資料企業依托積累的海量資料、核心技術,提供領先的大資料風控産品與服務目前已服務數百家客戶,覆寫直播、金融、支付、社交、電商、遊戲、o2o等行業。
本文轉自d1net(轉載)