天天看點

【獨家】前百度資深科學家夏粉創業研發中國版Auto ML,兩輪融資估值4億

原因在于,全世界隻有極少數專家能建立先進的機器學習模型,企業擁有适應人工智能和機器學習高速發展所需的人才和資金預算也有限,是以谷歌的機器學習速成課一經推出便廣受歡迎。

實際上,現在世界上有很多前沿公司看到了這一痛點,包括谷歌、Facebook在内,都在探索讓機器自主學習的路徑——Auto ML。

值得注意的是,中國一家初創公司——智鈾科技一直緻力于Auto ML,并研發出全自動機器學習平台“EBRAIN”,不但能提升資料科學家的生産力,而且有助于讓非專業人員也能夠自如的使用機器學習平台,最終實作工作效益的最大化。

【獨家】前百度資深科學家夏粉創業研發中國版Auto ML,兩輪融資估值4億

新智元獲悉,近日,成立僅半年的智鈾科技宣布完成兩輪融資,公司估值達到4億。

創始人為前百度資深科學家,公司創立半年估值4億

智鈾科技的創始人兼CEO夏粉博士曾在百度任資深科學家,主要負責百度超大規模機器學習CTR團隊,至今已投身于機器學習領域的研究和應用十五年以上,并在機器學習頂級會議雜志JMLR,ICML, NIPS等發表多篇文章。

【獨家】前百度資深科學家夏粉創業研發中國版Auto ML,兩輪融資估值4億

智鈾科技創始人兼CEO夏粉

在百度期間,夏粉曾推出業界第一個基于萬億規模的深度學習網絡的商用線上學習系統以及全自動機器學習平台Pulsar。Pulsar被公司各業務線廣泛使用,平台覆寫公司絕大部分業務線,包括鳳巢、網盟、金融和糯米等,并受到一緻好評。

智鈾科技成立于2017年6月,2017年8月曾獲天使輪投資,本次獲得的pre-A輪融資由洪泰基金領投,投後估值達4億人民币。

智鈾科技的核心成員均為來自百度、阿裡巴巴、新浪等知名網際網路公司,均在機器學習領域深入研究十年以上,掌握最先進的大規模機器學習技術,并擁有豐富的項目經驗。

夏粉說,智鈾助力企業在資料分析與預測中實作多(處理的資料多、容納的參數多),快(自動化快速模組化、部署),好(模型精度達到世界領先水準),省(節省人工,更專注于業務本身),通過高效的大規模分布式機器學習訓練架構,實作自動調參、自動特征學習,降低人工智能的開發使用門檻。

自主研發Auto ML:組合特征挖掘效率提升上千倍

從理論上來說,自動機器學習(Auto ML)需要在問題、特征和資料抽取、資料、特征預處理、模型算法選擇、超參數調優一個完整的循環過程中全部自動化。

問題、特征和資料抽取需要專業知識,也需要人為判斷,通常需要業務人員完成。在這方面,谷歌用深度學習網絡解決圖像問題自動化上邁出了重要一步。

谷歌的Auto ML算法主要基于強化學習算法(reinforcementlearning algorithms)具體如下:

一種控制器神經網絡能夠提議一個“子”模型架構,然後針對特定任務進行訓練與品質評估;而回報給控制器的資訊則會被用來改進下一輪的提議。重複這個過程數千次——進而生成新的架構,然後經過測試和回報,讓控制器進行學習。最終,控制器将學會為好的架構配置設定高的機率,以便在延續的驗證資料集上實作更高的準确性,并且對于架構空間的差異很小。看起來就像下圖:

【獨家】前百度資深科學家夏粉創業研發中國版Auto ML,兩輪融資估值4億

谷歌于去年5月釋出了Auto ML,讓AI去訓練AI。這款系統不但能讓沒有專業知識的人建立機器學習模型,還将建立機器學習模型中所有艱苦麻煩的工作,包括訓練和調試,都承接了過來。

與谷歌相比,智鈾科技開發的全自動機器學習平台“EBRAIN”具備第四代機器學習能力,有以下幾個主要優勢:

【獨家】前百度資深科學家夏粉創業研發中國版Auto ML,兩輪融資估值4億

資料量:千億樣本、千億特征

模型:從淺層到深層靈活支援

DNN:萬億連結神經網絡結構

調研:自動化特征學習&參數 調節

時效性:模型線上更新

評估:可視化模型&資料分析 

在資料處理上,EBRAIN采用重要性采樣,選擇1%樣本就能達到90%随機樣本效果;并使用特征删減算法,達到效果無損、特征删減97%;通過樣本過濾算法,過濾能夠随機噪音 。

在參數學習中,首創參數搜尋算法:解決人工無法調參 (近百超參數的調整)的問題,自動機器學習僅需約24小時。

在特征學習中,采用組合特征學習算法:組合特征挖掘效率提升上千倍;利用半監督特征學習:從無标簽資料中提取有效特征。

在模型算法中,淺層模型算法,LR收斂速度提升60%;Gbdt算法:比Xgboost既快又好。深層模型中使用首個萬億參數大規模離散DNN。

EBRAIN:支援私有化部署與SaaS服務,實作企業智能變革

今年初,谷歌又推出Cloud Auto ML,這個動作意義重大。它意味着企業直接用AI訓練AI,甚至不用機器學習和資料專家,并且能在雲上完成,這對谷歌本身與客戶來說都非常重要。

一方面,谷歌利用Auto ML能夠為企業解決機器學習的的痛點;另一方面,在Cloud上實作這一技能又能夠擴充谷歌雲,這代表了雲計算公司的發展方向。目前,除了谷歌外,Facebook的工程師們也已經開發了稱為“自動化機器學習工程師”的工具,它的名字也叫AutoML,能夠就最有可能解決問題的算法和參數做出選擇。

智鈾科技創始人兼CEO夏粉也看到了這個趨勢。他說,以“EBRAIN”機器學習模組化平台為代表的平台級商用軟體,支援私有化部署與SaaS服務,為客戶實作智能變革建立基礎。

以内容推薦應用為例,醫藥公司會通過微信、郵件等方式為醫生推送一些内容(即文章), 推送後醫生會對文章有閱讀或點贊行為。現在需要根據醫生的特征和曆史閱讀、點贊記錄預測其感興趣的内容,進而進行内容的精準推薦。

正常的做法是:對醫生和文本提取大量特征,進行特征選擇和變換,選擇合适算法和對應的超參數,訓練模型。通過在驗證集上效果,挑選最優的特征、算法和超參數。所有的選擇過程由人工完成,耗費大量人力和計算資源。

對此,智鈾在文本結構化處理的基礎上,利用雲計算提供的大量計算能力,通過Ebrain在很短的時間内自動建構客戶興趣模型,并提供内容推薦核心服務能力。最終,根據醫生的興趣進行資訊推薦,按照行業标準預估客戶内容通路量提升50%以上。

目前智鈾科技已經與金融、醫療、物聯網等多個行業的公司進行合作為其提供服務,目前産品的功能應用涵蓋點選率預估、反欺詐偵測、市場精準營銷以及個性化推薦等,滿足不同場景的不同需求,同時産品的有效性經過實踐驗證,不但能夠為企業帶來收入的增長并且節省成本。

原文釋出時間為:2018-03-2

本文作者:張乾

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀