天天看點

專訪喬治亞理工終身教授藍光輝: 開創随機加速梯度法助力深度學習

藍光輝教授,博士畢業于喬治亞理工學院,目前任教于喬治亞理工 H. Milton Stewart 工業和系統工程學院,他還擔任着《Computational Optimization and Applications》、優化算法頂級期刊《Mathematical Programming》和《SIAM Journal on Optimization》等雜志的副主編,是國際機器學習和深度學習算法方向的頂級專家。藍光輝教授專注于計算機科學領域的基礎研究,他的專注方向包括:随機優化和非線性規劃的理論、算法和應用,包括随機梯度下降和加速随機梯度下降,以及用于解決随機凸和非凸優化問題。

近日,機器之心對這名頂尖學者進行了專訪,談及他的科研生涯,「在随機加速梯度法上的開創性進展讓 Geoffrey Hinton 獲得訓練深度學習模型的啟發」,以及對于優化算法在業内應用中的展望。

優化算法研究

機器之心:藍教授能先介紹下您近期做的研究嗎?

藍光輝:我最近主要釋出了兩項工作。一個是分散式(decentralized)随機優化與機器學習(參見論文:Communication-Efficient Algorithms for Decentralized and Stochastic Optimization)。主要可以用來求解資料分散在網絡上,沒有辦法進行集中處理的機器學習及統計推斷問題。我們設計的算法可以最大程度上減少在網絡上的通信傳輸量,同時保證達到與集中式(centralized)處理相近的随機優化或機器學習效果。

另一個工作是多階段(multistage)随機優化與決策(參見論文:Dynamic Stochastic Approximation for Multi-stage Stochastic Optimization)。主要用來支援在随機環境下的動态決策,如在金融領域裡如何确定一段時間内的最優資産配置等等。我們通過設計新的算法來報保證得到多階段決策的最優解,同時保證需要采集或存儲的資料(樣本)量最少。

機器之心: 藍老師有一個深度學習的優化課程講得非常好,能介紹一下嗎?

藍光輝:我主要是講一些基礎性的結果。很多人對深度學習感興趣,但可能不太懂算法,我這個課程就是要告訴大家算法的真相,它能解什麼樣的問題。再就是對深度學習的模型能解到什麼地步?理論上來說我們并沒有完全了解深度學習,我們應該更深入研究這些沒有得到很好了解的地方。

我們把深度學習(也包括機器學習)看作一個随機優化模型,把很多資料看作是某個随機向量的樣本,然後根據樣本求解一個對未來進行預測的随機優化問題,我們要設計理論上最好的算法去求解随機優化模型。

我的課程主要是圍繞着我本人及團隊在随機優化及機器學習算法方面的一些研究工作所展開的。我在讀博士時候就開始研究并設計了一系列這樣的算法。而這之前的一些算法,比如經典的随機梯度法,僅針對一些非常窄(如強凸)的問題,實際應用中也不穩定,是以在我們這些工作之前,絕大部份研究者都認為随機梯度類算法求解随機優化問題并不可靠,進而基本上抛棄了這一類算法。

在讀博士期間我做的第一個工作是在導師 Arkadi Nemirovski(現代凸優化理論的創始者,美國工程院院士)指導下研究魯棒性随機梯度法(參見論文:Robust Stochastic Approximation for Stochastic Programming)。我們研究的随機映像下降法後來成為機器學習的推動力(driving force)之一。同時,我自己單獨研究了一類新的随機加速梯度算法,也就是 Nesterov 加速梯度法的随機版本(參見論文:An Optimal Method for Stochastic Composite Optimization)。在此之前,盡管大家都知道加速梯度法求解确定性問題非常簡單有效,但沒有人(包括 Nesterov 本人)能證明這類方法可以用來求解随機優化問題。這些新的随機算法的出現從根本上改變了大家對随機梯度法的認識,使得我們可以非常魯棒性地,有效地求解随機優化問題。這兩個工作基本上就是我博士論文的主體部分。我的博士論文也包括了對增廣拉格朗日這一經典算法的複雜度分析等工作。

我關于随機加速梯度法的這篇論文後來很榮幸拿了三個獎,美國運籌與管理學會計算分會學生獎(INFORMS Computing Society Best Student Paper)的一等獎,INFORMS George Nicholson prize 的二等獎,幾年後我的博士論文又拿了 Finalist in the Mathematical Optimization Society Tucker Prize。

當時并沒有完全意識到它們後來在機器學習中的巨大用處,雖然從數學角度看我們有很好的理論及實驗結果。我在出國讀博士之前做過三年軟體工程師,學到的程式設計經驗有助于我較好地實作了這些算法。我們實作這些算法後,發現他們要比以前的那些求解随機優化問題的工具快幾十倍,當時覺得比較有前景(promising)也受到鼓舞。機器學習的一幫研究者也非常聰明,他們看到了這個進展,就趕緊用這些算法求解大規模機器學習問題,發現它們在資料特别多的情況非常管用。

我前期研究的算法更偏向于随機優化裡面的凸問題。但是 2009 年畢業以後意識到很多随機優化問題并不是凸問題,而是非凸的。是以大概在 2012 年的時候做了一個随機梯度法解非凸問題,當時也是一個比較難的問題。結果這個論文很榮幸獲得 INFORMS 年輕教授論文第一名(參見論文:Stochastic First and Zeroth-order Methods for Nonconvex Stochastic Programming)。

再後來,我們又做了一系列工作用來完善随機梯度法求解非凸問題的理論體系(參見論文:Accelerated Gradient Methods for Nonconvex Nonlinear and Stochastic Programming)。現在深度學習出來了,恰巧是非凸問題,是以上述這些文章開始變得重要起來。

現在業界裡面用用來訓練大規模機器學習模型主要基于魯棒性及加速的随機梯度法,特别是在一大批優秀研究者将這些基礎性算法做出改進之後。值得注意的是,Geoffrey Hinton (深度學習巨頭之一) 在 2013 年的一片文章中(參見論文:On the importance of initialization and momentum in deep learning)建議将随機加速梯度法用于訓練深度學習模型,進而極大推廣了這一類算法的應用。這個算法現在稱為随機動量梯度法,基本上就是我早期研究的随機加速梯度法的一個變體。

這個領域還在快速發展,會不斷有新的研究成果釋出出來。因而将來課程的内容也會更加豐富。

機器之心:UC Berkeley 提出 AdaGrad(參見論文:Adaptive Subgradient Methods for Online Learning and Stochastic Optimization)的那篇論文也引用了您的研究成果?

藍光輝:對,它是基于我們當初的随機映像下降法(Mirror descent stochastic approximation)(參見論文:Robust stochastic approximation approach to stochastic programming)去做的改進。在機器學習界,論文的送出和發表很快,但在基礎研究領域,研究的發表一般是有延遲的。我們這個領域一般會 Delay 兩年,我們的這篇論文 2007 年的時候就在網上公布了,然後 2009 年被雜志正式發表在 SIAM Journal on Optimization 上面。John Duchi(AdaGrad 論文一作)他們的論文大概 2011 年被 ICML 及 Journal of Machine Learning Research 接收。

而我在博士期間做的随機加速梯度法(參見前文)2008 年就在網上釋出了(www.optimization-online.org),文章于 2010 年被 Mathematical Programming 接受,直到 2012 年才正式發表。

現在我作為這幾個雜志的副主編,希望能盡力加快這個文章發表的過程。同時,希望通過機器之心,讓大家特别是初學者,以及優化和機器學習的應用工作者意識到不同學術圈之間的「文化」差異。機器(包括深度)學習研究工作者重視文章的實用性和時效性,因而會發表大量會議文章(如 ICML 和 NIPS 等)。當然一些頂級會議期刊也是很難選上的。而優化及統計領域的基礎性研究工作者往往更重視文章結果的突破性,理論推導的嚴密性和完整性,會專注較少數量但高品質的文章發表在頂級期刊上(如上述的 Mathematical Programming, SIAM Journal on Optimization 以及 Annals of Statistics 等)。因為前者的周期短,易讀,易用,易跟進,這些會議文章往往會有更多的引用,而後者因為所謂「高大上」,曲高和寡而僅在小範圍内為人所知,也導緻引用量相對較少。但我們不能是以而貶低了基礎性研究工作的價值。事實上,這些基礎性的研究工作往往會超前乃至引導領域的發展,而更應受到重視。單純重視文章的引用量(citation)及流行度 (popularity) 而忽略工作本身的内在價值将會導緻一個不良的學術生态環境,甚至對下一代研究人才的培養産生負面影響等。

機器之心:我們了解到您有個挺有趣的研究 Gradient Sliding,能介紹一下嗎?

藍光輝:對,這個很有意思,它應該是我最新開展的研究方向之一。

在資料處理時,一般問題都會有兩項要求:1. 要求模型和資料(data)很比對(fit);2. 要求模型的參數有一些特性, 比如說滿足稀疏,或者是組(Group)稀疏等。正是因為有了這些要求,使得求解模型變得很慢,求解模型變得很慢意味着要多次通路資料。在大資料環境下,通路資料是一個比較昂貴的工作,特别是涉及到矩陣和向量的乘法,就會很慢。

我當時就想,我們能不能夠避開對資料,或者矩陣和向量乘法的運算,而又不影響整個問題的求解速度。我發現理論上證明是可以這麼做的,也就是梯度滑行(gradient sliding),也就是沿着一個梯度方向走很多步,不需要重新計算梯度了。

這方面的論文我們已經發表了有兩篇,分别是在 Mathematics Programming 和 Siam Journal on Optimization 上。

而最近的一些工作,如前述的如何在分散式随機優化與機器學習中減少通信量,也受到了這一思想的深刻影響。

機器之心:您還有項研究是《Accelerated Algorithms for a Class of Saddle Point problems and Variational Inequalities》

藍光輝:這項工作的話就是怎麼樣把上述的加速算法,以前是隻能用來解單純的優化問題的,擴充到鞍點(Saddle Point)問題及變分方程(Variational Inequalities)。這些問題比優化更加廣泛,當然它沒有優化問題那麼直覺。比如說在優化裡最小化一個什麼目标函數就相當于找一個鞍點。但是鞍點問題及變分方程涵蓋了不光是優化,還有一些平衡(Equilibrium)和博弈論(Game Theory)裡的問題。那些問題的求解和優化問題的求解有很多的共性,我們的工作就是希望能把優化算法裡面的一些最新的成果擴充到求解這些鞍點及變分方程問題。

我也做過一些業界的研究,比如說我們曾将加速算法應用在大規模圖像重構上。現在也在和上海财大合作開發可以用于業界的大規模優化及機器學習問題的求解器。因為在上海财經大學,幾位老師有自己做一個 startup 公司的計劃,我們這一部分的研究和開發成果應該會有機會進一步直接應用于不同行業中,如物流,電商,金融等。

機器之心:在二階算法方面有沒有一些值得追求的方向?

藍光輝:我做一階算法還有随機算法比較多一些,現在也有觀點認為是不是應該做二階算法,不同的人會有不同看法。其實在 2005 年之前大家一直在做二階算法,在 1984 年到 1995 年之間,甚至到 2000 年左右,優化領域就有一批頂尖科學家二階算法做的非常多。在華人科學家裡面,像葉蔭宇教授等人在這些領域作出了非常突出的貢獻。

至于現在有沒有必要去做二階算法,可能在某些問題是有必要的。一些以前沒有挖掘出來的問題可以再繼續挖掘,也有一些開放的問題值得繼續研究,這些領域最近也有些很有趣的進展。

機器之心:您覺的二階的算法在機器學習裡面的潛力呢?

籃光輝:二階算法好處是可以得到高精度的解,但一般來說機器學習并不需要高精度的解。

因為在研究中我個人非常喜歡探索新的領域。是以可能不太會集中精力去做二階算法,但我相信會有人去做,因為總會有新東西的。我可能更多去做一些原來認為難、但我們沒法觸及或了解到的問題,現在随着新思路的出現以及計算平台的提高,這些難問題可能也變得沒那麼難了。就像随機優化一樣,原來是很難的,但因為新的思想、新的計算平台出現,現在沒那麼難了。是以我可能去做這樣一些工作,這些工作也可能會在機器學習裡面非常有潛力。

機器之心:機器學習有多種學派,比如一種是優化,還有就是貝斯這種統計角度,您屬于哪個?

藍光輝:我所在的方向其實是從兩個角度同時去看問題,比如随機優化,它完全結合了統計和優化。

比如像我以前的兩個老師,一個就是前面提到的 Arkadi Nemirovski,他既是優化裡面的領軍人物,又是 Non-parametric statistic 的創始人之一。我另外一個老師 Alexander Shapiro 既是統計學家,在優化方面也是很頂尖的學者。是以說在基礎性研究工作中優化和統計不存在競争的關系,盡管我們不一定是從貝葉斯的角度去描述統計性質。我們會同時用統計的語言和優化的語言去描述問題及其解的性質,是以這個領域叫随機優化。

可能會在網上的一些科普性讀物裡面,有一部分人把優化局限于求解一個确定性(如所謂的 Empirical risk minimization)問題,這是不确切的。我們在優化領域特别是随機優化領域不僅會研究怎麼樣設計有效的算法求解機器學習模型,也會研究求解這個模型之後得到的解會滿足什麼樣的統計特性。

優化算法與機器學習

機器之心:您一開始做這些算法的時候,機器學習、深度學習還沒這麼火,後來深度學習火了,您與這個領域的交流多嗎?

藍光輝:在美國交流其實挺頻繁,在我做前面兩個算法的時候,已經有一批機器學習的人跟我取得了聯系。比如伯克利的一些人做随機優化算法會跟我聯系,探讨一些算法本身的問題。深度學習更不用說,我覺得深度學習理論上還有不清楚的地方。

而且,我們也會研究機器學習的問題,機器學習的研究者也在研究優化算法,兩個領域正在交融。我也覺得美國有一批非常優秀的人才,包括來自中國、印度和美國本土的年輕人,在不斷地推出新的結果。你追我趕,非常非常活躍。

機器之心:能介紹一下您所做的工作對于現在機器學習意義和價值嗎?

藍光輝:我早期做的一些工作,比如說随機加速梯度算法(或随機動量梯度法),現在在機器學習裡面用的比較多。因為加速梯度算法比較需要采用特大步長,以前大家認為這一類算法不可能去解随機問題,更不用說非平滑問題。

我第一個去嘗試證明了這個算法不僅僅可以用來解平滑問題,也可以用來解決随機問題的,甚至可以解決非平滑問題,後來我們還證明它可以解非凸的問題。更重要的是我們證明了它無論解決任何問題,理論上都是最優的(理論上收斂率不可能再提高)。

這些工作,包括我們現在獲得的其它研究成果,為機器學習提供了一些有效的算法工具。因為在此之前怎樣加速訓練一個機器學習模型是個瓶頸,現在可能變得更加有效了。當然,機器學習不隻是我們這一方面的推動,它是在很多領域科學家的合力下取得進展的,比如計算體系結構、深度學習、分布式計算等,各司其職,我們隻做了算法這一核心方面的工作。

個人研究方法

機器之心:您還獲得了 NSF CAREER Award,當時您得了這個獎之後對您的研究方向有什麼樣的影響嗎?

藍光輝:美國國家自由基金傑出青年獎(NSF CAREER Award)主要是用來獎勵年輕教授對自己未來(五年)的科研規劃。我當時是在 2012 年 7 月份寫的這個提案(proposal),英文題目是 Reduced-order Methods for Big Data Challenges in Nonlinear and Stochastic Optimization,就是如何設計新的算法以應對大資料對非線性和随機優化的挑戰。然後 2013 年 1 月份拿到這個獎。

2012 年,大資料這個名字可能才剛出來。我覺得美國國家自然基金認可我的這個科研判斷,當然就給我提供了一個很好的榮譽及職業發展平台。

機器之心:您曾經提到「研究者的責任」,您能講一下您對此的解讀?

藍光輝:我本身是一個研究者,而研究者要清醒認識到研究的責任是什麼。研究者不能隻是推廣一個概念(concept),而不了解其深層含義,比如它什麼時候有效(work)、什麼時候無效、為什麼有效、無效之後的解決辦法等。

如果不明白這些深層問題,像以前機器學習或人工智能那樣一會熱一會不熱,最終還是會回到這種循環。是以為了避免這種情況,必須有一批去抓理論的人,有更多的人會去做理論、做算法,了解「為什麼」。

機器之心:可能中國有這樣理念的人還是太少了,很多人都是研究機器學習是什麼、怎麼用。

藍光輝:對,其實另一方面我覺得中國學生的背景是挺好的,隻是社會可能需要培育一種這樣的氣氛讓研究者及年輕學子覺得做這些事情是有價值的,或者說從精神、媒體報道、甚至物質待遇上等各個方面,覺得做這些工作是有前途的。

在美國為什麼有這樣一群人呢?很重要的一方面是美國人選擇的職業是他們自己喜歡的,不是說哪個火就去跟學哪個,比如機器學習火就去做機器學習,網際網路火就去做網紅。

是以,我就覺得應該多鼓勵研究者做他們自己喜歡的方向,不管是理論還是應用。美國就是因為有兩撥這樣的研究者,作理論和作應用的人互相促進,是以美國的科研總是趕在前面。

機器之心:藍教授好像是在 2016 年初從佛羅裡達回到喬治亞理工(也是你的母校),是出于什麼原因呢?

藍光輝:我更多是從研究的角度去考慮。佛羅裡達也非常不錯,但首先喬治亞理工是我的母校;第二喬治亞理工在優化、機器學習領域有一批非常優秀的、世界頂尖的、理論功底很強的人物;而且,我也可以找到最優秀的學生,大家一起去做研究。

目前看來,這對于我自己的事業來說還是值得的。

機器之心:那您覺得學習、了解您從事的技術,數學要求度高嗎?

藍光輝:一般來說,我覺得中國大學生的數學水準都還不錯,隻要說他在大學認認真真學了基礎的數學課程,比如說數學分析、線性代數、統計與機率等基礎知識,我覺得應該足夠了。

機器之心:就像您說的,中國這個領域的研究團隊也在壯大,可能有一些中國學生會比較感興趣讀 Phd,您作為老師對 Phd 有什麼要求嗎?

藍光輝:如果說中國學生有需要提高的地方的話,我覺得第一個可能需要在大學甚至更早期間就知道什麼是研究。因為有很多學生可能就隻是上課,并不知道研究是什麼。像美國學生從國小開始就會自己去搜尋相關的資料、去想研究主意(ideas)。

當然國内也有厲害的,比如我去年在北大發現北京大學很早就讓大學生參與到研究工作中,我覺得這個是非常好的。

第二,普遍來說中國學生可能在英文寫作方面需要提高。可能因為大學學習期間對學生的考察主要是基于考試,比較單純。引入對學生寫作方面的訓練(如研究報告,小論文等等)是解決這個問題的一個思路。

機器之心:喬治亞理工的理工科非常強,它和 MIT、CMU、斯坦福的最大差別是什麼?比如學校的氣質和風格。

藍光輝:我覺得這些學校都非常好,但有所不同。我覺得喬治亞理工很内斂。有時候我們做出世界一流的成果,隻會比較謙虛的說出來。這可能符合美國南方人的特點(笑)。而我覺得像斯坦福、MIT 這樣的會敢說,他們也有這個資本。

專訪喬治亞理工終身教授藍光輝: 開創随機加速梯度法助力深度學習

繼續閱讀