本文約6400字,建議閱讀8分鐘。
本文介紹了2020年發表的人工智能(AI)論文。
幾周前,我發表了一篇文章,裡面有要在2020年閱讀的人工智能(AI)論文。如果你把所有額外的閱讀建議都算進去,總共有27篇文章。
文章網址:
https://towardsdatascience.com/ai-papers-to-read-in-2020-ac0e4e91d915
然而,這份清單還遠未完成。許多如寶石般的文章被遺漏或隻是簡單地提到。在這篇文章中,為了你的閱讀樂趣,我列出了今年閱讀人工智能論文的十條建議(以及其他一些進一步的閱讀建議)。 在這個清單中,我主要關注那些在不提出新架構的情況下推動最新技術的文章,這些文章不包含最新的YOLO或ResNet變體;相反,主要包括了損失公式、理論突破、新優化器等方面的最新進展。 對于文章的前半部分,我将重點介紹計算機視覺和NLP,因為這些是我最熟悉的主題,并從一兩個經典技術開始。對于每一篇論文,我都會總結其主要貢獻,并列出閱讀理由。最後,我在每一篇文章的結尾都給出了關于這個主題的具體閱讀建議,并将其與其他最新進展或類似想法聯系起來。
-
1.GloVe (2014)
Pennington, Jeffrey, Richard Socher, and Christopher D. Manning. “Glove: Global vectors for word representation.” 2014年自然語言處理方法會議(EMNLP)論文集。
論文連結:
https://www.aclweb.org/anthology/D14-1162.pdf
雖然現在的社群主要關注神經網絡,但許多早期的結果是通過更簡單的數學方法獲得的。GloVe是從經典算法出發的,它是基于減少單詞共現矩陣維數的單詞嵌入模型。與以前的方法不同,GloVe使用隐式表示法,使其可以擴充為大規模文本語料庫。 理由1:如果你從自然語言處理(NLP)入手,這是一本很好的讀物,可以幫助你了解單詞嵌入的基本知識以及它們的重要性。 理由2:以前并不是所有的東西都是基于Transformers的,閱讀早期的作品是一個很好的方法去找到一個“被遺忘的想法”,該想法可以使現有技術進一步發展。
Transformers:
http://papers.nips.cc/paper/7181-attention-is-all-you-need
理由3:許多作者在後來擴充了本文中提出的許多概念。如今,詞嵌入已成為自然語言處理(NLP)中的主要内容。 進一步閱讀:在同一時期,Google釋出了Word2Vec,另一個著名的語義向量生成模型。不久之後,這些想法被生物學界采納,作為表示大蛋白和基因序列的方法。而現在BERT是詞彙表征和語義了解的主導方法。
Word2Vec:
https://arxiv.org/abs/1301.3781
BERT:
https://arxiv.org/abs/1810.04805
-
2.AdaBoost (1997)
Freund, Yoav; Schapire, Robert E (1997). “A decision-theoretic generalization of on-line learning and an application to boosting”.
論文連結:
https://www.sciencedirect.com/science/article/pii/S002200009791504X
經典的機器學習模式根本就不靈活,大多數公式都有顯著的局限性,這使得它們無法擴充到越來越複雜的任務中。 首先解決這個問題的辦法之一是将現有的最佳模式進行投票整合。1997年,Freund和Schapire提出了AdaBoost算法,這是一種元啟發式學習算法,能夠将許多“弱”模型運用到“強”分類器中。 簡而言之,該算法疊代地訓練多個分類器,并将每個訓練樣本重新權重為“簡單”或“困難”,随着訓練的進行,這套系統會通過更多地關注較難分類的樣本來進化。該算法非常有效,但是遇到複雜的問題也很容易過度拟合。 理由1:可以說,神經網絡是弱分類器(神經元/層)的集合,然而神經網絡文獻的發展是獨立于整體的。讀一篇關于這個主題的論文可能會對為什麼神經網絡工作得這麼好産生一些見解。 理由2:許多新手把傳統的機器學習方法視為過時和“軟弱”的,在幾乎所有事情上都偏愛神經網絡。AdaBoost是一個很好的例子,說明經典的機器學習并不是很弱,而且與神經網絡不同的是,這些模型具有很強的可解釋性。 理由3:有多少報紙是從一個賭徒的故事開始的,他因為一次又一次輸給朋友的騎馬賭博而受挫?我也真希望我敢寫這樣的論文。 進一步閱讀:其他流行的內建方法包括随機森林分類器、梯度提升技術和廣受好評的XGBoost軟體包,它以赢得數次機器學習競賽而聞名,同時相對容易使用和調整。這個家族中最新加入的是微軟的LightGBM,它适用于大規模分布的資料集。
随機森林分類器:
https://en.wikipedia.org/wiki/Random_forest
梯度提升技術:
https://en.wikipedia.org/wiki/Gradient_boosting
XGBoost軟體包:
https://github.com/dmlc/xgboost
LightGBM:
https://github.com/microsoft/LightGBM
-
3.Capsule Networks (2017)
Sabour, Sara, Nicholas Frosst, and Geoffrey E. Hinton. “Dynamic routing between capsules.” 神經資訊處理系統的研究進展。
論文連結:
https://arxiv.org/abs/1710.09829
神經網絡文獻從感覺器模型開始,到卷積神經網絡(CNN)。下一個飛躍是一個備受争議的話題,其中建議之一就是由Sara Sabour,Nicholas Frosst和圖靈獎獲得者Geoffrey Hinton提出的Capsule Network。 了解膠囊網絡的一個簡單方法是用“膠囊”代替“目标檢測器”。每層“目标檢測器”都試圖識别圖像中的相關特征,以及它的姿态(方向、比例、傾斜等),通過疊加探測器,可以導出物體的魯棒表示。 從本質上講,膠囊并不像cnn那樣将本地資訊聚合到進階功能中,取而代之的是,它們檢測目标部分并按層次組合它們以識别更大的結構和關系。 理由1:作為科學家,我們都應該尋找下一個重大事件。雖然我們不能說膠囊網絡将是下一個搖滾明星,但我們可以說他們試圖解決的問題是相關的,并且對于所有相關問題,最終會有人回答。 理由2:本文提醒我們CNN并不完美,它們對旋轉和縮放不變。盡管我們使用資料增強來緩解這種情況,但俗話說,沒有一種Ok繃能治愈一個男人。 理由3:在深度學習成為主流之前,許多目标檢測方法都依賴于識别易于發現的“目标部分”并針對資料庫/本體執行模式比對。Hinton和他的團隊正在做的是使這種早期方法現代化,這就是為什麼我們都應該不定期閱讀經典。 進一步閱讀:在過去的一年中,Attention機制引起了很大注意,盡管它沒有嘗試替代或增加卷積,但确實為全局推理提供了一條途徑,這是現代網絡中衆多Aquiles腳跟之一。
-
4.Relational Inductive Biases (2018)
Battaglia, Peter W., et al. “Relational inductive biases, deep learning, and graph networks.” arXiv preprint arXiv:1806.01261 (2018).
論文連結:
https://arxiv.org/pdf/1806.01261.pdf
這篇文章總結了深層思維團隊相信的深度學習下一個重要技術:圖神經網絡(GNNs)。 用作者自己的話說: (…)。我們認為,組合泛化必須是人工智能實作類人能力的首要任務,結構化表示和計算是實作這一目标的關鍵。正如生物學合作使用自然和培養一樣,我們反對在“手工工程”和“端到端”學習之間的錯誤選擇,而是提倡一種從兩者互補優勢中獲益的方法。我們将探讨如何在深度學習架構中使用關系歸納偏差來促進對實體、關系群組合規則的學習。 旁注:歸納偏差是學習算法對資料所做的所有假設。例如,線性模型假設資料是線性的。如果一個模型假設資料有一個特定的關系,它就有一個關系歸納偏差。是以,圖是一種有用的表示。 理由1:目前的CNN模型是“端到端”的,這意味着它們使用的是原始的,大部分是未經處理的資料。特征不是由人類“設計”的,而是由算法自動“學習”的。我們大多數人都被教導特征學習會更好。在本文中,作者提出了相反的觀點。 理由2:早期的人工智能文獻大多與計算推理有關,然而計算直覺占了上風。NN不會對輸入進行仔細考慮;它們會産生一種相當精确的數學“預感”。圖形可能是一種将這種差距與直覺推理聯系起來的方法。 理由3:組合問題可以說是計算機科學中最關鍵的問題,大多數都處于我們認為可處理或可能的邊緣。然而,我們人類可以自然地、毫不費力地推理。圖神經網絡是答案嗎? 進一步閱讀:GNNs是一個令人興奮和不斷發展的領域。從圖論中,我們知道幾乎任何事物都可以被模組化為一個圖。謝爾蓋·伊萬諾夫(Sergei Ivanov)在2020年ICLR會議上發表了大量參考文獻,列出了GNN的新趨勢。
2020年圖機學習的主要趨勢:
https://towardsdatascience.com/top-trends-of-graph-machine-learning-in-2020-1194175351a3
-
5.Training Batch Norm and Only BatchNorm (2020)
Frankle, Jonathan, David J. Schwab, and Ari S. Morcos. “Training BatchNorm and Only BatchNorm: On the Expressive Power of Random Features in CNNs.” arXiv preprint arXiv:2003.00152 (2020).
論文連結:
https://arxiv.org/abs/2003.00152
你相信在CIFAR-10上,僅ResNet-151的批處理标準化層就可以達到+60%的精确度嗎?換句話說,如果你将所有其他層鎖定在它們的随機初始權值,并訓練網絡50個左右的周期,它的性能将比随機的好。我不得不把這篇論文複制出來親眼看看,“魔力”來自于經常被遺忘的批次範數的γ和β參數: 批處理标準化操作的完整定義。γ和β是兩個可學習的參數,可在标準化發生後允許圖層縮放和移動每個激活圖。
理由1:這是一個瘋狂的想法,值得一讀。開箱即用的想法總是受歡迎的。 理由2:你可能會問自己批歸一化層如何學習,并且你可能會想知道為什麼有人會關心這一點。對于資料科學中的許多事情,我們認為批歸一化是理所當然的,我們相信這隻會加速訓練。但是,它可以做得更多。 理由3:這篇文章可能會激起你的興趣,讓你看看所有的公共層都有哪些參數和超參數。 進一步閱讀:大多數課程教導批歸一化層是針對所謂的内部協方差轉移問題。最近的證據表明情況并非如此 (https://arxiv.org/abs/1805.11604) ,相反,作者認為BN層使整體損失情況更為平滑。另一個巧妙的想法是彩票假說,它也是由弗蘭克爾等人提出的。
彩票假說:
https://arxiv.org/abs/1803.03635
-
6.Spectral Norm (2018)
Miyato, Takeru, et al. “Spectral normalization for generative adversarial networks.” arXiv preprint arXiv:1802.05957 (2018).
論文連結:
https://arxiv.org/abs/1802.05957
在GAN文獻中,Wasserstein損失改善了訓練GANs的幾個關鍵挑戰,然而它規定梯度必須有一個小于或等于1的範數(1-Lipschitz)。損失的最初作者建議将權重裁剪為[-0.01,0.01],以此來增強小梯度。作為響應,也有人提出了更幹淨的解決方案,使用頻譜範數作為限制權重矩陣以生成最多機關梯度的平滑替代方法。
Wasserstein損失:
https://arxiv.org/abs/1701.07875
理由1:标準化是一個比較大的話題,許多特殊屬性可以通過專門的标準化和精心設計的激活函數來實作。 理由2:除了作為一個标準,它也是一個正則化,這是神經網絡設計中經常被忽視的話題。除了dropout,讀一篇關于該問題的成功論文讓人耳目一新。
dropout:
https://en.wikipedia.org/wiki/Dropout_(neural_networks)
進一步閱讀:标準化技術的其他最新進展是組标準化和自适應執行個體标準化技術,前者以小批量解決了批量範數的一些缺點,而後者則是任意風格轉換的關鍵突破之一。
-
7.Perceptual Losses (2016)
Johnson, Justin, Alexandre Alahi, and Li Fei-Fei. “Perceptual losses for real-time style transfer and super-resolution.” 歐洲計算機視覺會議. Springer, Cham, 2016. 大多數神經網絡背後的驅動力是損失函數。在描述什麼是好的和什麼是壞的損失函數越是成功,我們就越快收斂到有用的模型中。在文獻中,大多數損失相對簡單,隻能測量低水準的屬性。除此之外,擷取進階語義也是出了名的棘手。 Perceptual Losses論文認為,可以使用預先訓練的網絡來度量語義相似度,而不是手工設計複雜的損失函數。在實踐中,生成值和真實值的結果通過預先訓練的VGG網絡傳遞,并比較特定層的激活情況。相似圖像應該有相似的激活。早期圖層捕捉廣泛的特征,而後期圖層捕捉更多細微的細節。 理由1:損失是生成優秀模型最重要的方面之一。沒有一個合适的回報信号,任何優化過程都不會收斂。這就是一個好老師的角色:給予回報。 理由2:成功的損失往往具有裡程碑意義。在感覺損失被發明之後,GANs所獲得了品質的躍升。了解這部作品對于了解大部分後期技術是必不可少的。 理由3:這些神經損失既神秘又有用。雖然作者對這些模型的工作原理提供了合理的解釋,但它們的許多方面仍然是開放的,就像神經網絡中的大多數東西一樣。 進一步閱讀:神經網絡的一個迷人的方面是它們的可組合性。本文利用神經網絡來解決神經網絡問題。拓撲損失理論将這種思想推廣到圖像分割問題中。神經結構搜尋(NAS)文獻使用神經網絡來尋找新的神經網絡。至于計算機視覺的其他損失,這裡有一個全面的指南。感謝Sowmya Yellapragada整理了這個強大的清單:
https://medium.com/ml-cheat-sheet/winning-at-loss-functions-2-important-loss-functions-in-computer-vision-b2b9d293e15a
-
8.Nadam (2016)
Dozat, Timothy. “Incorporating nesterov momentum into adam.” (2016). 我們大多數人都熟悉SGD、Adam和RMSprop等術語,有些人還知道一些不太熟悉的名字,如AdaGrad、AdaDelta和AdaMax,但是很少有人花一些時間來了解這些名稱的含義以及為什麼Adam是當今的預設選擇。Tensorflow捆綁了Nadam,它改進了Adam,但是大多數使用者并不知道。 理由1:本論文對大多數神經網絡優化器進行了全面而直接的解釋。每一種方法都是對其他方法的直接改進。很少有論文能在兩頁半的篇幅裡涵蓋如此重數學的知識。 理由2:我們都認為優化器是理所當然的,了解它們的基本原理對改進神經網絡非常有用,這就是為什麼我們在RMSprop不收斂時用Adam替換它,或者用SGD替換它。 進一步閱讀:自2016年以來,已經提出了許多對優化器的其他改進,有些将在某個時候合并到主流庫中。看看 Radam, Lookahead,和Ranger 的一些新想法。
Radam:
https://arxiv.org/abs/1908.03265v1
Lookahead:
https://arxiv.org/abs/1907.08610
Ranger:
https://github.com/lessw2020/Ranger-Deep-Learning-Optimizer
-
9.The Double Descent Hypothesis (2019)
Nakkiran, Preetum, et al. “Deep double descent: Where bigger models and more data hurt.” arXiv preprint arXiv:1912.02292 (2019). 傳統的觀點認為小模型欠拟合,大模型過拟合,然而,在彩虹之上的某個地方,更大的模型仍然閃耀着光芒。 本文中,Nakkiran等人有證據表明,随着尺寸的增長,一些模型表現出“雙下降”現象,測試精度下降,然後上升,然後再次下降。此外,他們認為拐點是在“插值門檻值”:一個模型足夠大來插值資料的點,換句話說,當一個模型的訓練超出了該領域的建議,它就會開始改進。 理由1:大多數課程都教授偏差/方差權衡,顯然,該原則僅在一定程度上适用——需要時間來複習基礎知識。 理由2:如果增加的周期數也越過了插值點,我們都應該盡早放棄,看看會發生什麼。總的來說,我們都可以做科學的分析。 理由3:這和5很好地提醒了我們還有很多我們不知道的地方。并非我們所學的一切都是正确的,并且并非所有直覺的知識都是正确的。 進一步閱讀:一個更輕松的閱讀是圖像分類的“技巧包”。在這本書中,你将找到幾個簡單且可操作的建議,用于從模型中提取額外的性能下降元素。
圖像分類的“技巧包”:
https://arxiv.org/abs/1812.01187
-
10.On The Measure of Intelligence (2019)
François, Chollet. “On the Measure of Intelligence.” arXiv preprint arXiv:1911.01547 (2019).
https://arxiv.org/abs/1911.01547
大多數人都在努力多走一英裡,弗朗索瓦·喬利特正在向月球射擊。 在這個清單中,所有提到的文章都進一步推動了實踐和理論的發展。一些技術已經被廣泛采用,而另一些則為融合提供了良好的改進,然而,比肩人類智力,仍然是一個神秘而難以捉摸的話題,更不用說奧秘或神秘了。 時至今日,人工智能領域朝着通用智能方向的進步還隻是用“成就”來衡量。每隔一段時間,一種算法在複雜的任務中擊敗了人類,比如國際象棋、dota2或圍棋。每當這種情況發生時,我們都說我們又近了一步😃. 然而,這還不足以衡量智力的技能習得效率。 在這篇(長篇)文章中,Chollet認為:“要想朝着更智能、更人性化的人工系統邁進,我們需要遵循适當的回報信号。”換句話說,我們需要一個合适的機器智能基準,一種智商測試。是以,作者提出了抽象推理語料庫(ARC)。 ARC可以被看作是一個通用的人工智能基準,一個程式綜合基準,或者一個心理測量智能測試。它的目标是人類和人工智能系統,這些系統旨在模拟人類一般流體智能的形式。” 理由1:雖然資料科學很酷很時髦,但人工智能才是真正的核心。如果沒有人工智能,就不會有資料科學。它的最終目标不是尋找資料洞察力,而是建構可以擁有自己想法的機器。花些時間思考以下基本問題:什麼是智力,我們如何衡量?本文是一個好的開始。 理由2:在過去的幾十年裡,IA社群被來自數理邏輯和演繹推理的思想所支配,但是支援向量機和神經網絡在沒有任何形式的顯式推理的情況下,比基于邏輯的方法更先進。ARC是否會引發經典技術的複興? 理由3:如果Chollet是正确的,我們離建立能夠求解ARC資料集的算法還有幾年的時間。如果你正在尋找一個可以在業餘時間使用的資料集,這裡有一個可以讓你保持忙碌的資料集: 進一步閱讀:2018年,Geoffrey Hinton、Yosha Bengio和Yan LeCun因其在深度學習基礎上的先驅工作而獲得圖靈獎。今年,在AAAI會議上,他們就人工智能的未來發表了自己的看法。你可以在Youtube上觀看:
https://youtu.be/UX8OubxsY8w
我想用傑弗裡·辛頓的一句話來結束這篇文章,我相信這句話概括了這一切:“未來取決于某個研究所學生,他對我所說的一切都深表懷疑。” GloVe通過隐式完成了共現矩陣。AdaBoost使數百個弱分類器成為最新技術。膠囊網絡挑戰了CNN,而圖神經網絡可能會取代它們。關鍵的進步可能來自歸一化,損失和優化器,而我們仍然有空間質疑批處理規範和訓練過度參數化的模型。 我想知道還有多少關于dropout和ReLU的事情需要去發現。
參考連結:
https://towardsdatascience.com/ten-more-ai-papers-to-read-in-2020-8c6fb4650a9b
圖文轉載自人工智能AI技術
稽核:霍曉音 唐翠梅 黃佳威