天天看點

免費的NLP學習資源,了解一下

自然語言處理表示計算機系統了解人類語言的能力,它是人工智能的一部分。網上有很多種資源可以幫助你從零開始學習NLP。本文列出了适用于初學者和從業者的一些相關資源。

免費的NLP學習資源,了解一下
給初學者的自然語言資源

對于初學者,可以采用兩種傳統的方法—機器學習和深度學習來開始自然語言處理。這兩種方法是不同的,你可以點選

這裡

來檢視它們之間的差別。

傳統機器學習

傳統的機器學習算法比較複雜,不太容易了解。個人建議使用深度學習來做NLP更快捷。

深度學習(Deep Learning)

深度學習是機器學習的一個分支領域,由于人工神經網絡的引入,深度學習比傳統機器學習的表現要好得多。可以通過深度學習來學習NLP,對于初學者可以檢視以下的資源:

· CS224n:這是從零開始通過深度學習來學習NLP的最佳課程。本課程由斯坦福大學主辦,可以點選

通路;

· YoavGolberg的免費和付費的書,是在NLP中開始深度學習的好資源。免費書籍可以在

· 在Jacob Einsenstein的關于GATECH的NLP類的筆記中,覆寫了所有NLP的算法,而NLP類幾乎能處理所有的NLP方法,點選

可以通路他的筆記;

給從業者的自然語言處理的學習資源
免費的NLP學習資源,了解一下

如果你是一個資料專家,可能需要如下三種類型的資源:

1、快速入門指南

2、特定問題的檢查方法

3、時常閱讀文章

快速入門指南

· 對于NLP的概述,可以從Daniel W. Otter等人的深度學習報告開始,點選

通路。

· Tom Young等人的一篇調查報告總結了基于深度學習的NLP中的所有最新内容,建議從業者開始使用NLP,點選

檢視報告。

· 這有一篇不錯的論文,讓我們了解了如何隐藏循環神經網絡(Recurrent Neural Networks,RNNs)的狀态。我還推薦如下兩篇博文: 

o

了解LSTM(Long Short-Term Memory)網絡 擴充的遞歸神經網絡

· 卷積神經網絡(Convolutional Neural Networks,CNNs/ConvNets)也可以被用來了解自然語言處理。通過閱讀

這篇論文

,你可以想象CNNs如何在NLP中進行應用;

· ShaojieBai等人在

一篇論文

中強調了如何将CNNs和RNNs進行比較。PyTorch張量庫所有的代碼是開放的,點選

可以檢視。

特定問題的處理方法

從業者需要的另一種類型的資源是,如果要選擇一個算法來執行任務,那麼能夠應用的最好的方法有哪些呢?

文本分類

文本分類方面的種類居多,可以是将文本分成不同的類别或檢測文本中的觀點/情感的形式。

我想介紹一個容易了解的我們前些時候在ParallelDots

部落格

上做的情感分析技術的調查報告。雖然這項調查是關于情感分析技術的,但是它包含了大多數的文本分類問題。

我們的調查技術性沒有那麼強,但很有趣,并且能夠指導你利用更好的資源來了解概念。有一些Arxiv調查報告技術性非常強,這就需要你閱讀其它的一些論文來深入了解主題。我建議的方法是使用本文中的連結來熟悉,并享受其中的樂趣,但之後建議閱讀我提供的指南。記住,雖然興趣很重要,但技巧有時也很重要,否則很難在新的環境中應用概念。另一個情感分析算法的調查報告可以在

如果你還沒聽說過遷移學習,其實它正在快速地深入到深度學習領域之中。就像在圖檔裡利用ImageNet分類來訓練模型,還可以針對任何分類任務進行微調,在Wikipedia網站上訓練NLP模型,用于語言模組化,目前可以在相對較少的資料量上傳輸學習文本分類。現在我們還沒有關于這個問題的調查報告,但是我可以告訴你在OpenAI上Reuder和Howard的兩篇論文,它們涉及下面所提到的技術:

· 

面向文本分類的通用語言模型的微調 生成性預訓練提高語言了解能力

Fast.ai

上有詳細的方法使用文檔。

如果你正在進行兩個不同任務的遷移學習,

将介紹使用Convnets的技巧。恕我直言,這些技術将逐漸地采用其它的分類方法。我們還釋出了Zero Shot文本分類上的工作成果,并得到了不錯的準确性,沒有任何資料集上的訓練,而且正在緻力于後面深入的工作。我們已經建了一個通常稱為自定義分類器的文本分類API,你可以在其中定義自己的類别,可以點選檢視

demo

序列标注

序列标注是一個給字詞加屬性的工作,其中包括詞性标注、命名的實體識别、關鍵詞标注等。我們寫了一個有趣的任務檢驗方法,請點選檢視

關于這些問題,你可以檢視今年COLING大會上的一篇論文,它給出了訓練序列标注算法的最優準則,可以點選

檢視。

機器翻譯

· 近來NLP最大的進步是提供了将文本從一種語言翻譯成另一種語言的算法。Google的系統是一個16層的LSTM,并給出了最優翻譯結果;

· 關于機器翻譯的更多教程,你可以參考Philip Koehn的

論文

。點選

可以檢視有關利用深度學習來進行機器翻譯的詳細資料。

這裡有兩篇我非常喜歡的論文:

· 當你有足夠多的資料時,

Google論文

會告訴你如何全面完整地解決問題;

· Facebook的卷積機器翻譯系統和相關代碼作為一個庫釋出在

https://marian-nmt.github.io/

,這是一個關于快速翻譯的C++語言架構,

http://www.aclweb.org/anthology/P18-4020 http://opennmt.net/

,使每個人都能訓練自己的機器翻譯系統;

常見問題 SQuAD資料集

是一個問答資料集,它用來測試算法閱讀了解和回答問題的能力。微軟今年早些時候釋出了一篇論文,聲稱他們在這一領域的NLP成果已經達到了相當于人類水準的準确性,可以在

檢視論文。另一個重要的算法是

Allen AI

BiDAF

(Bi-Directional Attention Flow);

· 另一個重要算法是關于視覺問答的,給出了關于圖像問題的答案。在2017年的VQA挑戰賽上,Teney等人發表的論文是一個很好的基礎入門資料,可以在GITHUB上找到相關的實作

代碼

· 在現實生活中,對大型文檔的提取式問答可以利用遷移學習來實作,點選

可以查到相關論文。這裡有一篇非常好的

駁斥了問答算法的“了解”,如果你正從事相關的工作,強烈建議閱讀。

釋義、語句相似度或推理

語句對比的工作,NLP有三個不同的任務: 語句相似度, 釋義檢測和自然語言推理(Natural Language Inference,NLI),為此,每一個任務都需要有比以前更多的語義了解。

MultiNLI

及其子集Stanford NLI是最著名的基準資料集,并且在最近成為了研究的熱點。還有用于釋義檢測的MS Paraphrase Corpus和Quora Corpus以及用于STS(語義文本相似性)的SemEval資料集。在這個領域關于進階模型的調查報告點選

可以通路到。

在這個領域中,我非常喜歡的論文有以下幾篇:

· Omar Levy小組的一篇

表明了即使是簡單的算法也能夠執行操作,這是因為算法沒有學習“推理”。

· BiMPM(雙邊多角度句子比對)是一個預測釋義的好模型,可以點選

· 還有一項用于釋義檢測的新工作,它把關系網絡應用到語句表示上面了,并在今年的AINL會議上得到了認可,可以點選

閱讀相關資訊。

其它領域 語言模組化 (LM)—

語言模組化是關于學習一種語言的無監督表示的過程,這是通過給出一個語句中前n個詞來預測第(n+1)個詞完成的。這些模型有兩個重要的實際環境應用,一個是自動完成模組化,另外一個是作為上文中提到的用于文本分類的遷移學習基礎模型。點選

可以檢視一個比較長的調查報告。如果你對如何在手機或者搜尋引擎中根據搜尋曆史記錄自動完成LSTMs感興趣,這裡推薦一篇很好的

關系提取

關系提取是指在一個句子中抽取實體之間關系的行為。是以,所給句子中“A是作為r到B的關聯”,你會得到三重關系(A,r,B)。在該領域中研究工作的調查報告可以點選

檢視。我還發現了一篇

非常不錯,是使用BiDAF進行Zero Shot關系提取的。

對話系統

随着聊天機器人的出現,對話系統現在非常流行。許多人将對話系統作為意圖檢測、關鍵詞檢測、問題回答等模型的實作,而一些人則試着進行全面模組化。我也順便提一下Parl.ai,這是Facebook AI的一個人工智能對話技術架構。

文本摘要

文本摘要是從文檔中擷取濃縮的文本。有兩種方法可以完成這個工作:提取摘要和抽象概括。提取摘要是從文章中抽取出最具資訊含量的句子,而抽象概括的目的是像人一樣寫摘要。這個來自Eintein AI的

将抽象概括帶進了主流研究。

自然語言生成 (NLG)—

自然語言生成是關于計算機旨在像人類一樣寫作的研究,這可以是寫故事、詩歌、圖檔的标題等等。其中,目前的研究已經能夠在圖檔标題上做的很好,LSTM和注意機制的結合已經給出了可以用在實際生活中的成果。

是相關技術的調查報告。

本文由北郵

@愛可可-愛生活

 老師推薦,

阿裡雲雲栖社群

組織翻譯。

文章原标題《List of free resources to learn Natural Language Processing

作者:

Shashank Gupta

譯者:奧特曼,審校:袁虎。

文章為簡譯,更為詳細的内容,請檢視

原文

繼續閱讀