天天看點

Python3下的NLTK及nltk_data安裝問題(Ubuntu環境)Python3下的NLTK及nltk_data安裝問題(Ubuntu環境)

Python3下的NLTK及nltk_data安裝問題(Ubuntu環境)

測試環境:Ubuntu Kylin 14.04

Python版本:3.4.3

在使用Python強大的第三方庫nltk進行一些自然語言處理工作的時候遇到了一些困難,折騰一番總算解決。現在在這裡記錄一下,當作備忘。

網上找到挺多安裝nltk的教程,但經測試,好像都是适用于Python2的,對于Python3,就勉為其難了。這裡的主要問題是,前輩們分享的nltk_data包是不相容Python3的。

是以我的解決方案是:

到https://github.com/nltk/nltk_data下載下傳gh-pages分支,裡面的Packages就是我們要的資源。(注:截至2016年3月24日時本方案仍有效)

詳細情況記錄如下:

1.安裝nltk。截至今天,安裝的是nltk3.2,在有pip這些工具的情況下,安裝這些庫變得非常簡單:

pip install nltk

另外官方的安裝說明還附帶了numpy,一個“賽Matlab的Python開源的數值計算擴充庫”,說不定以後用得上:

pip install numpy

2.安裝nltk_data。nltk_data是必要的nltk資料包,實作分詞,詞性标注,命名實體識别等功能都要用到這個資料包:

進入Python Shell後隻需要兩句就可以進入nltk_data的下載下傳

$python

>>>import nltk

>>>nltk.download()

然後就可以按提示進行了。

重點是,下載下傳會很慢或幹脆卡住。此時需要手動下載下傳nltk_data包。

下載下傳方法:到https://github.com/nltk/nltk_data下載下傳gh-pages分支,裡面的Packages就是我們要的資源。

裡面有部分是壓縮包,需要解壓。

将Packages檔案夾改名為nltk_data,放在以下任一路徑:

/usr/lib

/usr/local/lib

使用者目錄(比方說可能是/home/bennu)

其他nltk可以識别的路徑,出錯時有可能會在出錯資訊看到。

連結: https://pan.baidu.com/s/1UfJhJY9bJ9hqeTuzKxgQvw 密碼: 2ce5

剩下就是繼續努力學習了~

--------------------- 

作者:BennuChan 

來源:CSDN 

原文:

https://blog.csdn.net/cxq2046/article/details/50972715

版權聲明:本文為部落客原創文章,轉載請附上博文連結!