Python3下的NLTK及nltk_data安裝問題(Ubuntu環境)
測試環境:Ubuntu Kylin 14.04
Python版本:3.4.3
在使用Python強大的第三方庫nltk進行一些自然語言處理工作的時候遇到了一些困難,折騰一番總算解決。現在在這裡記錄一下,當作備忘。
網上找到挺多安裝nltk的教程,但經測試,好像都是适用于Python2的,對于Python3,就勉為其難了。這裡的主要問題是,前輩們分享的nltk_data包是不相容Python3的。
是以我的解決方案是:
到https://github.com/nltk/nltk_data下載下傳gh-pages分支,裡面的Packages就是我們要的資源。(注:截至2016年3月24日時本方案仍有效)
詳細情況記錄如下:
1.安裝nltk。截至今天,安裝的是nltk3.2,在有pip這些工具的情況下,安裝這些庫變得非常簡單:
pip install nltk
另外官方的安裝說明還附帶了numpy,一個“賽Matlab的Python開源的數值計算擴充庫”,說不定以後用得上:
pip install numpy
2.安裝nltk_data。nltk_data是必要的nltk資料包,實作分詞,詞性标注,命名實體識别等功能都要用到這個資料包:
進入Python Shell後隻需要兩句就可以進入nltk_data的下載下傳
$python
>>>import nltk
>>>nltk.download()
然後就可以按提示進行了。
重點是,下載下傳會很慢或幹脆卡住。此時需要手動下載下傳nltk_data包。
下載下傳方法:到https://github.com/nltk/nltk_data下載下傳gh-pages分支,裡面的Packages就是我們要的資源。
裡面有部分是壓縮包,需要解壓。
将Packages檔案夾改名為nltk_data,放在以下任一路徑:
/usr/lib
/usr/local/lib
使用者目錄(比方說可能是/home/bennu)
其他nltk可以識别的路徑,出錯時有可能會在出錯資訊看到。
連結: https://pan.baidu.com/s/1UfJhJY9bJ9hqeTuzKxgQvw 密碼: 2ce5
剩下就是繼續努力學習了~
---------------------
作者:BennuChan
來源:CSDN
原文:
https://blog.csdn.net/cxq2046/article/details/50972715版權聲明:本文為部落客原創文章,轉載請附上博文連結!