天天看點

gensim的word2vector測試_基于中文wiki語料

1.安裝gensim  

pip install gensim
           

會報一個問題,可以直接忽略。

2.下載下傳wiki語料

wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
           

3.用 WikiExtractor抽取正文文本

nohup python WikiExtractor.py -cb 1000M -o extracted zhwiki-latest-pages-articles.xml.bz2
           

nohup.out

gensim的word2vector測試_基于中文wiki語料
gensim的word2vector測試_基于中文wiki語料

運作時長:15點08分到16點,約1h

看一下運作結果:

gensim的word2vector測試_基于中文wiki語料

4.繁簡體轉換

這個opencc安裝教程很強大!~

安裝Opencc,方法如下:

$git clone https://github.com/BYVoid/OpenCC.git
$cd OpenCC
$make
$make install
           

編譯報錯,更新gcc:【具體參考 gcc版本更新】

wget http: //ftp.gnu.org/gnu/gcc/gcc-4.8.0/gcc-4.8.0.tar.bz2<pre name="code" class="python">tar -jxvf  gcc-4.8.0.tar.bz2<pre name="code" class="python">cd gcc-4.8.0
./contrib/download_prerequisites
cd ..
mkdir gcc-build-4.8.0
cd  gcc-build-4.8.0
../gcc-4.8.0/configure --enable-checking=release --enable-languages=c,c++ --disable-multilib
make -j4
sudo make install
           

最後用新版替換舊版

update-alternatives --install /usr/bin/gcc gcc /usr/local/bin/i686-pc-linux-gnu-gcc 40
           

事實是,失敗了(笑着活下去...)

發現了這個更新教程更新gcc!之後覺得剛才的自己蠢蠢的,更新成功!

gensim的word2vector測試_基于中文wiki語料

重新編譯安裝OpenCC!~

還是報錯(笑着活下去+1)...

libstdc++的問題,于是在/usr/local/lib64中找到了高版本的libstdc++.so.6.0.18檔案,将它複制并連結,代碼如下:

sudo cp /usr/local/lib64/libstdc++.so.6.0.20 /usr/lib64/
$ sudo ln -s -f /usr/lib64/libstdc++.so.6.0.20 /usr/lib64/libstdc++.so.6
           

結果還是報錯:

opencc: error while loading shared libraries: libopencc.so.2: cannot open shared object file: No such file or directory
           

于是去find這個檔案,并建立連結檔案:

sudo find / -name libopencc.so.2
sudo ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
           

這下終于ok了,感動天感動地2333

【總結:這次裝軟體配環境心态比較好,比較細心耐心,恩!~】

運作example:

gensim的word2vector測試_基于中文wiki語料

恩,下面就開始處理wiki語料的繁簡體轉換了:

參考opencc官方文檔

繼續閱讀