天天看点

gensim的word2vector测试_基于中文wiki语料

1.安装gensim  

pip install gensim
           

会报一个问题,可以直接忽略。

2.下载wiki语料

wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
           

3.用 WikiExtractor抽取正文文本

nohup python WikiExtractor.py -cb 1000M -o extracted zhwiki-latest-pages-articles.xml.bz2
           

nohup.out

gensim的word2vector测试_基于中文wiki语料
gensim的word2vector测试_基于中文wiki语料

运行时长:15点08分到16点,约1h

看一下运行结果:

gensim的word2vector测试_基于中文wiki语料

4.繁简体转换

这个opencc安装教程很强大!~

安装Opencc,方法如下:

$git clone https://github.com/BYVoid/OpenCC.git
$cd OpenCC
$make
$make install
           

编译报错,升级gcc:【具体参考 gcc版本升级】

wget http: //ftp.gnu.org/gnu/gcc/gcc-4.8.0/gcc-4.8.0.tar.bz2<pre name="code" class="python">tar -jxvf  gcc-4.8.0.tar.bz2<pre name="code" class="python">cd gcc-4.8.0
./contrib/download_prerequisites
cd ..
mkdir gcc-build-4.8.0
cd  gcc-build-4.8.0
../gcc-4.8.0/configure --enable-checking=release --enable-languages=c,c++ --disable-multilib
make -j4
sudo make install
           

最后用新版替换旧版

update-alternatives --install /usr/bin/gcc gcc /usr/local/bin/i686-pc-linux-gnu-gcc 40
           

事实是,失败了(笑着活下去...)

发现了这个升级教程升级gcc!之后觉得刚才的自己蠢蠢的,升级成功!

gensim的word2vector测试_基于中文wiki语料

重新编译安装OpenCC!~

还是报错(笑着活下去+1)...

libstdc++的问题,于是在/usr/local/lib64中找到了高版本的libstdc++.so.6.0.18文件,将它复制并链接,代码如下:

sudo cp /usr/local/lib64/libstdc++.so.6.0.20 /usr/lib64/
$ sudo ln -s -f /usr/lib64/libstdc++.so.6.0.20 /usr/lib64/libstdc++.so.6
           

结果还是报错:

opencc: error while loading shared libraries: libopencc.so.2: cannot open shared object file: No such file or directory
           

于是去find这个文件,并建立链接文件:

sudo find / -name libopencc.so.2
sudo ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
           

这下终于ok了,感动天感动地2333

【总结:这次装软件配环境心态比较好,比较细心耐心,恩!~】

运行example:

gensim的word2vector测试_基于中文wiki语料

恩,下面就开始处理wiki语料的繁简体转换了:

参考opencc官方文档

继续阅读