1.安装gensim
pip install gensim
会报一个问题,可以直接忽略。
2.下载wiki语料
wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
3.用 WikiExtractor抽取正文文本
nohup python WikiExtractor.py -cb 1000M -o extracted zhwiki-latest-pages-articles.xml.bz2
nohup.out
运行时长:15点08分到16点,约1h
看一下运行结果:
4.繁简体转换
这个opencc安装教程很强大!~
安装Opencc,方法如下:
$git clone https://github.com/BYVoid/OpenCC.git
$cd OpenCC
$make
$make install
编译报错,升级gcc:【具体参考 gcc版本升级】
wget http: //ftp.gnu.org/gnu/gcc/gcc-4.8.0/gcc-4.8.0.tar.bz2<pre name="code" class="python">tar -jxvf gcc-4.8.0.tar.bz2<pre name="code" class="python">cd gcc-4.8.0
./contrib/download_prerequisites
cd ..
mkdir gcc-build-4.8.0
cd gcc-build-4.8.0
../gcc-4.8.0/configure --enable-checking=release --enable-languages=c,c++ --disable-multilib
make -j4
sudo make install
最后用新版替换旧版
update-alternatives --install /usr/bin/gcc gcc /usr/local/bin/i686-pc-linux-gnu-gcc 40
事实是,失败了(笑着活下去...)
发现了这个升级教程升级gcc!之后觉得刚才的自己蠢蠢的,升级成功!
重新编译安装OpenCC!~
还是报错(笑着活下去+1)...
libstdc++的问题,于是在/usr/local/lib64中找到了高版本的libstdc++.so.6.0.18文件,将它复制并链接,代码如下:
sudo cp /usr/local/lib64/libstdc++.so.6.0.20 /usr/lib64/
$ sudo ln -s -f /usr/lib64/libstdc++.so.6.0.20 /usr/lib64/libstdc++.so.6
结果还是报错:
opencc: error while loading shared libraries: libopencc.so.2: cannot open shared object file: No such file or directory
于是去find这个文件,并建立链接文件:
sudo find / -name libopencc.so.2
sudo ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2
这下终于ok了,感动天感动地2333
【总结:这次装软件配环境心态比较好,比较细心耐心,恩!~】
运行example:
恩,下面就开始处理wiki语料的繁简体转换了:
参考opencc官方文档