gensim的word2vector测试_基于中文wiki语料

2023-04-01 05:57:41

1.安装gensim

pip install gensim

会报一个问题，可以直接忽略。

2.下载wiki语料

wget https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

3.用 WikiExtractor抽取正文文本

nohup python WikiExtractor.py -cb 1000M -o extracted zhwiki-latest-pages-articles.xml.bz2

nohup.out

gensim的word2vector测试_基于中文wiki语料

运行时长：15点08分到16点，约1h

看一下运行结果：

gensim的word2vector测试_基于中文wiki语料

4.繁简体转换

这个opencc安装教程很强大！~

安装Opencc，方法如下：

$git clone https://github.com/BYVoid/OpenCC.git
$cd OpenCC
$make
$make install

编译报错，升级gcc：【具体参考 gcc版本升级】

wget http: //ftp.gnu.org/gnu/gcc/gcc-4.8.0/gcc-4.8.0.tar.bz2<pre name="code" class="python">tar -jxvf  gcc-4.8.0.tar.bz2<pre name="code" class="python">cd gcc-4.8.0
./contrib/download_prerequisites
cd ..
mkdir gcc-build-4.8.0
cd  gcc-build-4.8.0
../gcc-4.8.0/configure --enable-checking=release --enable-languages=c,c++ --disable-multilib
make -j4
sudo make install

最后用新版替换旧版

update-alternatives --install /usr/bin/gcc gcc /usr/local/bin/i686-pc-linux-gnu-gcc 40

事实是，失败了（笑着活下去...）

发现了这个升级教程升级gcc！之后觉得刚才的自己蠢蠢的，升级成功！

gensim的word2vector测试_基于中文wiki语料

重新编译安装OpenCC！~

还是报错（笑着活下去+1）...

libstdc++的问题，于是在/usr/local/lib64中找到了高版本的libstdc++.so.6.0.18文件，将它复制并链接，代码如下：

sudo cp /usr/local/lib64/libstdc++.so.6.0.20 /usr/lib64/
$ sudo ln -s -f /usr/lib64/libstdc++.so.6.0.20 /usr/lib64/libstdc++.so.6

结果还是报错：

opencc: error while loading shared libraries: libopencc.so.2: cannot open shared object file: No such file or directory

于是去find这个文件，并建立链接文件：

sudo find / -name libopencc.so.2
sudo ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2

这下终于ok了，感动天感动地2333

【总结：这次装软件配环境心态比较好，比较细心耐心，恩！~】

运行example：

gensim的word2vector测试_基于中文wiki语料

恩，下面就开始处理wiki语料的繁简体转换了：

参考opencc官方文档

gensim的word2vector测试_基于中文wiki语料

继续阅读

openoffice.org 3.4 如何编译中文版；

主题模型TopicModel：通过gensim实现LDA使用gensim快速实现lda

搭建mediawiki小记

09暑假笔记(2)-mediawiki&amp;FCK上传时浏览服务器与快速上传配置

【MediaWiki之windows安装】MediaWiki创建与基础使用指南一、搭建MediaWiki（可直接跳至第三点）二、个性化设置自己的wiki

nginx+php5+mediawiki配置

使用腾讯云轻量应用服务器搭建自己的百科：超详细的 MediaWiki 的安装、配置及优化指南（一）使用腾讯云轻量应用服务器搭建自己的百科：超详细的 MediaWiki 的安装、配置及优化指南（一）

XCode 配置 sdl2

TensorFlow 使用例子-LSTM实现序列标注

安卓 TextView 设置Drawable大小TextView Drawable实现代码如下

gensim文档-相似性查询相似性接口初始化查询结构进行查询接下来是什么？

非Docker方法在威联通上安装Mediawiki

本地开源知识库系统TSAILUN

gensim官方文档实践笔记文档document语料库Corpus向量Vector模型Model语料库和向量空间主题和转换相似性查询Word2Vec 模型Word2Vec API

Jira5安装破解【图文版】

手把手教你使用C#及WPF调用dll