中文分词工具比较

2018-10-09 23:50:00

五款中文分词工具的比较，尝试的有jieba，SnowNLP，thulac（清华大学自然语言处理与社会人文计算实验室），StanfordCoreNLP，pyltp（哈工大语言云），环境是Win10，anaconda3.7

1. 安装

Jieba：
pip install jieba

SnowNLP：
pip install snownlp

thulac：
pip install thulac

StanfordCoreNLP：
pip install stanfordcorenlp

下载CoreNLP并解压，将中文包下载并解压至CoreNLP文件夹

pyltp：

pip install pyltp，安装失败提示c++14 missing，手动编译失败，换成centos安装依然失败

2. 运行

a = 'Jimmy你怎么看'

import jieba.posseg as pseg
ws = pseg.cut(a)
for i in ws:
    print(i)

import thulac
thu1 = thulac.thulac()
text = thu1.cut(a)
print(text)

from stanfordcorenlp import StanfordCoreNLP
nlp = StanfordCoreNLP(r'./stanford-corenlp-full-2018-10-05/', lang='zh')
print(nlp.pos_tag(a))

from snownlp import SnowNLP
s = SnowNLP(a)
t = s.tags
for i in t:
    print(i)

3. 结果

只有Thulac的结果比较特别，StanfordCoreNLP的运行占用大量内存和CPU，尝试另一句话‘这本书很不错’，jieba无法分出‘本’，其他都可以完整分词，不过StanfordCoreNLP依然占用大量内存和CPU。

Jieba:
Jimmy/eng
你/r
怎么/r
看/v

Thulac:
Model loaded succeed
[['Jimmy你怎', 'x'], ['么', 'u'], ['看', 'v']]

SnowNLP:
[('Jimmy', 'NR'), ('你', 'PN'), ('怎么', 'AD'), ('看', 'VV')]

StanfordCoreNLP:
('Jimmy', 'p')
('你', 'r')
('怎么', 'r')
('看', 'v')

中文分词工具比较

继续阅读

Apache (You don't have permission to access / on this server.）

debian9升级4.9.0内核到4.19.2内核过程

centOS7 配置 vsftpd 虚拟用户及权限Vsftpd配置虚拟用户及权限

linux-svn卸载与安装

vsftp虚拟多用户多权限一键部署脚本

Ubuntu14.04 LTS下安装mongodb

Nginx服务优化（1）——隐藏版本号、修改用户与组、网页缓存时间、日志切割、连接超时一、隐藏版本号二、修改用户与组三、配置Nginx网页缓存时间四、实现Nginx日志分割五、配置Nginx实现连接超时六、补充关于时间日期的命令

httpd服务的部署、启动、配置和简单优化一、部署二、启动三、配置文件

配置网页内容访问

手动安装Intel network I217-LM网卡的Linux驱动

禁止ubuntu系统弹出报错界面

Ubuntu Linux下Apache的配置文件

samba服务器的功能

【Linux】UDP广播报文接收速率问题

Linux设备模型（中）之上层容器

PowerPC平台 Linux移植三