Pyhanlp自然语言处理中的新词识别

2019-02-14 23:50:00

#%E6%96%B0%E8%AF%8D%E5%8F%91%E7%8E%B0 新词发现

本“新词发现”模块基于信息熵和互信息两种算法，可以在无语料的情况下提取一段长文本中的词语，并支持过滤掉系统中已存在的“旧词”，得到新词列表。

#%E8%B0%83%E7%94%A8%E6%96%B9%E6%B3%95 调用方法 #%E9%9D%99%E6%80%81%E6%96%B9%E6%B3%95 静态方法

一句话静态调用接口已经封装到HanLP中：

/**

* 提取词语

* @param text 大文本

* @param size 需要提取词语的数量

* @return 一个词语列表

public static List<WordInfo> extractWords(String text, int size)

* @param reader 从reader获取文本

* @param size 需要提取词语的数量

public static List<WordInfo> extractWords(BufferedReader reader, int size) throws IOException

* 提取词语（新词发现）

* @param text 大文本

* @param size 需要提取词语的数量

* @param newWordsOnly 是否只提取词典中没有的词语

public static List<WordInfo> extractWords(String text, int size, boolean newWordsOnly)

* @param reader 从reader获取文本

public static List<WordInfo> extractWords(BufferedReader reader, int size, boolean newWordsOnly) throws IOException

调用示例请参考com.hankcs.demo.DemoNewWordDiscover。值得注意的是，在计算资源允许的情况下，文本越长，结果质量越高。对于一些零散的文章，应当合并为整个大文件传入该算法。

#%E9%AB%98%E7%BA%A7%E5%8F%82%E6%95%B0 高级参数

根据语料的长度或用词的不同，默认的参数有可能不能得到最佳的结果。我们可以通过构造不同的NewWordDiscover调整提取算法。该构造函数如下：

/**

* 构造一个新词识别工具

* @param max_word_len 词语最长长度

* @param min_freq 词语最低频率

* @param min_entropy 词语最低熵

* @param min_aggregation 词语最低互信息

* @param filter 是否过滤掉HanLP中的词库中已存在的词语

public NewWordDiscover(int max_word_len, float min_freq, float min_entropy, float min_aggregation, boolean filter)

其中

：

· max_word_len控制识别结果中最长的词语长度，默认值是4；该值越大，运算量越大，结果中出现短语的数量也会越多。

· min_freq控制结果中词语的最低频率，低于该频率的将会被过滤掉，减少一些运算量。由于结果是按照频率排序的，所以该参数其实意义不大。

· min_entropy控制结果中词语的最低信息熵的值，一般取0.5左右。该值越大，越短的词语就越容易被提取出来。

· min_aggregation控制结果中词语的最低互信息值，一般取50到200.该值越大，越长的词语就越容易被提取出来，有时候会出现一些短语。

· filter设为true的时候将使用内部词库过滤掉“旧词”。

Pyhanlp自然语言处理中的新词识别

继续阅读

查找算法之二分查找查找算法之二分查找

查找算法学习之二分查找（Python版本）——BinarySearch

CQ V1.0分词bates(基于双数组tire树)—应该是目前最快的中文分词算法

Command Network(POJ 3164)---定根最小树形图模板题题目描述输入格式输出格式输入样例输出样例分析源程序

开源低带宽语音编解码器

241 Different Ways to Add Parentheses（C代码版）

【趋高机器视觉】机器视觉技术原理解析及解决方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

极大似然法(ML)与最大期望法(EM)

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

C++ 第十五周报告1--《冒泡法排序》

笔试面试题目：滑动窗口(二)

数据结构与算法（27）——排序（二）

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

hdu7108哈希