一. NLTK中的词典资源
词典或词典资源是一个词或短语及其相关信息的集合。
1. 词汇列表语料库
词汇语料库是UNIX中的/usr/dict/words文件,被一些拼写检查程序所使用。可用来寻找文本语料中不常见的或拼写错误的词汇。
(1). 过滤文本
2. 停用语料词库
停用语料词库包括的是高频词汇,如the,to,和and,有时在进一步进行处理之前需要将它们从文档中过滤。停用词通常没有什么词汇内容,但它们的出现会使区分文本变得困难。
(1)NLTK中的停用语料词库
(2)过滤停用词
例:定义一个函数来计算文本中不包含在停用列表中的词所占的比例。
3. 名字语料库
名字语料库包含8000个按性别分类的名字。男性和女性的名字存储在单独的文件中。
(1)找到同时出现在两个文件中的名字即分辨不出性别的名字。
(2)研究男性与女性名字结尾的字母
4.表格词典
表格词典:在每一行含有一个词及其一些性质
(1)CMU发音词典
CMU发音词典为语音合成器而设计。
对任意一个词,词典资源都有语音的代码,不同的声音有不同的标签(音素)
(2)比较词典
斯瓦蒂士核心词列表:包含几种语言的约200个常用词的列表,语言标识符使用ISO639双字母码。
通过使用entries()方法来指定一个语言链表来访问多语言中的同源词,而且还可以把它转换成一个简单的词典。
swadesh.fileids()获得的是语言的类别。
swadesh.words('en')获得的是英语语言下的词列表。
可以使用该词表实现一个小小的翻译器(法语,德语,西班牙语翻译成英文)