天天看点

Python自然语言处理笔记(七)------词典资源

一. NLTK中的词典资源

词典或词典资源是一个词或短语及其相关信息的集合。

1. 词汇列表语料库

词汇语料库是UNIX中的/usr/dict/words文件,被一些拼写检查程序所使用。可用来寻找文本语料中不常见的或拼写错误的词汇。

(1). 过滤文本

Python自然语言处理笔记(七)------词典资源

2. 停用语料词库

停用语料词库包括的是高频词汇,如the,to,和and,有时在进一步进行处理之前需要将它们从文档中过滤。停用词通常没有什么词汇内容,但它们的出现会使区分文本变得困难。

(1)NLTK中的停用语料词库

Python自然语言处理笔记(七)------词典资源

 (2)过滤停用词

例:定义一个函数来计算文本中不包含在停用列表中的词所占的比例。

Python自然语言处理笔记(七)------词典资源

 3. 名字语料库

名字语料库包含8000个按性别分类的名字。男性和女性的名字存储在单独的文件中。

(1)找到同时出现在两个文件中的名字即分辨不出性别的名字。

Python自然语言处理笔记(七)------词典资源

(2)研究男性与女性名字结尾的字母

Python自然语言处理笔记(七)------词典资源

4.表格词典

表格词典:在每一行含有一个词及其一些性质

(1)CMU发音词典

CMU发音词典为语音合成器而设计。

Python自然语言处理笔记(七)------词典资源

对任意一个词,词典资源都有语音的代码,不同的声音有不同的标签(音素) 

(2)比较词典

斯瓦蒂士核心词列表:包含几种语言的约200个常用词的列表,语言标识符使用ISO639双字母码。

通过使用entries()方法来指定一个语言链表来访问多语言中的同源词,而且还可以把它转换成一个简单的词典。

Python自然语言处理笔记(七)------词典资源

swadesh.fileids()获得的是语言的类别。

swadesh.words('en')获得的是英语语言下的词列表。

可以使用该词表实现一个小小的翻译器(法语,德语,西班牙语翻译成英文)

Python自然语言处理笔记(七)------词典资源
Python自然语言处理笔记(七)------词典资源