Python自然语言处理笔记(七)------词典资源

2023-06-27 03:39:42

一. NLTK中的词典资源

词典或词典资源是一个词或短语及其相关信息的集合。

1. 词汇列表语料库

词汇语料库是UNIX中的/usr/dict/words文件，被一些拼写检查程序所使用。可用来寻找文本语料中不常见的或拼写错误的词汇。

(1). 过滤文本

Python自然语言处理笔记(七)------词典资源

2. 停用语料词库

停用语料词库包括的是高频词汇，如the,to,和and,有时在进一步进行处理之前需要将它们从文档中过滤。停用词通常没有什么词汇内容，但它们的出现会使区分文本变得困难。

（1）NLTK中的停用语料词库

Python自然语言处理笔记(七)------词典资源

（2）过滤停用词

例：定义一个函数来计算文本中不包含在停用列表中的词所占的比例。

Python自然语言处理笔记(七)------词典资源

3. 名字语料库

名字语料库包含8000个按性别分类的名字。男性和女性的名字存储在单独的文件中。

（1）找到同时出现在两个文件中的名字即分辨不出性别的名字。

Python自然语言处理笔记(七)------词典资源

（2）研究男性与女性名字结尾的字母

Python自然语言处理笔记(七)------词典资源

4.表格词典

表格词典：在每一行含有一个词及其一些性质

（1）CMU发音词典

CMU发音词典为语音合成器而设计。

Python自然语言处理笔记(七)------词典资源

对任意一个词，词典资源都有语音的代码，不同的声音有不同的标签（音素）

（2）比较词典

斯瓦蒂士核心词列表：包含几种语言的约200个常用词的列表，语言标识符使用ISO639双字母码。

通过使用entries()方法来指定一个语言链表来访问多语言中的同源词，而且还可以把它转换成一个简单的词典。

Python自然语言处理笔记(七)------词典资源

swadesh.fileids()获得的是语言的类别。

swadesh.words('en')获得的是英语语言下的词列表。

可以使用该词表实现一个小小的翻译器（法语，德语，西班牙语翻译成英文）

Python自然语言处理笔记(七)------词典资源

继续阅读