[python+nltk] 自然语言处理简单介绍和NLTK坏境配置及入门知识(一)

本文主要是总结最近学习的论文、书籍相关知识，主要是natural language pracessing(自然语言处理，简称nlp)和python挖掘维基百科infobox等内容的知识。

此篇文章主要参考书籍《natural language processing with python》python自然语言处理，希望对大家有所帮助。书籍下载地址：

所谓“自然语言”，是指人们日常交流使用的语言，如英语、印地语随着不断演化，很难用明确的规则来刻画。

从广义上，“自然语言处理”（natural language processing简称nlp）包含所有计算机对自然语言进行的操作，从最简单的通过计数词出现的频率来比较不同的写作风格到最复杂的完全“理解”人所说的话。

基于nlp的技术应用日益广泛，如手机和手持电脑支持输入法联想提示（predictive

text）和手写识别、网络搜索引擎能搜到非结构化文本中的信息、机器翻译能把中文文本翻译成西班牙文等。

通过使用python程序设计语言和自然语言工具包（nltk，natural language toolkit）的开源函数库，本书包括自然语言处理的实际经验。本书可以自学，也可以作为自然语言处理或计算机语言学课程的教科书，或是人工智能、文本挖掘、语料库语言学课程的补充读物。

本书为什么使用python呢？

python是一种简单功能强大的变成语言，非常适合处理语言数据。

作为解释语言，python便于交互式变成；作为面向对象语言，python允许数据和方法被方面的封装和重用。作为动态语言，python允许属性等程序运行时才被添加到对象，允许变量自动类型转换，提高开发效率。python自带强大的标准库，包括图像编程、数值处理和网络连接等组件。

[python+nltk] 自然语言处理简单介绍和NLTK坏境配置及入门知识(一)

章节介绍包括：如何使用很短的python程序分析感兴趣的文本信息（1-3章）、结构化程序设计章节（第4章）、语言处理的主要内容：标注、分类和信息提取（5-7章）、探索分析句子、识别句法结构和构建表示句意的方法（8-10章）、最后一章讲述如何有效管理语言数据（第11章）。

python对用户友好的一个方式是你可以在交互式解释器运行你的程序，通过一个简单的交互式开发坏境（interactive development environment，简称idle）的图形接口访问python解释器。后面配置nltk就是在idle环境下进行。

然后下载nltk，资料如下：

由于我的电脑是windows系统，安装的步骤如下图所示：

安装nltk3.0

测试nltk输入代码：

如下图所示：

点击”download“后安装需要一定时间，最后选项book变成”installed“：

同时如果无法下载，你可以对自己感兴趣的选择双击进行下载：

当数据下载到机器后，你可以使用python解释器加载其中一些，在python提示符后输入”from nltk.book import *”告诉解释器从nltk的book加载所有的文本，输入text1找到相应的文本名字。如下图所示：

此时你的nltk配置成功。

功能：搜索文本，在text1中输入函数concordance()，查找《白鲸记》中的词语monstrous。

提示：可以通过快捷键alt+p获取之前输入的命令，共搜索11个匹配结果。

功能：通过函数similar()可以查询括号中相关词在上下文中相似的词语。词语索引使我们看到此的上下文，如monstrous出现的上下文，如the_pictures和the_size。

可以发现与monstrous(丑陋的)相似的大部分都是形容词：curious（好奇的）、impalpable（无形的）、perilous（危险的）、lazy（懒惰的）等。

我的怀疑应该是和上下文语义结构有关，却没有“理解”它具体的词义。如：the monstrous pictures、more monstrous stories、a monstrous size。很显然monstrous充当修饰名词的形容词结构——冠词+monstrous+名词。

功能：函数common_contexts允许我们研究两个或两个以上的词共同的上下文，如monstrous和very。

必须用方括号和圆括号把这些词括起来，中间用逗号分隔。个人理解：似乎similar是与之相关的词语，而common_contexts是相似的结构。

功能：通过函数generate()产生一些随机文本自动生成文章。

注意：第一次运行此命令时，由于要搜集词序列的统计信息而执行得比较慢，每次运行它，输出的文本都会不同。虽然文本是随机的，但是它重用了源文本中的词和短语，从而使我们能够感觉到它的风格和内容。

报错：”attributeerror: 'text' object has noattribute 'generate'“其原因参照stackflow:

理想输出结果如下：

总结：最后希望这篇入门文章对大家有所帮助，如果有错误或不足之处，亲海涵！后面还会深入的讲解自然语言处理和python挖掘相关知识；同时包括nltk的更广泛应用及理解。建议大家购买正版书籍阅读，挺不错的书籍《python自然语言处理》作者：steven bird, ewan klein & edward loper。

[python+nltk] 自然语言处理简单介绍和NLTK坏境配置及入门知识(一)

继续阅读

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入