自然语言处理(NLP)是数据科学中最有趣的子领域之一,越来越多的数据科学家希望能够开发出涉及非结构化文本数据的解决方案。尽管如此,许多应用数据科学家(均具有STEM和社会科学背景)依然缺乏NLP(自然语言处理)经验。
在这篇文章中,我将探讨一些基本的NLP概念,并展示如何使用日益流行的Python spaCy包来实现这些概念。这篇文章适合NLP初学者阅读,但前提是假设读者具备Python的知识。
你是在说spaCy吗?
spaCy是一个相对较新的包,“工业级的Python自然语言工具包”,由Matt Honnibal在Explosion AI.开发。它在设计时目标用户以应用数据科学家为主,这也意味着它不需要用户来决定使用哪个算法来处理常见任务,而且它非常地快—快得难以置信(它用Cython来实现)。如果你熟悉Python数据科学栈,spaCy就是NLP的numpy,它虽然理所当然地位于底层,但是却很直观,性能也相当地高。
那么,它能做什么呢?
spaCy为任何NLP项目中常用的任务提供一站式服务.包括:
符号化(Tokenizatioin)
词干提取(Lemmatization)
词性标注(Part-of-speech tagging)
实体识别(Entity recognition)
依存句法分析(Dependency parsing)
句子的识别(Sentence recognition)
字-向量变换(Word-to-vector transformation)
许多方便的清除文本和标准化文本的方法(cleaning and normalizing text)
我会对这些功能做一个高层次的概述,并说明如何利用spaCy访问它们。
那我们就开始吧。
首先,我们加载spaCy的管线,按照约定,它存储在一个名为nlp的变量中。需要花几秒钟时间声明该变量,因为spaCy预先将模型和数据加载到前端,以节省时间。实际上,这样做可以提前完成一些繁重的工作,使得nlp解析数据时开销不至于过大。 请注意,在这里,我们使用的语言模型是英语,同时也有一个功能齐全的德语模型,在多种语言中均可实现标记化(将在下面讨论)。
我们在示例文本中调用NLP来创建Doc对象。Doc 对象是文本本身NLP任务容器,将文本切分成文字(Span 对象)和元素(Token 对象),这些对象实际上不包含数据。值得注意的是Token 和 Span对象实际上没有数据。相反,它们包含Doc对象中的数据的指针,并且被惰性求值(即根据请求)。绝大多数spaCy的核心功能是通过对Doc (n=33), Span (n=29),和 Token (n=78)对象的方法来实现的。