spaCy是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-Strength Natural Language Processing in Python”,是具有工业级强度的Python NLP工具包。spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。
初体验
本人对SpaCy做了一下初体验,具体尝试了以下功能:
- 词性分析
- 命名实体识别
- 语法 — 依赖关系刻画
- 语义 — 词向量的近似度计算
- 词向量降维和可视化
特别在第四部分中,我们解决了一个直观而很有趣的问题:
? - woman = king - queen
? - England = Paris - London
对于我们人来说,答案轻而易举,第一个问号是 ‘man’,第二个是“France”,那么我们看看怎么用SpaCy包让电脑得出这个结果的。
我在Jupiter Notebook上做了演示,详细内容请移步这里。
体验:这个包囊括了在NLP中你能想到的绝大部分功能,而且速度超快,不愧是工业级工具包。