前言

硕士生涯结束，开始专心做一件自己觉得有用的工具，先做工程，后搞理论。

自然语言处理是一个非常难的问题，同时是人工智能皇冠上的明珠。

接下来会记录一系列自然语言处理的笔记，来自于哈工大老师关毅。

汉语语料库的多级加工（1）

两条路线：基于规则的和基于模型的。

路线 { 基于规则的 if 基于模型的 if 路线\begin{cases} 基于规则的&\text{if } \\ 基于模型的 &\text{if } \end{cases} 路线{基于规则的基于模型的if if

语料库语言学

经常使用概率统计及信息论中的方法。

语料库规模对效果影响很大。

语料分布，语音识别，情况处理。

句法分析和语料分析各项处理。

句法分析加工停止

语料多级加工停止。

预料多级加工实例，语法树。规范语料库加工。

切分词性标准，人民日报语料库，未登录词和命名实体。

汉语语料库的多级加工（2）

中文人名的识别方法，人名用字比较集中。定义和使用型识别。

人名姓氏中文资料，人名识别，词性修剪。传统的规则方法。

中文的黄可以做名词可以做形容词。

有效的方法是两种东西的结合：

以坚实的理论基础做架构从而实现的极大熵模型。

英语译名手册，考察上下文信息。

统计机器翻译，地名识别，得资源者得一切。中文信息的翻译。

汉语语料库的多级加工（3）

采用一种统计分类模型进行统计处理。定位词+中心词。

识别命名实体，辅助规则，坚实的理论模型，统计规则，最大熵模型。

特征模板，系数规则生成器。

系统在满足约束的情况下，熵趋向于最大，任何原理都有适用范围。

平常要多做应用，调参数调多了自然就有感觉了。

统计分类模型，目前的效果超好。

推荐一篇论文，A maximum entropy approach to natural language processing。

下载源代码后，做一个软件包，进行实时的处理，好好写东西。

汉语语料库的多级加工（4）

汉语的兼类词，动名词，名形容词，动名兼类，37%。

基于规则的词性标注，词性多重修改。词性相同类举，基于隐markov模型，效果超好。

选择训练集，构建训练样本。训练集异常重要，garbage in，就会garbage out。

关键数据，结果训练，机器学习，标记不同值。

未经标注的文本-》初始标准器-》已经标注的样本-》学习器-《纠错规则，黄金标注文本。《-转换规则。

转发规则，原tag+环境-》目标tag。

自然语言处理笔记4-哈工大关毅目录前言汉语语料库的多级加工（1）汉语语料库的多级加工（2）汉语语料库的多级加工（3）汉语语料库的多级加工（4）汉语语料库的多级加工（5）汉语语料库的多级加工（6）汉语语料库的多级加工（7）

汉语语料库的多级加工（5）

词性标注的模板。规则的颗粒度不同。转移数量-》标注精度。选择这样的工作。TBL，效果良好，精度有限，好的标注器。基于决策树的方法，效果良好。

句法分析的总体结构如上图所示

句法词性处理结构转换。自动短语定界和句法标注实例语义难，

涉及到一个核心问题，意义的意义是什么？

汉语语料库的多级加工（6）

语义与语法的关系，语法是形式，语义是内容。自动语义标注。

语法标注和语义标注。

听到词汇后分词，再进行处理，词与词的关系。

概念在头脑中正确联系，汉语语言判定容易。以单位词的词义，定义多义词的词义比较方便。

莱斯克以单位词源定义多义词源。

词义分析很难，利用上下文的搭配关系，确定该词的关系。

深层语言结构，效果超好。

词汇间的语义关系是词汇的灵魂，整体关系和上下级关系。

汉语语料库的多级加工（7）

语义标注实例，semantic tree。语义树。

任何一个实体所有的属性比如他在书店看书，AGT（word_no=0,他，r，rrl）

他就完全被定义了。

众多学者号召做出千万级的语料库，计算语言学的基础理论。

十万句句法休整。语义知识库，英语。

framenet，语言架构，自动切词标注了系统。

语料库多级加工系统，人的精力得到解放。

目录

文章目录

前言

汉语语料库的多级加工（1）

汉语语料库的多级加工（2）

汉语语料库的多级加工（3）

汉语语料库的多级加工（4）

汉语语料库的多级加工（5）

汉语语料库的多级加工（6）

汉语语料库的多级加工（7）

继续阅读

简单文档分类——朴素贝叶斯算法朴素贝叶斯算法简单文档分类实例步骤总结朴素贝叶斯分类调用(sklearn)

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络