天天看点

自然语言处理笔记4-哈工大 关毅目录前言汉语语料库的多级加工(1)汉语语料库的多级加工(2)汉语语料库的多级加工(3)汉语语料库的多级加工(4)汉语语料库的多级加工(5)汉语语料库的多级加工(6)汉语语料库的多级加工(7)

目录

文章目录

  • 目录
  • 前言
  • 汉语语料库的多级加工(1)
  • 汉语语料库的多级加工(2)
  • 汉语语料库的多级加工(3)
  • 汉语语料库的多级加工(4)
  • 汉语语料库的多级加工(5)
  • 汉语语料库的多级加工(6)
  • 汉语语料库的多级加工(7)

前言

硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。

自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。

接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。

汉语语料库的多级加工(1)

两条路线:基于规则的和基于模型的。

路 线 { 基 于 规 则 的 if  基 于 模 型 的 if  路线\begin{cases} 基于规则的&\text{if } \\ 基于模型的 &\text{if } \end{cases} 路线{基于规则的基于模型的​if if ​

语料库语言学

经常使用概率统计及信息论中的方法。

语料库规模对效果影响很大。

语料分布,语音识别,情况处理。

句法分析和语料分析各项处理。

句法分析加工停止

语料多级加工停止。

预料多级加工实例,语法树。规范语料库加工。

切分词性标准,人民日报语料库,未登录词和命名实体。

汉语语料库的多级加工(2)

中文人名的识别方法,人名用字比较集中。定义和使用型识别。

人名姓氏中文资料,人名识别,词性修剪。传统的规则方法。

中文的黄可以做名词可以做形容词。

有效的方法是两种东西的结合:

以坚实的理论基础做架构从而实现的极大熵模型。

英语译名手册,考察上下文信息。

统计机器翻译,地名识别,得资源者得一切。中文信息的翻译。

汉语语料库的多级加工(3)

采用一种统计分类模型进行统计处理。定位词+中心词。

识别命名实体,辅助规则,坚实的理论模型,统计规则,最大熵模型。

特征模板,系数规则生成器。

系统在满足约束的情况下,熵趋向于最大,任何原理都有适用范围。

平常要多做应用,调参数调多了自然就有感觉了。

统计分类模型,目前的效果超好。

推荐一篇论文,A maximum entropy approach to natural language processing。

下载源代码后,做一个软件包,进行实时的处理,好好写东西。

汉语语料库的多级加工(4)

汉语的兼类词,动名词,名形容词,动名兼类,37%。

基于规则的词性标注,词性多重修改。词性相同类举,基于隐markov模型,效果超好。

选择训练集,构建训练样本。训练集异常重要,garbage in,就会garbage out。

关键数据,结果训练,机器学习,标记不同值。

未经标注的文本-》 初始标准器-》已经标注的样本-》学习器-《纠错规则,黄金标注文本。《-转换规则。

转发规则,原tag+环境-》目标tag。

自然语言处理笔记4-哈工大 关毅目录前言汉语语料库的多级加工(1)汉语语料库的多级加工(2)汉语语料库的多级加工(3)汉语语料库的多级加工(4)汉语语料库的多级加工(5)汉语语料库的多级加工(6)汉语语料库的多级加工(7)

汉语语料库的多级加工(5)

词性标注的模板。规则的颗粒度不同。转移数量-》标注精度。选择这样的工作。TBL,效果良好,精度有限,好的标注器。基于决策树的方法,效果良好。

句法分析的总体结构如上图所示

句法词性处理结构转换。自动短语定界和句法标注实例语义难,

涉及到一个核心问题,意义的意义是什么?

汉语语料库的多级加工(6)

语义与语法的关系,语法是形式,语义是内容。自动语义标注。

语法标注和语义标注。

听到词汇后分词,再进行处理,词与词的关系。

概念在头脑中正确联系,汉语语言判定容易。以单位词的词义,定义多义词的词义比较方便。

莱斯克以单位词源定义多义词源。

词义分析很难,利用上下文的搭配关系,确定该词的关系。

深层语言结构,效果超好。

自然语言处理笔记4-哈工大 关毅目录前言汉语语料库的多级加工(1)汉语语料库的多级加工(2)汉语语料库的多级加工(3)汉语语料库的多级加工(4)汉语语料库的多级加工(5)汉语语料库的多级加工(6)汉语语料库的多级加工(7)

词汇间的语义关系是词汇的灵魂,整体关系和上下级关系。

汉语语料库的多级加工(7)

语义标注实例,semantic tree。语义树。

任何一个实体所有的属性比如他在书店看书,AGT(word_no=0,他,r,rrl)

他就完全被定义了。

众多学者号召做出千万级的语料库,计算语言学的基础理论。

十万句句法休整。语义知识库,英语。

framenet,语言架构,自动切词标注了系统。

语料库多级加工系统,人的精力得到解放。

自然语言处理笔记4-哈工大 关毅目录前言汉语语料库的多级加工(1)汉语语料库的多级加工(2)汉语语料库的多级加工(3)汉语语料库的多级加工(4)汉语语料库的多级加工(5)汉语语料库的多级加工(6)汉语语料库的多级加工(7)

继续阅读