目录
文章目录
- 目录
- 前言
- 汉语语料库的多级加工(1)
- 汉语语料库的多级加工(2)
- 汉语语料库的多级加工(3)
- 汉语语料库的多级加工(4)
- 汉语语料库的多级加工(5)
- 汉语语料库的多级加工(6)
- 汉语语料库的多级加工(7)
前言
硕士生涯结束,开始专心做一件自己觉得有用的工具,先做工程,后搞理论。
自然语言处理是一个非常难的问题,同时是人工智能皇冠上的明珠。
接下来会记录一系列自然语言处理的笔记,来自于哈工大老师关毅。
汉语语料库的多级加工(1)
两条路线:基于规则的和基于模型的。
路 线 { 基 于 规 则 的 if 基 于 模 型 的 if 路线\begin{cases} 基于规则的&\text{if } \\ 基于模型的 &\text{if } \end{cases} 路线{基于规则的基于模型的if if
语料库语言学
经常使用概率统计及信息论中的方法。
语料库规模对效果影响很大。
语料分布,语音识别,情况处理。
句法分析和语料分析各项处理。
句法分析加工停止
语料多级加工停止。
预料多级加工实例,语法树。规范语料库加工。
切分词性标准,人民日报语料库,未登录词和命名实体。
汉语语料库的多级加工(2)
中文人名的识别方法,人名用字比较集中。定义和使用型识别。
人名姓氏中文资料,人名识别,词性修剪。传统的规则方法。
中文的黄可以做名词可以做形容词。
有效的方法是两种东西的结合:
以坚实的理论基础做架构从而实现的极大熵模型。
英语译名手册,考察上下文信息。
统计机器翻译,地名识别,得资源者得一切。中文信息的翻译。
汉语语料库的多级加工(3)
采用一种统计分类模型进行统计处理。定位词+中心词。
识别命名实体,辅助规则,坚实的理论模型,统计规则,最大熵模型。
特征模板,系数规则生成器。
系统在满足约束的情况下,熵趋向于最大,任何原理都有适用范围。
平常要多做应用,调参数调多了自然就有感觉了。
统计分类模型,目前的效果超好。
推荐一篇论文,A maximum entropy approach to natural language processing。
下载源代码后,做一个软件包,进行实时的处理,好好写东西。
汉语语料库的多级加工(4)
汉语的兼类词,动名词,名形容词,动名兼类,37%。
基于规则的词性标注,词性多重修改。词性相同类举,基于隐markov模型,效果超好。
选择训练集,构建训练样本。训练集异常重要,garbage in,就会garbage out。
关键数据,结果训练,机器学习,标记不同值。
未经标注的文本-》 初始标准器-》已经标注的样本-》学习器-《纠错规则,黄金标注文本。《-转换规则。
转发规则,原tag+环境-》目标tag。
汉语语料库的多级加工(5)
词性标注的模板。规则的颗粒度不同。转移数量-》标注精度。选择这样的工作。TBL,效果良好,精度有限,好的标注器。基于决策树的方法,效果良好。
句法分析的总体结构如上图所示
句法词性处理结构转换。自动短语定界和句法标注实例语义难,
涉及到一个核心问题,意义的意义是什么?
汉语语料库的多级加工(6)
语义与语法的关系,语法是形式,语义是内容。自动语义标注。
语法标注和语义标注。
听到词汇后分词,再进行处理,词与词的关系。
概念在头脑中正确联系,汉语语言判定容易。以单位词的词义,定义多义词的词义比较方便。
莱斯克以单位词源定义多义词源。
词义分析很难,利用上下文的搭配关系,确定该词的关系。
深层语言结构,效果超好。
词汇间的语义关系是词汇的灵魂,整体关系和上下级关系。
汉语语料库的多级加工(7)
语义标注实例,semantic tree。语义树。
任何一个实体所有的属性比如他在书店看书,AGT(word_no=0,他,r,rrl)
他就完全被定义了。
众多学者号召做出千万级的语料库,计算语言学的基础理论。
十万句句法休整。语义知识库,英语。
framenet,语言架构,自动切词标注了系统。
语料库多级加工系统,人的精力得到解放。