因为工作原因,我在接下来的日子里需要学会训练词向量,并且学会如何建立附带检索功能的大型语料库。目前,关于这两个任务我自己断断续续摸索了一个月,但个人感觉进步缓慢。并且缺乏一个体系性的认识,这恐怕就是碎片化学习的弊病吧。
所以,我决定通过用写博客的方式,把自己牙牙学语的过程记录下来。希望路过的CSDN的大牛们能在看到我的“胡言乱语”后,窃笑之余,还能不吝指出我的种种低级错误。在此先行礼了。
以下为No.1正文
----------------------------------------------------------------------------------------------------
NLP日记No.1:自然语言处理小白的我所要面临的挑战
1. 新的挑战
就在上个月,我做出了一个至少会影响我接下来1-2年工作主题的决定:在接下来日子里,尽快掌握基于DeepLearning的自然语言处理技术,并且尽可能做到某种程度上的“精通”。
这是一个十分疯狂的决定。我需要简要介绍一下我自己。
性别:男
年龄段:25-30
大学专业:外语系
职业:教育相关研究员
编程开发经历:零
如上所述,我最多算个IT票友,能做的最多就是看看CSDN上的各位大牛的帖子,喊喊666而已。我的本职工作是教学和研究工作,月收入在25-30K左右,工作收入和内容还算比较安逸。然而,我知道在这个每天都在飞速变化的时代,停下脚步等于慢性死亡。另外,我从2年前开始对于机器学习的动向比较感兴趣,做过一些十分初级的学习。出于上述原因,我选择了与我的日常工作研究内容最为相近NLP作为我迈出舒适区的新方向。
2. 今后的课题
在这里,我梳理一下接下来需要攻克的课题。
首先,我准备将其分为,初级和中级两个阶段。
NLP课题(初级)
1.收集语料
2.语料文本预处理
3.Word2Vec模型训练
4.Word2Vec模型质量评估
NLP课题(中级)
掌握机器学习常用算法:
5.层次聚类(Hierarchical clustering)
6.k-means
7.学习利用5与6的手法进行词向量处理
以上计划的开始执行时间是19年4月中旬,目前我的进度是3。
3.后续计划
目前,准备在近两日进行基于40亿字汉语语料的词向量训练。
对于我来说,这期间遇到的主要难点是:语料的清洗及前期处理
目前我所需的语料的清洗及前期处理是:
①TXT文件转码:GB → UFT-8(由于分词工具只认UFT-8)
②TXT文件去重 这个好办,用软件和代码都可以轻松去重
③整理TXT文件内格式: 整理为一句话一行。目前对于一句话的定义是,“。”或“?”或"!",与下一个“。”或“?”或"!"之间的内容为一句。
ps。但这样做有一个弊病,例如以下的句子
他愤怒的吼叫道:“都是你们害的!是你们让我成了......”,他一边哽咽着跪坐在地上。
就会被分成
他愤怒的吼叫道 都是你们害的
是你们让我成了 他一边哽咽着跪坐在地上
这样分,明显不是很合理,因为第二句话“是你们让我成了 他一边哽咽着跪坐在地上”与其说是一句,不如说是两句话。
之后的我会在博客中陆续更新我的学习进度,欢迎各位大牛拍砖指导,
也欢迎和我一样因为初级问题而苦恼的初学者们多多交流,能比我少走一些弯路。