NLP日记No.1:自然语言处理小白的我所要面临的挑战NLP日记No.1:自然语言处理小白的我所要面临的挑战

2023-06-28 05:19:43

因为工作原因,我在接下来的日子里需要学会训练词向量，并且学会如何建立附带检索功能的大型语料库。目前，关于这两个任务我自己断断续续摸索了一个月，但个人感觉进步缓慢。并且缺乏一个体系性的认识，这恐怕就是碎片化学习的弊病吧。

所以，我决定通过用写博客的方式，把自己牙牙学语的过程记录下来。希望路过的CSDN的大牛们能在看到我的“胡言乱语”后，窃笑之余，还能不吝指出我的种种低级错误。在此先行礼了。

以下为No.1正文

----------------------------------------------------------------------------------------------------

NLP日记No.1:自然语言处理小白的我所要面临的挑战

1. 新的挑战

就在上个月，我做出了一个至少会影响我接下来1-2年工作主题的决定：在接下来日子里，尽快掌握基于DeepLearning的自然语言处理技术，并且尽可能做到某种程度上的“精通”。

这是一个十分疯狂的决定。我需要简要介绍一下我自己。

性别：男

年龄段：25-30

大学专业：外语系

职业：教育相关研究员

编程开发经历：零

如上所述，我最多算个IT票友，能做的最多就是看看CSDN上的各位大牛的帖子，喊喊666而已。我的本职工作是教学和研究工作，月收入在25-30K左右，工作收入和内容还算比较安逸。然而，我知道在这个每天都在飞速变化的时代，停下脚步等于慢性死亡。另外，我从2年前开始对于机器学习的动向比较感兴趣，做过一些十分初级的学习。出于上述原因，我选择了与我的日常工作研究内容最为相近NLP作为我迈出舒适区的新方向。

2. 今后的课题

在这里，我梳理一下接下来需要攻克的课题。

首先，我准备将其分为，初级和中级两个阶段。

NLP课题（初级）

NLP日记No.1:自然语言处理小白的我所要面临的挑战NLP日记No.1:自然语言处理小白的我所要面临的挑战

1.收集语料

2.语料文本预处理

3.Word2Vec模型训练

4.Word2Vec模型质量评估

NLP课题（中级）

掌握机器学习常用算法：

5.层次聚类（Hierarchical clustering）

6.k-means

7.学习利用5与6的手法进行词向量处理

以上计划的开始执行时间是19年4月中旬，目前我的进度是3。

3.后续计划

目前，准备在近两日进行基于40亿字汉语语料的词向量训练。

对于我来说，这期间遇到的主要难点是：语料的清洗及前期处理

目前我所需的语料的清洗及前期处理是：

①TXT文件转码：GB → UFT-8（由于分词工具只认UFT-8）

②TXT文件去重这个好办，用软件和代码都可以轻松去重

③整理TXT文件内格式：整理为一句话一行。目前对于一句话的定义是，“。”或“？”或"!"，与下一个“。”或“？”或"!"之间的内容为一句。

ps。但这样做有一个弊病，例如以下的句子

他愤怒的吼叫道：“都是你们害的！是你们让我成了......”，他一边哽咽着跪坐在地上。

就会被分成

他愤怒的吼叫道都是你们害的

是你们让我成了他一边哽咽着跪坐在地上

这样分，明显不是很合理，因为第二句话“是你们让我成了他一边哽咽着跪坐在地上”与其说是一句，不如说是两句话。

之后的我会在博客中陆续更新我的学习进度，欢迎各位大牛拍砖指导，

也欢迎和我一样因为初级问题而苦恼的初学者们多多交流，能比我少走一些弯路。

NLP日记No.1:自然语言处理小白的我所要面临的挑战NLP日记No.1:自然语言处理小白的我所要面临的挑战

NLP日记No.1:自然语言处理小白的我所要面临的挑战

1. 新的挑战

2. 今后的课题

3.后续计划

继续阅读

从词向量衡量标准到全局向量的词嵌入模型GloVe再到一词多义的解决方式衡量标准Evaluation引子全局向量的词嵌入应用对一词多义的思考Reference

NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）一、理论简述二、测评三、Glove实现&R&python四、相关应用

GloVe与word2vec的区别，及GloVe的缺陷

统计学习大作业-BERT模型1 文本处理-BERT模型2 参考资料：

更别致的词向量模型(一)：simpler glove

NLP【03】白话glove原理一、前言二、Glove基本思想

Glove公式推导

glove_python安装（避免编译错误）

python 分析qq聊天记录

[一起学BERT]（一）：BERT模型的原理基础Self-Attention机制理论Multi-head Self-Attention注意力机制位置编码Transformer理论BERT理论

ELMO BERT GPT

BERT、Elmo、GPT一、发展历史二、bert三、ERNIE四、GPT—transformer的decoder

anaconda中科大镜像

NLP从入门到放弃_IBM Model1IBM Model1

人工智能如何有效地运用于自然语言处理

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合