安装及环境准备
首先创建一个用于本次任务的虚拟环境,然后可以开始安装需要的东西
tensorflow
pip install --upgrade tensorflow
验证安装效果:
python -c "import tensorflow as tf;print(tf.reduce_sum(tf.random.normal([1000, 1000])))"
pytorch
pip install torch torchvision
验证安装效果:
python -c "import torch;x = torch.rand(5, 3);print(x)"
transformers
pip install transformers
导入Bert系列预训练模型
-
1、通过hugging face官网自动导入(此方法需要外网连接)
这个方法需要从官方的s3数据库下载模型配置、参数等信息(代码中已配置好位置)。
model = BertModel.from_pretrained('bert-base-uncased')
目前主要有三个常见的中文bert语言模型
- bert-base-chinese
- roberta-wwm-ext
- ernie
-
2、手动下载模型信息并导入
在hugging face模型库https://huggingface.co/models里选择需要的预训练模型并下载。
例如,点击bert-base-uncased以后点Files and versions进行手动下载。
但是通常这样下载的模型会是有损的,后续无法使用,因此最好是通过git下载,流程如下:
brew install git-lfs
git lfs install
git clone https://huggingface.co/bert-base-chinese
- 3、通过下载好的路径导入模型:
import transformers
MODEL_PATH = r"D:\transformr_files\bert-base-uncased/"
# a.通过词典导入分词器
tokenizer = transformers.BertTokenizer.from_pretrained(r"D:\transformr_files\bert-base-uncased\bert-base-uncased-vocab.txt")
# b. 导入配置文件
model_config = transformers.BertConfig.from_pretrained(MODEL_PATH)
# 修改配置
model_config.output_hidden_states = True
model_config.output_attentions = True
# 通过配置和路径导入模型
model = transformers.BertModel.from_pretrained(MODEL_PATH,config = model_config)
接下来就可以利用预训练模型进行后续的下游应用啦~
google colab
如果是你个人的NLP项目,你企图直接在本机进行模型训练和预测,其速度是不可想像的!可是大部分人又没有GPU,怎么办呢。谷歌可以拯救你!
Colaboratory 是谷歌旗下一个免费的 Jupyter 笔记本环境,不需要进行任何设置就可以使用,并且完全在云端运行,还可以免费使用GPU,是不是感觉特别棒~!
关于如何使用,这里附上一篇连接,这个博主写的非常好,按照这个步骤去做就OK了~colab使用教程