天天看点

如何使用Pytorch-huggingface-Bert预训练模型安装及环境准备导入Bert系列预训练模型google colab

安装及环境准备

首先创建一个用于本次任务的虚拟环境,然后可以开始安装需要的东西

tensorflow

pip install --upgrade tensorflow
           

验证安装效果:

python -c "import tensorflow as tf;print(tf.reduce_sum(tf.random.normal([1000, 1000])))"
           

pytorch

pip install torch torchvision
           

验证安装效果:

python -c "import torch;x = torch.rand(5, 3);print(x)"
           

transformers

pip install transformers
           

导入Bert系列预训练模型

  • 1、通过hugging face官网自动导入(此方法需要外网连接)

    这个方法需要从官方的s3数据库下载模型配置、参数等信息(代码中已配置好位置)。

model = BertModel.from_pretrained('bert-base-uncased')
           
目前主要有三个常见的中文bert语言模型
- bert-base-chinese
- roberta-wwm-ext
- ernie
           
  • 2、手动下载模型信息并导入

    在hugging face模型库https://huggingface.co/models里选择需要的预训练模型并下载。

    例如,点击bert-base-uncased以后点Files and versions进行手动下载。

    如何使用Pytorch-huggingface-Bert预训练模型安装及环境准备导入Bert系列预训练模型google colab
    但是通常这样下载的模型会是有损的,后续无法使用,因此最好是通过git下载,流程如下:
brew install git-lfs
git lfs install
git clone https://huggingface.co/bert-base-chinese
           
  • 3、通过下载好的路径导入模型:
import transformers
MODEL_PATH = r"D:\transformr_files\bert-base-uncased/"
# a.通过词典导入分词器
tokenizer = transformers.BertTokenizer.from_pretrained(r"D:\transformr_files\bert-base-uncased\bert-base-uncased-vocab.txt") 
# b. 导入配置文件
model_config = transformers.BertConfig.from_pretrained(MODEL_PATH)
# 修改配置
model_config.output_hidden_states = True
model_config.output_attentions = True
# 通过配置和路径导入模型
model = transformers.BertModel.from_pretrained(MODEL_PATH,config = model_config)
           

接下来就可以利用预训练模型进行后续的下游应用啦~

google colab

如果是你个人的NLP项目,你企图直接在本机进行模型训练和预测,其速度是不可想像的!可是大部分人又没有GPU,怎么办呢。谷歌可以拯救你!

Colaboratory 是谷歌旗下一个免费的 Jupyter 笔记本环境,不需要进行任何设置就可以使用,并且完全在云端运行,还可以免费使用GPU,是不是感觉特别棒~!

关于如何使用,这里附上一篇连接,这个博主写的非常好,按照这个步骤去做就OK了~colab使用教程

继续阅读