Bert模型學習筆記
From https://www.bilibili.com/video/BV1Ey4y1874y emmm 講實話這個視訊太簡單了,不建議看。
可以看看李沐的視訊:https://www.bilibili.com/video/BV1PL411M7eQ
這篇文章主要是四個部分:
- bert的整體架構
- 如何做預訓練 mlm + nsp
- 如何微調bert(沒看)
- 代碼解析(沒看)
Bert架構
- 基礎架構是Transformer
- bert-base
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiI0gTMx81dsQWZ4lmZf1GLlpXazVmcvwFciV2dsQXYtJ3bm9CX9s2RkBnVHFmb1clWvB3MaVnRtp1XlBXe0xCMy81dvRWYoNHLwEzX5xCMx8FesU2cfdGLwMzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsYTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5CMwczMxgzNmVzNmRTY1ADNzYzX3QjN1ADM4AzLcBTMyIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjLyM3Lc9CX6MHc0RHaiojIsJye.png)
- 6 個encoder在一起變成了編碼端
- 6個decoder在一起變成了解碼端
在Transformer中使用了位置編碼作為輸入,但是在bert中使用的是:
二、如何做預訓練任務
兩種目标函數: