天天看點

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

作者:華仔

導語

在技術圈内掀起了一陣風暴,大家都在讨論着GPT-3橫空出世,它的訓練模型幾乎是史上最大的,憑借着這個龐大的模型,能做到人機對話隻是小case,引起了一大批人的關注。

但是據有關方面介紹,ChatGPT也是一個非常好的預訓練模型,對于人機對話,使用者的回答都是相當一緻的。

而ChatGPT在訓練的過程中,隻需要僅僅訓練一次就能夠将機器的語言模型訓練成功,并且這一次的訓練也是相當的驚訝。

ChatGPT橫空出世。

作為GPT-3之後又一款劃時代的預訓練模型産品,ChatGPT是由OpenAI公司開發的,并且該公司正在不斷的緻力于開發出一種通用人工智能。

在2019年上半年,該公司又先後表現了GPT、GPT-2等這些表現優異的訓練模型,并且在當下的大環境氛圍之下,這一款又名為ChatGPT的預訓練模型引起了大陸科研力量的全方位關注。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

ChatGPT是由OpenAI公司正式釋出的通用預訓練模型,而這個預訓練模型又使用了GPT-3,GPT-2以及GPT三個模型的融合,是以ChatGPT不僅可以進行通用語言模型的訓練,還能夠針對人機對話這一塊進行大幅度的優化。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

此外,ChatGPT的訓練模型也非常的大,它總共有1750億個參數,而在進行GPT模型的訓練之前都需要用到大量的訓練資料,而僅僅這個ChatGPT預訓練模型的參數就需要用到570GB的文本資料進行訓練。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

同時ChatGPT的預訓練資料也非常的豐富,大概有45T的文本資料,這些文本資料就相當于你在抖音上每天看13.5萬年視訊,這是多麼可怕的數字啊,但卻這個預訓練資料僅僅是ChatGPT的預訓練資料。

而通過這麼大氣候的預訓練模型的訓練資料,加上逐漸提升的訓練方式,ChatGPT就可以有很強的泛化能力。

ChatGPT最大的語言模型預訓練模型的分類數也是1750億個參數,這個規模相當于GPT-3的規模的3倍,是以ChatGPT也被稱為GPT-3.5。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

ChatGPT的推理能力非常強大,這種推理能力就強過我們人類的能力,因為它的能力更多是從資料中學習出來的,并且它還能夠進行十幾步的推理。

但是GPT-3的參數有1750億個,這樣做出來的預訓練模型肯定是非常龐大的,是以ChatGPT的語言模型的參數有多少呢,算上所有可以訓練的參數,ChatGPT的語言模型的參數是229億。

ChatGPT訓練多瘋狂。

對于一名優秀的專業人士來說,僅僅最低要求的計算能力就能訓練出非常多的模型了,而且随着預訓練方法的不斷改進,僅僅隻需要耗費數天的時間就能将ChatGPT的語言模型訓練成功。

事實上ChatGPT的訓練時間是12天,這個訓練時間确實是非常短的時間,尤其是訓練資源,無論是人員還是物質,都是非常重要的。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

而ChatGPT的訓練時間是12天,這個訓練時間僅僅相當于1.2萬個人的一年時間,但是在訓練過程中,相當于有1114個TPU的計算資源是一直在計算着。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

ChatGPT在訓練的過程中,最高的時候一下子就用掉了12個小時的時間,而這些時間都是耗在訓練的連結上的,或者是訓練的優化過程的資料上。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

雖然ChatGPT隻需要訓練一次,但是所需要的訓練資源和量是非常大的,而這些資料量等等都是一直在進行優化的,是以在進行訓練的時候占用的資源就會變得非常龐大。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

ChatGPT在訓練的過程中,使用的節點數是8萬個,大概在20天左右的時間内,這些節點的資料就會變得非常大,而使用的TPU核心數就大概有3400萬個。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

ChatGPT在進行訓練的過程中會生成1500TB的資料,這些資料進行了壓縮,也就相當于生成了280TB的重複資料,是不是覺得ChatGPT在訓練的過程中會生成了很多的資料。

然而這些資料是根據聊天記錄中的資料進行序列化處理生成的,而且在訓練的時候,多出來的大量資料都是無效資料,是以這些資料根本沒有用處。

盡管在訓練的過程中,會産生大量的無效資料,但是卻需要耗費很大的資源,例如:在訓練的過程中,會産生很多無用的模型,盡管無用但是在預測的過程中,也會使用到模型。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

但是ChatGPT在訓練的過程中,已經在做出更多的優化,盡管這些優化不是很大,但是在挑選模型的時候,卻已經很麻煩了,但是這些模型由于是無用的是以在預測的時候也是沒有用的。

盡管無用,但是在我們後面還是會跳過這些模型,是以這也是在訓練的時候比較浪費的一個點,而在訓練的過程中還會産生許多垃圾模型,但是這些模型要怎樣才能減少産生的垃圾。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

ChatGPT在訓練的過程中已經盡可能的減少産生垃圾,但是不管如何都是少不了的,而且對于這些“垃圾”模型的數量無法得知。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

ChatGPT訓練的穩定性。

對于一個預訓練模型來說,如果訓練的資料是非常大的,那麼這個模型的穩定性是非常高的,但是如果資料量沒有那麼大,而訓練的模型卻非常大的話,這種模型的穩定性就很強。

另一方面,對于ChatGPT預訓練過程中,使用資料的流程步驟進行了優化,讓模型訓練的更穩定,進而讓ChatGPT訓練的模型是最好的。

在訓練的過程中,我們需要有效地利用好時間,而相比之前的GPT-3模型的時間,相比之下少了10天的時間,可以看出,ChatGPT模型的穩定性在很大一定程度上是得到了保障的。

ChatGPT有多瘋狂?僅僅訓練一次,就相當于1.2萬個人的一年時間

因為在訓練的過程中,資料是不斷的變化的,是以這樣就需要不斷的對模型進行優化,這樣才能保證模型是最穩定的,然而模型的穩定性是非常關鍵的。

它決定了一個訓練模型最終是否能夠達到預期,如果穩定性出現了問題,那麼它的訓練過程中就會出現很多問題,就很難進行預測。

結語

ChatGPT在訓練過程中,由于資料量的優化,模型的優化等等綜合因素下,這樣訓練出來的模型更加穩定,是以我們在對ChatGPT進行訓練的時候需要注意這一塊。

繼續閱讀