- Colab 示範位址: https://colab.research.google.com/github/imcaspar/gpt2-ml/blob/master/pretrained_model_demo.ipynb
既然昨天才過完雙十一,那麼我們先看看這個預訓練模型能生成什麼樣的故事。如下是我們給定前提「雙十一」,中文 GPT-2 生成的第一個樣本:
Sample, 1 of 10雙十一,不隻是剁手的節日,更是買買買的狂歡節!10 月 13 日,中國小象開啟的全新一年的跨境爆款系列商品雙十一的正式來襲,圍繞電商雙十一的購實體念及戰略重點,阿裡巴巴、天貓聯合打造的潮流趨勢支付,正式登陸雙十一狂歡夜。潮流界、時尚界盛事的參與者,統統化身成為電商促銷的傳播者和上司者,時尚界的人們以身作則,走在時尚前線,年輕時尚女性,正用最新的鮮美,向消費者傳遞快樂與創意。不止雙十一,很多行業的大事件會在這個季節火熱登場,不隻是女性使用者,還有男性使用者。那麼,在這些品牌高調露面的時刻,我們又該如何大玩不同的新玩法?如何抓住雙十一的流量紅利和品牌曝光點?
首先,形式是核心。網購、預售、快遞都是消費者在雙十一這個大戰場上所接觸最多的環節,而品牌商們喜歡的是大玩點創新、玩點新意。其次,先有使用者的需求,才能夠靠作品的特色獲得市場的重視。小象電商的使用者就是普通人,是以他們的需求就是需要一個包包,一條圍巾,要麼想各種創意。
于是,除了顔值,就是線下,大玩奇思妙想!不限于明星、時尚青年的價值需求,一個玩法就是無限加價,為了讓所有使用者都有收獲。潮流的故事往往是颠覆性的,為了引起使用者的興趣,新玩法的推出,要給使用者充滿驚喜的體驗,提供最奇妙的玩法。就算是普通人購物體驗也會選擇最少的購物過程,這就是品牌持續+創新的理念。來源:綜合自阿裡巴巴官方微網誌、阿裡媽媽官方微網誌、中國經濟網的特點。對阿裡和時尚感興趣的朋友,可以關注微信号:hzcyhg
這個生成樣本說得頭頭是道,很難看出來它完全是由模型生成的,甚至樣本給出了一個微信号,我們查了後估計該微信号與文本是沒什麼關系的。
既然樣本效果這麼好,它肯定需要很多中文語料。項目表明,該 15 億參數量的 GPT-2 中文預訓練模型在 15GB 的純文字上進行訓練,一共疊代了 10 萬步。這 15GB 的純文字主要選自 THUCNews 與 nlp_chinese_corpus,它們會做一系列的資料清理。
- THUCNews: http://thuctc.thunlp.org/# 中文文本分類資料集THUCNews
- nlp_chinese_corpus: https://github.com/brightmart/nlp_chinese_corpus
此外,項目作者還簡化整理了 GPT-2 訓練代碼,移植了 Bert Tokenizer 以添加多語言支援。因為移植了 Bert Tokenizer,是以模型輸出結果很容易與基于 BERT 的模型進行整合。
項目作者開放的預訓練模型是在 TPU Pod v3-256 上複現的 15 億參數 GPT2,這也是 GitHub 上第一個支援大規模 TPU 訓練的中文 GPT-2 項目。
極簡易用的 Colab 示範
非常吸引人的是,該項目提供了一個非常容易使用的 Colab 項目,隻需簡單地單擊三次,我們就能使用 Colab 體驗 GPT-2 續寫整段文本的能力。示範位址在文章前面已經提供了,這裡主要展示機器之心嘗試的效果。
下圖是我們嘗試使用的結果,簡單而言分可以為三步:首先從 GitHub 下載下傳源代碼;其次從 Google Drive 下載下傳預訓練模型,這裡需要獲得授權,也非常簡單;最後,調用 Colab 的硬體進行推斷就行了。
我們可以看到,中文 GPT-2 大部分生成結果,上下文還是非常合理的。如果你也想試一試效果,那就快來試一試吧,沒有任何 ML 基礎也能看到模型的真實效果。