天天看點

熱點項目|近期Github熱門項目Top5

熱點項目|近期Github熱門項目Top5

作者 | Walker

編輯 | 安可

出品 | 磐創AI技術團隊

【磐創AI導讀】:本文為大家總結了二月份最熱門的機器學習項目top5。想要擷取更多的機器學習、深度學習資源,歡迎大家點選上方藍字關注我們的公衆号:磐創AI。

此外,如果你想了解更多優秀的github項目,請關注我們公衆号的github系列文章。

推薦 | 7個你最應該知道的機器學習相關github項目

熱點 | 六月Github熱點項目庫總結

熱點 | 四月最佳Github項目庫與最有趣Reddit熱點讨論

No1: StyleGAN — OfficialTensorFlow Implementation

github位址:https://github.com/NVlabs/stylegan

上面的圖檔看起來像一幅典型的拼貼畫,但事實上,這個收藏裡的人都不是真的,這些人都是不存在的。所有這些人都是由稱為Stylegan的算法生成的。

自從幾年前發明了GAN算法,它的性能一直在穩步提升,但Stylegan的出将比賽提升了好幾個level。開發人員提出了兩種新的、自動化的方法來量化這些圖像的品質,并公開了大量高品質的人臉資料集。

該github庫同時也包含算法的官方TensorFlow實作。以下是了解有關Stylegan的一些關鍵資源:

Link Description
http://stylegan.xyz/paper Paper PDF.
http://stylegan.xyz/video Result video.
http://stylegan.xyz/code Source code.
http://stylegan.xyz/ffhq Flickr-Faces-HQ dataset.
http://stylegan.xyz/drive Google Drive folder.

No2:OpenAI’s Ground-Breaking Language Model – GPT-2

github位址:https://github.com/openai/gpt-2

下面來介紹一種來自于OpenAI的突破性語言模型GPT-2。2019年2月,GPT-2獲得了非官方的“最受歡迎的”自然語言處理圖書館獎。但他們啟動GPT-2的方式引起了不少關注,該團隊聲稱該模型工作得很好,但由于害怕惡意使用。他們不能完全開放源代碼。然而,他們還是在Github中釋出了一個模型的較小版本,通路上述連結即可看到。

GPT-2是一個具有15億參數的大型語言模型。該模型已經在800萬個網頁的資料集上進行了訓練,當給定文本中的前一個單詞時,模型的目标是預測下一個單詞。

此外,我們還可以通過一些其它資源了解GPT-2:

  • Blog Post(https://blog.openai.com/better-language-models/)
  • Official Paper

(https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf)

No3:SC-FEGAN

Github位址:https://github.com/JoYoungjoo/SC-FEGAN

另一個GAN?!沒錯–Gans正在以狂風暴雨之勢席卷資料科學世界。SC-FEGAN在風格上和我們上面讨論的Stylegan算法一樣有趣。

上圖完美地說明了SC-FEGAN的作用。SC-FEGAN用深度網絡編輯面部圖像,SC-FEGAN非常适合使用帶有草圖和顔色的直覺輸入,進而生成高品質的合成圖像。我們使用SN-patchGAN鑒别器和Unet-like 産生器和選通卷積層,當然你可以使用開發人員訓練過的深層神經網絡編輯各種面部圖像。

此外該存儲庫中還包含了幫助您在自己的計算機上建構SC-FEGAN模型的步驟。還等什麼?趕緊來試一下吧!

No4:LazyNLP for Creating Massive TextDatasets

github位址:https://github.com/chiphuyen/lazynlp

LazyNLP背後的原理其實很簡單——它能夠對網站進行爬取、清理和消除重複資料,進而建立大量的單語資料集。Lazynlp将允許您建立比OpenAI用于教育訓練GPT-2模型的資料集更大的資料集。使用這個庫,您應該能夠建立比OpenAI用于GPT-2的資料集大的資料集。

這個Github存儲庫還列出了建立自己的自定義NLP資料集需要遵循的5個步驟。如果您對這個項目感興趣,點選上方連結具體檢視詳細資訊。

No5:Subsync

github位址:https://github.com/smacke/subsync

該項目的實施始于2019年的哈克伊利諾斯州,獲得了榮譽獎(排名前5名),Subsync是關于“語言無關自動同步字幕到視訊,使字幕在視訊中對齊到正确的起點”。該算法是利用python中的傅立葉變換技術建立的。

此外,Subsync也可以在VLC媒體播放器中工作!該模型大約需要20-30秒的訓練時間(具體訓練時間要取決于視訊長度)。

最後我們給大家介紹一個資料集,Flickr-Faces-HQ Dataset (FFHQ)。(Github位址:https://github.com/NVlabs/ffhq-dataset)。

該資料非常适合學習和使用GAN進行試驗,适用于當我們想要搜尋高品質圖像資料的場景。該資料集由70000張超高品質圖像(1024 x 1024)組成,包含的人臉的次元有:如年齡、種族、形象背景等。