天天看點

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

neural style

star:12122

github 位址:https://github.com/jcjohnson/neural-style

這個項目是用 torch 對 leon a. gatys, alexander s. ecker, 和 matthias bethge 等人的論文“a neural algorithm of artistic style”的一個實作。論文中提出一種算法,用卷積神經網絡将一幅圖像的内容與另一幅圖像的風格進行組合。下面是一個将梵高《星夜》的藝術風格轉移到斯坦福大學校園夜景的照片中的效果:

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

将不同的藝術風格應用到同樣一幅圖像中會得出有趣的效果。論文中提供了各種風格的德國賓根大學圖像:

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

show and tell: 神經圖說生成器

star:10563

github 位址:https://github.com/tensorflow/models/tree/master/im2txt

這是 oriol vinyals et. al.(2016)的論文“show and tell: lessons learned from the 2015 mscoco image captioning challenge”的用tensorflow實作的 image-to-text 圖檔說明生成模型。

show and tell 模型是一個學習如何描述圖檔的深度神經網絡。生成的圖檔說明是一個完整的句子,下面是一些例子:

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

rocalphago

star:7734

github 位址:https://github.com/rochester-nrt/rocalphago

這個項目是有學生主導的一個獨立項目,使用 python 和 keras 重新實作了 deepmind 在2016年發表的論文 "mastering the game of go with deep neural networks and tree search"(《用深度神經網絡和樹搜尋學習圍棋》)。使用 python 和 keras 的這個選擇優先考慮了代碼清晰度,至少在早期階段是如此。

這個項目目前仍在進行中,還不是 alphago 的完全實作。項目先期關注 deepmind alphago 中神經網絡的訓練方面,而且已經得到論文中的樹搜尋算法(tree search algorithm)的一個簡單單線程的實作,雖然速度上無法與 deepmind 相比。

neural doodle

star:7306

github 位址:https://github.com/alexjc/neural-doodle

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

使用深度神經網絡把你的二流塗鴉變成藝術一般的作品!這個項目是 champandard(2016)的論文 “semantic style transfer and turning two-bit doodles into fine artworks”的一個實作,基于 chuan li 和 michael wand(2016)在論文“combining markov random fields and convolutional neural networks for image synthesis”中提出的 neural patches 算法。這篇文章中深入解釋了這個項目的動機和靈感來源:https://nucl.ai/blog/neural-doodles/

doodle.py 腳本通過使用1個,2個,3個或4個圖像作為輸入來生成新的圖像,輸入的圖像數量取決于你希望生成怎樣的圖像:原始風格及它的注釋(annotation),以及帶有注釋(即你的塗鴉)的目标内容圖像(可選)。該算法從帶風格圖像中提取 annotated patches,然後根據它們比對的緊密程度用這些 annotated patches 漸進地改變目标圖像的風格。

open face

star:6072

github 位址:https://github.com/cmusatyalab/openface

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

openface 是一個使用深度神經網絡,用 python 和 torch 實作人臉識别的項目。神經網絡模型基于 google florian schroff 等人的 cvpr 2015 論文“facenet: a unified embedding for face recognition and clustering” ,torch 讓網絡可以在 cpu 或 cuda 上運作。

這是cmu的一個使用深度神經網絡進行人臉識别的免費、開源項目。該項研究得到美國國家科學基金會(nsf)的支援,以及英特爾、谷歌、 vodafone、英偉達和 conklin kistler 的額外支援。這個 github 庫中包含 batch-represent、real-time web、compare.py、vis-outputs.lua、classifier.py 等的 demo 和測試、訓練、評估等的代碼。

srez

star:3951

github 位址:https://github.com/david-gpu/srez

srez(super-resolution through deep learning),即通過深度學習實作圖像超分辨率。這個項目是利用深度學習将 16x16 的圖像分辨率增加 4 倍,基于用來訓練神經網絡的資料集,所得到的圖像具有鮮明的特征。

下圖是這個網絡所能做到的一個随機、沒有特意挑選的示例。從左到右,第一列是 16x16 的輸入圖像,第二列是利用标準的雙三次插值算法(bicubic interpolation)所能得到的結果,第三列是我們的神經網絡的結果,然後最右列是原本的真實圖像。

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

如你所見,神經網絡能夠産生與原始的人臉非常相似的圖像。由于用于訓練的資料集主要由面朝正前方而且光線良好的人臉圖像組成,是以當臉的朝向不是正前方、光線不足或臉被眼鏡或手遮住了部分時,輸出的效果會比較差。

open_nsfw

star:3076

github 位址:https://github.com/yahoo/open_nsfw

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

這是雅虎建構的用于檢測圖檔是否包含不适宜工作場所(nsfw)内容的深度神經網絡項目,github 庫中包含了網絡的 caffe 模型的代碼。檢測具有攻擊性或成人内容的圖像是研究人員進行了幾十年的一個難題。随着計算機視覺技術和深度學習的發展,算法已經成熟,雅虎的這個模型能以更高的精度分辨色情圖像。

由于 nsfw 界定其實是很主觀的,有的人反感的東西可能其他人并不覺得如何。雅虎的這個深度神經網絡隻關注nsfw内容的一種類型,即色情圖檔,是以該模型不适用于檢測素描、文字、動畫、暴力圖檔等内容。

neuraltalk2

star:3010

github 位址:https://github.com/karpathy/neuraltalk2

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

循環神經網絡(rnn)可以用于給圖像取标題。neuraltalk2 比原始版本的 neuraltalk 更快而且性能更好。與原來的 neuraltalk 相比,neuraltalk2 的實作是批量的,可以使用 torch 在 gpu上運作,并且支援 cnn 微調。這些都使得語言模型(~100x)的訓練速度大大加快,但由于我們還有一個 vggnet,是以總體上的提升沒有很多。但是這仍然是個好模型,可以在 2~3 天裡訓練好,而且表現出的性能非常好。

google brain 2016年9月22日釋出了 vinyals et al.(2015)的圖說模型(前文介紹的show and tell 模型)。它的核心模型與 neuraltalk2(一個cnn後面跟着rnn)非常相似,但由于 google 有更好的cnn,加上一些小技巧和更細緻的工程,google 釋出的模型應該比 neuraltalk2 的效果更好。這個項目裡用 torch 實作的代碼将作為教育目的保留。

colornet

star:2956

github 位址:https://github.com/pavelgonchar/colornet

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

colornet 是一個給灰階圖像自動上色的神經網絡。效果如上圖所示。

image-analogies

star:2769

github 位址:https://github.com/awentzonline/image-analogies

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

“神經圖像類比”(neural image analogies)這個項目基本上是 a. hertzmann et. al(2001)的論文“image analogies”的一個實作。在這個項目中,我們使用了 vgg16 的特征,利用 chuan li, michael wand (2016) 的論文“combining markov random fields and convolutional neural networks for image synthesis”中描述的方法進行patch的比對和混合。初始代碼改編自 keras 的“神經風格遷移”示例。

deeplearningflappybird

star:2143

github 位址:https://github.com/yenchenlin/deeplearningflappybird

這個項目使用深度q網絡(deep q-network,dqn)學習玩 flappy bird 遊戲。

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

這個項目靈感來自使用深度增強學習玩 atari 遊戲(mnih, volodymyr, et al. "playing atari with deep reinforcement learning."  2013),論文中提出深度q學習算法(deep q learning algorithm),我們發現這個算法可以推廣到 flappy bird 遊戲上。

dqn 是一個卷積神經網絡,用 q-learning 的變體進行訓練,其輸入是原始像素,輸出是一個預估未來的獎勵的價值函數。由于dqn的訓練的每個時間步驟都需要觀察螢幕中的原始像素值,kevin chen 發現删除原始遊戲中的背景可以讓收斂更快。這個過程如下圖所示:

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

neural-storyteller

star:1753

github 位址:https://github.com/ryankiros/neural-storyteller

neural-storyteller 是一個能夠根據圖像内容生成一個小故事的循環神經網絡。這個 github 庫裡包含了使用任意圖像生成故事的代碼,以及用于訓練新模型的說明。整個方法包含以下4個部分:

skip-thought vectors

image-sentence embeddings

條件神經語言模型

風格轉換

例如,對下面這張圖像,模型生成的故事如下:

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

we were barely able to catch the breeze at the beach, and it felt as if someone stepped out of my mind. she was in love with him for the first time in months, so she had no intention of escaping. the sun had risen from the ocean, making her feel more alive than normal. she's beautiful, but the truth is that i don't know what to do. the sun was just starting to fade away, leaving people scattered around the atlantic ocean. i'd seen the men in his life, who guided me at the beach once more.

miles deep - ai porn video editor

star:1715

github 位址:https://github.com/ryanjay0/miles-deep

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

這是一個在 caffe 上實作的深度學習色情視訊分類器/編輯器。使用有殘差連接配接的卷積神經網絡,miles deep 能根據性行為的類别将色情視訊按沒秒的場景快速分為六個類别,準确率達到 95%。然後,它能夠利用該分類自動編輯視訊,可以删除所有不包含性接觸的場景,或者編輯出一個特定的行為。

與雅虎的使用相似架構的 nsfw 模型不同,miles deep 能區分裸體和其他顯性的性行為之間的差別。這是第一個也是唯一一個也是唯一一個公開釋出的色情内容分類及編輯工具。

deep jazz

star:1381

github 位址:https://github.com/jisungk/deepjazz

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

這是一個使用 keras 和 theano 生成爵士樂的深度學習項目。作者 ji-sung kim 在參加黑客馬拉松(hackathon)的36個小時内建成這個模型,它使用兩個深度學習庫 keras 和 theano 生成爵士音樂。具體來說,它建構兩層的 lstm,從跟定的 midi 檔案中學習,利用深度學習技術生成音樂。

deep jazz 生成的 jazz 可以在這個網站上欣賞:https://soundcloud.com/deepjazz-ai

speech-to-text-wavenet

star:1252

github 位址:https://github.com/buriburisuri/speech-to-text-wavenet

這是一個基于 deepmind 的 wavenet 和 tensorflow 的端到端句子級語音識别項目。這是deepmind 的論文“wavenet: a generative model for raw audio”的一個實作。雖然已經有研究者用 tensorflow 實作了 wavenet,但他們沒有實作語音識别。deepmind 最近的一些論文很難複制。這篇論文中省略了有關實作的具體細節,是以這個 github 庫中提供了作者的方式來補充缺失的細節。

最終的架構如下:

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

deepmind-atari-deep-q-learner

star:1193

github 位址:https://github.com/kuz/deepmind-atari-deep-q-learner

這個項目包含 dqn 3.0 的源代碼,dqn 3.0 是一個基于 lua 的深度增強學習架構,該架構對再現 deepmind 2015年的 nature 論文“human-level control through deep reinforcement learning”是必要的。為了複制 deepmind 的實驗結果,需要安裝以下内容:

luajit 和 torch 7.0

nngraph

xitari 

alewrap 

這個 github 庫包含 nature 論文上的原始代碼以及作者的實驗代碼。使用 nvidia gtx 970 在ubuntu 14.04上的測試結果如下:

【榜單】GitHub 最受歡迎深度學習應用項目 Top 16(持續更新)

繼續閱讀