用AI還原道地京片子！作者大谷親自揭秘老北京視訊語音修複，網友：黃渤穿越了？

對曆史，我們總是充滿了無限的遐想，而北京這座城市充滿了太多故事，對于過去或現在生活在這裡的人，都是一份情懷。

在電影中，我們經常能看到對老北京街道的還原，但布景終歸隻是布景。試想在90年前，有人用錄影機記錄下了當時的一切呢？

早在5月，微網誌部落客“大谷Spitzer”分享了他對百年前老北京視訊的修複結果，如今在和央視的合作下，時隔兩個月，第二期節目終于如約而至，在新的視訊中，除了仍然熙熙攘攘的老北京街道，你還能看到很多生活化的場景，甚至聽到他們的聲音。

比如在學校外面買飯時孩子們的喧鬧聲：

或者是盲人樂手在街邊彈奏表演：

甚至是在剃頭小攤剃頭，這效果可以堪比不少Tony老師了：

“這頭剃得好不疼，剃得不好，真疼！”

“你家幾口人啊“

“十口人？！怎麼那麼些人呢？“

“一天掙兩毛錢夠挑費不？“

看到這裡，有網友表示，“感覺剃頭師傅說了段相聲”。

這剃頭小哥也是個話痨，他對着鏡頭拍頭說“剃挺好”的時候，文摘菌覺得，這怎麼就這麼像“黃渤×夏雨”呢？

有網友也表示認同，笑稱道，“黃渤，你為什麼穿越回去剃頭”。

這次除了畫面，聲音修複是一大亮點，不過礙于GIF的限制，想聽最純正的老北京話，大家可以點選下方連結👇：

小程式，

哔哩哔哩

，，

我用人工智能修複了百年前的北京影像!第2期：民俗樂隊，街邊地攤與剃頭匠

小程式

對于大谷來說，有了兩次的經驗，這次的修複項目要顯得得心應手了許多，在整體效果的呈現上，大谷也十分滿意，不過顔色上還存在閃爍，分辨率也還可以再提升。

大谷表示，會總結每次的經驗教訓，争取下一次比上一次的效果更好，當然他也會嘗試加入一些新技術。

這次的修複項目，大谷和央視進行了合作，在央視的宣傳下，更多人得以領略百年老北京風光，不少網友感歎道科技的進步和貢獻：

也有網友感歎道時間的流逝，“下一個90年，未來的人看到我們現在生活面貌，不知道會是什麼感想”。

視訊釋出一周後，在微網誌、知乎等多個社交平台上都掀起了讨論熱潮，文摘菌也再次聯系到大谷，第二次接受采訪的他也顯得要遊刃有餘許多。

用AI項目做聲音修複，老北京視訊有聲音啦！

說到本次視訊的來源，大谷介紹道，可以稱得上本次修複過程中最困難的地方了。

雖然網上能找到兩段相關的視訊影像，兩分鐘的宣傳片和六分鐘的正片，但是網上的版本水印非常重，基本不能用，這才觸發了大谷向美國南卡羅萊納大學影像庫“求救”，申請了視訊的使用權，得到了學校内部版本的視訊，這才解決了水印的問題。

視訊開頭的小黃紙片

除了水印外，由于年代差距，這兩段宣傳片和正片的内容是不重複的，再加上當時的從業人員不懂中文，兩段視訊的時間順序是完全亂掉的，比如前一秒還是宣傳片的内容，後一秒就馬上跳到了全片末尾。

是以拿到這個視訊之後，大谷的第一個工作就是把視訊重新剪輯到正确的時間流上。

在聲音的修複上，當時制作團隊所使用的錄音裝置無形之中幫到了大忙，微網誌網友@失重的梁柱介紹道：

福克斯有聲電影新聞在當時是比較新鮮的模式。差別于華納兄弟開發了維他風（Vitaphone）和RCA 開發的光電留聲機（Photophone），福克斯的有聲電影（Movietone）屬于單攝影機系統，可将聲畫同時錄制到膠片上，較之以往是十分便捷的。而目前所見的拍攝中國的原聲影片，很多都出自福克斯的這一系列。

得益于裝置的先進，視訊本身的錄音效果就已經足夠好，再加上南卡羅萊納大學可能也進行了一些初步處理，大谷所做的工作主要是底層去噪，也就是處理掉那些經常出現在錄音中的、吱吱的毛刺聲。

大谷表示，AE或PR裡的去噪功能就很好，系統首先會學習一小段噪音波形，随後會自動把後續出現的噪音部分抵消，這樣的話聽上去會清晰很多。但去噪主要針對以低頻為主的聲音，處理後整體的聲音效果聽上去就會比較“幹”，是以在去噪後，大谷還加入了一些混響，讓聲音聽上去更自然，當然文摘菌可是一點都沒聽出來。

不過，在盲人演奏的音樂部分，大谷除了加了混響外，基本沒有做其他處理，因為音樂本身的混聲就比較嚴重了，如果再去噪的話，低音樂器的聲音就會被掩蓋住。

随後，大谷還介紹了一個聲音修複的AI項目，導入一段默片，AI系統就可以自動補充出音效，比如導入《火車進站》，系統就能補充火車的音效，由遠及近，非常逼真，有了這項技術就可以更輕松地對更多老電影進行聲音修複了。

不過，這個項目還沒有開源，大谷表示他也會持續關注最新進展。

論文連結如下，感興趣的朋友們可以嘗嘗鮮：

http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html

大谷說到，這其實是第一次針對原聲視訊進行修複，也是很有意義的一次進步。南卡羅萊納大學影像庫内部還儲存有很多有聲老視訊，也希望未來能夠和他們繼續取得聯系。

畫面大更新：邊緣更平滑，整體效果更好了

除了聲音上的修複外，文摘菌也注意到，與第一期視訊相比，本次視訊中畫面上顔色跳來跳去的情況少了很多，這與大谷使用的不同軟體有着直接關系。

大谷表示，在畫面分辨率上首先進行了進一步的提升，與第一期不同，本次修複主要使用的是Topaz，Topaz在邊緣的處理上要更加平滑，畫面效果也更好。

其次就是利用到了DeepRemaster這項技術，與這項技術的邂逅是在YouTube上的推薦流上，這其實是GitHub上的一個開源項目，目前還在研究中。

GitHub連結：

https://github.com/satoshiiizuka/siggraphasia2019_remastering

發現這項技術之後，大谷就發郵件征得了兩位日本研究員的同意。

在使用過程中，大谷發現，DeepRemaster非常好上手，可以導入一些手繪圖或者曆史圖像作為參考圖，修複的效果就會穩定在參考圖的範圍内，同時場景中顔色的抖動也變得更加平穩。

在本次視訊中，盲人音樂家表演的部分和“黃渤”拍頭的部分都是通過這個技術實作的。

當然，DeepRemaster技術本身也存在瓶頸，不是所有的場景都能直接套用，就大谷的個人經驗來說，對于動作劇烈或者是人臉很多的場景，比如市井，都沒辦法使用這項技術，DeepRemaster更适合那些靜幀、平移的畫面，比如音樂表演。

在畫面和聲音的修複工作上，大谷也進行了有機的結合，比如電腦自動補幀的時候，就可以利用空隙在PR上修複聲音，兩個部分可以不沖突地進行，有時候會穿插着來，也會返工二次修複聲音部分。

除了在聲音和畫面上的修複外，我們也注意到，在這次的項目上，大谷也和央視進行了一次合作，他表示，自己主要負責技術修複，央視主要負責宣發，“這也省了很多力氣，上傳稽核視訊都是很費時的”。

有了前兩次的經驗，這次的修複顯得要“順手”很多，整個制作周期大概持續了一個月的時間，這段時間裡，其實也不是全身心地撲在這上面，也有在開發自己的遊戲，做一些其他的項目。

在和央視的合作過程中，央視也會對整體的修複提出參考意見，比如音樂的剪輯，以及字幕的添加等。大谷感歎道，添加字幕的過程同樣也是一次學習的體驗，同時也可以讓觀衆更好地了解人物對話。

不隻如此，修複後的老視訊在社交媒體上傳播之後，大谷收到了很多回報，比如第二期老視訊的出處本來是模糊的，後來有大神根據修複後的畫面等資訊綜合後，指出這是100年前老濟南西門泺源門（濼源門），這些都是寶貴的互動。

破案過程，歡迎圍觀：

https://www.zhihu.com/question/399225415

神器DeepRemaster：如何把修複效果穩定在參考圖範圍内

和第一期修複視訊一樣，在這次新的視訊過程中，大谷仍然借鑒了YouTube部落客Denis Shiryae的影像修複教程，以及使用到了上海交大聯合提出的DAIN補幀技術。

除此之外，如上文所說，新一期視訊中使用到的新技術DeepRemaster由日本築波大學和早稻田大學兩位研究者合作提出，論文曾被計算機圖形學頂會SIGGRAPH Asia 2019收錄。

論文連結：

http://iizuka.cs.tsukuba.ac.jp/projects/remastering/en/index.html

DeepRemaster之是以強大，是因為它與近年來使用遞歸模型處理視訊的方法不同，該方法對老舊影像的修複是基于全卷積網絡實作的。

在這項研究中，研究人員提出了一種單一架構，該架構基于帶有注意力機制的時間卷積神經網絡，主要以半互動的方式處理所有重制任務。同時，論文提出的source-reference注意力，允許模型在處理任意數量的彩色參考圖像時，不需要進行分割就能視訊着色，也很好地保持了時間一緻性。

輸入一系列的黑白圖像，通過預處理網絡修複，修複的結果作為最終輸出視訊的亮度通道。然後，source-reference網絡将預處理網絡的輸出和任意數目的彩色參考圖像結合，産生視訊的最終色度通道。

在效果測試上，研究人員對一些老視訊進行了測試，比如下圖，結果正如大谷所說，在靜止的場景内，輸入少量參考圖像後，系統就能輸出穩定、一緻的數千幀圖像。

與以往的方法相比，DeepRemaster生成的圖像與真實世界的色彩更加一緻。

未來，大谷表示，他會繼續關注新的技術和老視訊修複領域，也會嘗試将這些新的AI修複技術利用到老視訊修複上。

換句話說，現在是不是就可以期待第三期的老北京修複視訊了？！搓手~

用AI還原道地京片子！作者大谷親自揭秘老北京視訊語音修複，網友：黃渤穿越了？

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普