天天看點

用AI還原道地京片子!作者大谷親自揭秘老北京視訊語音修複,網友:黃渤穿越了?

對曆史,我們總是充滿了無限的遐想,而北京這座城市充滿了太多故事,對于過去或現在生活在這裡的人,都是一份情懷。

在電影中,我們經常能看到對老北京街道的還原,但布景終歸隻是布景。試想在90年前,有人用錄影機記錄下了當時的一切呢?

早在5月,微網誌部落客“大谷Spitzer”分享了他對百年前老北京視訊的修複結果,如今在和央視的合作下,時隔兩個月,第二期節目終于如約而至,在新的視訊中,除了仍然熙熙攘攘的老北京街道,你還能看到很多生活化的場景,甚至聽到他們的聲音。

比如在學校外面買飯時孩子們的喧鬧聲:

或者是盲人樂手在街邊彈奏表演:

甚至是在剃頭小攤剃頭,這效果可以堪比不少Tony老師了:

“這頭剃得好不疼,剃得不好,真疼!”

“你家幾口人啊“

“十口人?!怎麼那麼些人呢?“

“一天掙兩毛錢夠挑費不?“

看到這裡,有網友表示,“感覺剃頭師傅說了段相聲”。

這剃頭小哥也是個話痨,他對着鏡頭拍頭說“剃挺好”的時候,文摘菌覺得,這怎麼就這麼像“黃渤×夏雨”呢?

有網友也表示認同,笑稱道,“黃渤,你為什麼穿越回去剃頭”。

這次除了畫面,聲音修複是一大亮點,不過礙于GIF的限制,想聽最純正的老北京話,大家可以點選下方連結👇:

小程式,

哔哩哔哩

,,

我用人工智能修複了百年前的北京影像!第2期:民俗樂隊,街邊地攤與剃頭匠

小程式

對于大谷來說,有了兩次的經驗,這次的修複項目要顯得得心應手了許多,在整體效果的呈現上,大谷也十分滿意,不過顔色上還存在閃爍,分辨率也還可以再提升。

大谷表示,會總結每次的經驗教訓,争取下一次比上一次的效果更好,當然他也會嘗試加入一些新技術。

這次的修複項目,大谷和央視進行了合作,在央視的宣傳下,更多人得以領略百年老北京風光,不少網友感歎道科技的進步和貢獻:

也有網友感歎道時間的流逝,“下一個90年,未來的人看到我們現在生活面貌,不知道會是什麼感想”。

視訊釋出一周後,在微網誌、知乎等多個社交平台上都掀起了讨論熱潮,文摘菌也再次聯系到大谷,第二次接受采訪的他也顯得要遊刃有餘許多。

用AI項目做聲音修複,老北京視訊有聲音啦!

說到本次視訊的來源,大谷介紹道,可以稱得上本次修複過程中最困難的地方了。

雖然網上能找到兩段相關的視訊影像,兩分鐘的宣傳片和六分鐘的正片,但是網上的版本水印非常重,基本不能用,這才觸發了大谷向美國南卡羅萊納大學影像庫“求救”,申請了視訊的使用權,得到了學校内部版本的視訊,這才解決了水印的問題。

“那邊的人很配合。”大谷說,當然他們提出了一些要求,就是要加上視訊前的小黃紙片,和版權聲明部分,除此之外,對視訊的後續處理和分享都是自由的。

視訊開頭的小黃紙片

除了水印外,由于年代差距,這兩段宣傳片和正片的内容是不重複的,再加上當時的從業人員不懂中文,兩段視訊的時間順序是完全亂掉的,比如前一秒還是宣傳片的内容,後一秒就馬上跳到了全片末尾。

是以拿到這個視訊之後,大谷的第一個工作就是把視訊重新剪輯到正确的時間流上。

在聲音的修複上,當時制作團隊所使用的錄音裝置無形之中幫到了大忙,微網誌網友@失重的梁柱介紹道:

福克斯有聲電影新聞在當時是比較新鮮的模式。差別于華納兄弟開發了維他風(Vitaphone)和RCA 開發的光電留聲機(Photophone),福克斯的有聲電影(Movietone)屬于單攝影機系統,可将聲畫同時錄制到膠片上,較之以往是十分便捷的。而目前所見的拍攝中國的原聲影片,很多都出自福克斯的這一系列。

得益于裝置的先進,視訊本身的錄音效果就已經足夠好,再加上南卡羅萊納大學可能也進行了一些初步處理,大谷所做的工作主要是底層去噪,也就是處理掉那些經常出現在錄音中的、吱吱的毛刺聲。

大谷表示,AE或PR裡的去噪功能就很好,系統首先會學習一小段噪音波形,随後會自動把後續出現的噪音部分抵消,這樣的話聽上去會清晰很多。但去噪主要針對以低頻為主的聲音,處理後整體的聲音效果聽上去就會比較“幹”,是以在去噪後,大谷還加入了一些混響,讓聲音聽上去更自然,當然文摘菌可是一點都沒聽出來。

不過,在盲人演奏的音樂部分,大谷除了加了混響外,基本沒有做其他處理,因為音樂本身的混聲就比較嚴重了,如果再去噪的話,低音樂器的聲音就會被掩蓋住。

随後,大谷還介紹了一個聲音修複的AI項目,導入一段默片,AI系統就可以自動補充出音效,比如導入《火車進站》,系統就能補充火車的音效,由遠及近,非常逼真,有了這項技術就可以更輕松地對更多老電影進行聲音修複了。

不過,這個項目還沒有開源,大谷表示他也會持續關注最新進展。

論文連結如下,感興趣的朋友們可以嘗嘗鮮:

http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html

大谷說到,這其實是第一次針對原聲視訊進行修複,也是很有意義的一次進步。南卡羅萊納大學影像庫内部還儲存有很多有聲老視訊,也希望未來能夠和他們繼續取得聯系。

畫面大更新:邊緣更平滑,整體效果更好了

除了聲音上的修複外,文摘菌也注意到,與第一期視訊相比,本次視訊中畫面上顔色跳來跳去的情況少了很多,這與大谷使用的不同軟體有着直接關系。

大谷表示,在畫面分辨率上首先進行了進一步的提升,與第一期不同,本次修複主要使用的是Topaz,Topaz在邊緣的處理上要更加平滑,畫面效果也更好。

其次就是利用到了DeepRemaster這項技術,與這項技術的邂逅是在YouTube上的推薦流上,這其實是GitHub上的一個開源項目,目前還在研究中。

GitHub連結:

https://github.com/satoshiiizuka/siggraphasia2019_remastering

發現這項技術之後,大谷就發郵件征得了兩位日本研究員的同意。

在使用過程中,大谷發現,DeepRemaster非常好上手,可以導入一些手繪圖或者曆史圖像作為參考圖,修複的效果就會穩定在參考圖的範圍内,同時場景中顔色的抖動也變得更加平穩。

在本次視訊中,盲人音樂家表演的部分和“黃渤”拍頭的部分都是通過這個技術實作的。

當然,DeepRemaster技術本身也存在瓶頸,不是所有的場景都能直接套用,就大谷的個人經驗來說,對于動作劇烈或者是人臉很多的場景,比如市井,都沒辦法使用這項技術,DeepRemaster更适合那些靜幀、平移的畫面,比如音樂表演。

在畫面和聲音的修複工作上,大谷也進行了有機的結合,比如電腦自動補幀的時候,就可以利用空隙在PR上修複聲音,兩個部分可以不沖突地進行,有時候會穿插着來,也會返工二次修複聲音部分。

除了在聲音和畫面上的修複外,我們也注意到,在這次的項目上,大谷也和央視進行了一次合作,他表示,自己主要負責技術修複,央視主要負責宣發,“這也省了很多力氣,上傳稽核視訊都是很費時的”。

有了前兩次的經驗,這次的修複顯得要“順手”很多,整個制作周期大概持續了一個月的時間,這段時間裡,其實也不是全身心地撲在這上面,也有在開發自己的遊戲,做一些其他的項目。

在和央視的合作過程中,央視也會對整體的修複提出參考意見,比如音樂的剪輯,以及字幕的添加等。大谷感歎道,添加字幕的過程同樣也是一次學習的體驗,同時也可以讓觀衆更好地了解人物對話。

不隻如此,修複後的老視訊在社交媒體上傳播之後,大谷收到了很多回報,比如第二期老視訊的出處本來是模糊的,後來有大神根據修複後的畫面等資訊綜合後,指出這是100年前老濟南西門泺源門(濼源門),這些都是寶貴的互動。

破案過程,歡迎圍觀:

https://www.zhihu.com/question/399225415

神器DeepRemaster:如何把修複效果穩定在參考圖範圍内

和第一期修複視訊一樣,在這次新的視訊過程中,大谷仍然借鑒了YouTube部落客Denis Shiryae的影像修複教程,以及使用到了上海交大聯合提出的DAIN補幀技術。

除此之外,如上文所說,新一期視訊中使用到的新技術DeepRemaster由日本築波大學和早稻田大學兩位研究者合作提出,論文曾被計算機圖形學頂會SIGGRAPH Asia 2019收錄。

論文連結:

http://iizuka.cs.tsukuba.ac.jp/projects/remastering/en/index.html

DeepRemaster之是以強大,是因為它與近年來使用遞歸模型處理視訊的方法不同,該方法對老舊影像的修複是基于全卷積網絡實作的。

在這項研究中,研究人員提出了一種單一架構,該架構基于帶有注意力機制的時間卷積神經網絡,主要以半互動的方式處理所有重制任務。同時,論文提出的source-reference注意力,允許模型在處理任意數量的彩色參考圖像時,不需要進行分割就能視訊着色,也很好地保持了時間一緻性。

輸入一系列的黑白圖像,通過預處理網絡修複,修複的結果作為最終輸出視訊的亮度通道。然後,source-reference網絡将預處理網絡的輸出和任意數目的彩色參考圖像結合,産生視訊的最終色度通道。

在效果測試上,研究人員對一些老視訊進行了測試,比如下圖,結果正如大谷所說,在靜止的場景内,輸入少量參考圖像後,系統就能輸出穩定、一緻的數千幀圖像。

與以往的方法相比,DeepRemaster生成的圖像與真實世界的色彩更加一緻。

未來,大谷表示,他會繼續關注新的技術和老視訊修複領域,也會嘗試将這些新的AI修複技術利用到老視訊修複上。

換句話說,現在是不是就可以期待第三期的老北京修複視訊了?!搓手~

繼續閱讀