在昨天2016天貓雙十一狂歡夜晚會上,大家是不是被阿裡雲人工智能機器人et表演魔術的那一幕給驚呆了。不僅實時互動、全程實時速記,還猜出了每個人手裡的牌是什麼。
太厲害了,有沒有!!!
不過:
這個魔術的創意是怎麼來的? 從想法到拍闆、再到落地,曆時多久?有沒有遇到什麼坎,都是怎麼解決的? 技術上都有哪些細節? 魔術的背後,都有哪些幕後?
雲栖社群記者就以上問題,采訪了魔術環節的項目pm李博(花名:傲海)。
昨晚驚豔全場的阿裡雲人工智能et表演的是一個經典魔術。
32張撲克牌以de bruijn 序列排列,五人洗牌之後,實際上排列可能減少到32種,et将轉身觀衆(黑牌)記作1紅牌觀衆記為0。進一步從32種可能性中算出最終的唯一排列。
它就是debruijn 序列,這個序列的原理很複雜,但效果很簡單,就是從這樣的序列中任意取出相鄰n個數,它們的二進制排列一定不相同,這就意味着隻要黑牌和紅牌的排序出來,就隻有一個唯一的解。
采訪中,李博表示,從創意的排版到最終呈現,整個項目大緻用了一個多月的時間,期間遇到了非常多的困難。
包括以下幾個方面:
跨團隊的資源排程和協調;
跟導演組的溝通以及如何快速疊代項目來應對變化;
如何對接演播當天音頻、視訊、導播車這些專業的直播裝置,這一塊困難非常大,任何一個裝置的型号或者是線路出錯都會造成直播事故;
直播中跟導播如何配合;
如何保持狀态:整個團隊在最後的彩排階段非常疲勞,連續好多天工作到淩晨3點;
如何保證直播品質,因為是上億人觀看的直播,要有應急手段,要把所有可能發生的困難都提前做好預案。
大夥對于直播這種很專業的領域缺乏經驗,現場的布線、裝置的擺放、整個流程怎麼走都要學習。
通常這個魔術非常考驗魔術師的記憶和推算能力。對et來說,這些都不是難題。難的是整個過程中需要et要具備高精确度、高實時性的視訊識别能力,并用人類的語言和主持人溝通交流,因為直播現場環境非常複雜。
現場環境的複雜,展現在三個方面:
環境噪聲的複雜性:如晚會活動現場, 有多個高功率的音響裝置, 會場混響非平常辦公室or家居場景可比拟的;
裝置連接配接的複雜性:由于此次晚會涉及信号傳輸有7--8路, 除了音頻信号還有視訊信号, 各種裝置之間互相幹擾, 除了環境噪音之外, 還帶來了大量的電流噪聲幹擾.
直播的特殊性:現場是對全球的實時直播,一切都是不可控的,任何情況都會出現。
“對于以上的問題, 我們做了以下應對。”阿裡雲idst技術專家汪淼淼在接受采訪時說,“一個是阿裡雲et自身的能力,之前它已經在千差萬别的場景中得到錘煉;第二個是在背景的模型算法方面, 通過帶噪資料的不斷學習, 使得最終模型獲得了帶噪資料的适應性和魯棒性,進而提高了對于帶噪信号的适應性, 當然各種場景下真實資料的回報,也讓模型不斷學習&自适應, 獲得了對各種複雜環境的适應性和識别效果的魯棒性;第三個是加強對華少的适應性——通過對華少的一些曆史資料的學習, 如華少主持過的節目《華少愛讀書》《王牌碟中諜》等視訊的學習, 使得et更加适應華少說的話。”
通過學習錄音資料,et還能模仿指定個人的音色。
而在et識别黑牌的過程中,應用到的就是人工智能的圖像識别技術,其功能準确度達95%以上。
在觀衆抽取撲克牌時,et已經完成了對5位觀衆的面部識别,并利用算法建立了器官輪廓定位,以便之後識别出是否有人轉身。
之前et檢測出華少手上有新的物品,便觸發了圖像識别機制,“看出”華少手上多了一幅撲克牌。
目前,阿裡雲et的人臉算法已經覆寫了人臉檢測、器官輪廓定位、人像美化、性别年齡識别、1對1人臉認證和1對多人臉識别等多個方向,用機器學習的方法,包括卷積神經網絡、supervised descent method等,實作了高精度和高效的技術,人臉識别在lfw上識别率99.5%。
無論是語音識别還是圖像識别,阿裡雲et的底層都依賴于深度學習算法以及大規模計算能力。
一套複雜算法模型的訓練往往需要千億級别的樣本資料,這就對背後的計算能力提出了很高的要求。
作為整個項目的pm,傲海分享了項目過程中一些令人難忘的事。
他說,難忘的事情非常多。“直播前,品牌的同學為了跟導演組溝通台本,在現場幾乎可以坐一個晚上;開發的同學淩晨三點多剛躺下,第二天早上就自發起來改各種需求;負責采購硬體的同學每天往返于各種裝置市場;因為人手有限,ued同學甚至開始充當布線工程師,還到導播車幫忙監控項目的直播。”這些細節,李博都曆曆在目。
這位負責機器學習pai的産品經理表示,整個團隊真的是非常有勇氣和戰鬥力,電視直播是他們從沒涉及過的領域,大家可以在這麼短的時間内開發整套項目,并且成功的呈現到電視機前,克服了非常非常多的問題。
“每個人都貢獻出了自己的全部能力。”他最後說到。