天天看點

AI 崛起的第九個年頭,還有哪些大有可為的地方?

2020-02-26 16:30

導語:針對這 9 個趨勢,我們将做以下分析。

AI 崛起的第九個年頭,還有哪些大有可為的地方?

從2012年算起,人工智能的再次爆發已經進入了第九個年頭,人們對“人工智能是什麼”也從最初的懵懂、憧憬、恐懼,逐漸走向深度的認識。在2018年人們還在讨論人工智能什麼時候會再次進入寒冬,但到了2019年人們對“寒冬”之說已經不再感冒,而是普遍在追尋“如何讓人工智能可了解”或者“AI所引發的隐私、安全、倫理問題”。

2020年,人工智能依舊在蓬勃發展,并在各行各業産生了深刻的影響。2020年還剩下10個月的時間,讓我們去預期,人工智能會有哪些重要的趨勢呢? CB insights曾就此問題做了一個判斷,并給出人工智能的九個重要研究和應用趨勢。AI 科技評論在一定程度上認同這些判斷,針對這 9 個趨勢,我們将做以下分析。  

一、Deepfake将改變商業模式

 CB insights認為商業性質的Deepfake可能會興起,死去的名人将會“複活”,零售業以及營銷的方式也會得到改變。

 前些日子,Deepfake技術現身印度選舉,被候選人用于競選拉票的宣傳材料。雖然此候選人最終以慘敗收場,但這意味着Deepfake點燃的AI換臉之火有逐漸升溫的迹象。 

雖然此技術出現在政治視訊以及色情視訊中會帶來負面的影響,但是對于媒體、電影公司來說卻是千載難逢的機會。例如好萊塢的一些電影公司正在想方設法“數字複活”五十年代中的電影人物。 

AI 崛起的第九個年頭,還有哪些大有可為的地方?

(雷鋒網)

在商業層面,Deepfake将會變的更加個性化,提升電子商務體驗和虛拟線上試用;廣告投放也會朝着超定向方向發展,例如按照需求合成視訊,并配備相應的方言;創意流程也會變得自動化,例如“補拍”電影續集。

從技術層面上講,Deepfake技術也在突飛猛進。就在近期,北京大學聯合微軟研究院分别提出了FaceShifter和Face X-Ray,前者是一種高保真度、可識别遮擋的換臉工具,後者則是能夠檢測僞造人臉圖像的工具。 其中經過訓練的FaceShifter可以無需任何手動注釋,以自我監督的方式恢複異常區域,自适應地內建身份和人臉合成屬性。

而Face X-Ray不光能判斷是否是合成圖檔,還能指出哪個地方是合成的,即兼備識别+解釋兩種功能。 

這兩個技術号稱 AI換臉界的“利矛”和“堅盾”,在業界取得了領先的結果,另外值得注意的是其所需的資料比以前的方法少得多。 

是以在Deepfake問題上,2020 年的發展趨勢主要包括:

 1)Deepfake在一攻一防的鬥争中逐漸進步,小資料、無監督的訓練方法将成為模型的主流,傳統耗時耗力的計算機生成圖像技術也将逐漸被取而代之。 

2)Deepfake将改變商業模式,廣告營銷将會變得更加個性化,電影創作不再局限于真實拍攝。  

二、黑客的革命:利用 AI 來攻擊 AI

 傳統黑客主要是通過發現系統漏洞進而進行系統侵入。但進入人工智能時代後,黑客、白客之間的攻防戰争也發生巨大的變化。 

随着人工智能的崛起,AI漸漸被用于自動檢測和打擊惡意軟體,可以學習發現可疑行為,并在可能影響任何系統之前阻止網絡攻擊,同時使得人類避免一些不必要的工作量。

但是攻擊一方也可以使用相同的技術來增強他們的攻擊方法,特别是犯罪分子将之武器化,這些惡意軟體甚至可以逃避最好的網絡安全防禦并感染計算機網絡,甚至可以僅在錄影機檢測到目标的人臉時發動攻擊。 

這意味着在2020年,未來的黑客可能在兩個方面發力:

1、欺騙規模上升到系統級别;

2、利用AI發起更為複雜的攻擊。

 例如在2019年,Skylight Cyber的研究人員找到了一種方法可以發現AI模型中的固有偏見,利用這種偏見可以建立出“後門”,使得惡意軟甲繞過 AI 防火牆,騙過防毒軟體。 

這也就是說,如果能夠了解AI模型的工作原理,基于其特定功能設計攻擊武器,就能夠愚弄系統。 随着Skylight Cyber這種AI公司越來越多,消費者和企業保護的級别固然會上升,但是針對AI特有弱點的新一批黑客和軟體也會随着出現。

AI 崛起的第九個年頭,還有哪些大有可為的地方?

(雷鋒網)

另一方面,黑客也可能會從資料的角度來愚弄AI,即破壞AI算法的訓練資料,使得AI産生偏見,影響其對網絡中正常行為和惡意行為的區分。 

AI 崛起的第九個年頭,還有哪些大有可為的地方?

利用語音合成的犯罪案件 當網絡安全研究員越來越多的使用AI防禦攻擊時,AI本身也會被用來制造更加複雜,更有針對性的網絡攻擊。例如Deepfake生成的語音和合成的語音越來越逼真。

在歐洲,已經發生了一些黑客利用AI模仿公司CEO給員工打電話然後讓其轉賬的案件。 雖然在現實世界中利用AI來攻擊的犯罪案件尚未有報道,但是早在2018年,IBM就開發了一種名為Deeplocker的深度學習驅動的惡意軟體,可以繞過網絡安全保護來進行攻擊。

該軟體被描述為“一種由AI驅動的具有高度針對性和規避性攻擊工具的新型惡意軟體”,目的是了解現有的AI模型是如何與惡意軟體技術相結合,進而創造出一種新的攻擊類型。 此技術将黑盒AI的傳統弱點變成了一種優勢,在目标物未出現之前,可以隐藏在普通的應用軟體中,感染掉上百萬的系統也不會被察覺。

這個 AI 模型隻有在識别出特定的标準時,才會“解鎖”并開始攻擊。 當然,除了AI型的黑客,使用量子計算資源的量子黑客、利用大資料進行分析的大資料黑客等也将逐漸浮出水面。 是以在技術層面,2020 年黑客發展趨勢主要包括: 

1)AI本身也會被用來制造更加複雜,更有針對性的網絡攻擊。 

2)由于AI的黑盒性質,網絡攻擊将會變得更加隐蔽和猛烈。

三、AI 技術日益普及化和平民化,AutoML将大顯身手

 AutoML 作為一套自動化設計和訓練神經網絡的工具,能夠降低企業的進入門檻,使得技術更加“平民化”。 從數千個特定任務中設計或搜尋正确的神經網絡架構整個過程非常耗時,尤其是在為更加複雜的場景(例如自動駕駛,需要兼具速度和準确率)設計AI 架構時,就更非易事。

對此,神經架構搜尋(NAS)應運而生,可自動化為給定任務找到最佳 AI 設計的過程。2017年,谷歌正式将其命名為“AutoML”。谷歌在當時便指出,AutoML 将啟發新型神經網絡的誕生,并且還能夠讓非專家也能夠根據他們的特殊需求建立相應的神經網絡。 

自此之後,AutoML 的應用越發廣泛,在資料準備、訓練、模型搜尋、特征工程等 AI 設計中都發揮着巨大的作用,極大地推動了 AI 技術的普及化。

總體而言,AutoML 主要具備兩個主要優勢: 

1)可緩解人才短缺問題:目前 AI 專家還是處于非常短缺的狀态,而AutoML 則會極大地降低非專家以及企業的技術使用門檻,進而推動 AI 技術的普及和推廣。 

2)可節省成本和降低複雜性:即便對于專家而言,設計神經網絡都是一個費時費力的過程。AutoML 在降低計算和試錯成本的同時,開發的解決方案也更勝一籌。

随着 AI 技術越發普及化和平民化,AutoML将繼續大顯身手。 而在未來的研究方向上,主要可以從算法方向和理論方向着手: 

1)在AutoML算法上,未來的工作如果能在效率提升、泛化性、全流程的優化、面對開放世界、安全性和可解釋性這 5 個方向上取得突破,将會有較大的價值。 

2)在AutoML理論研究上,目前相關的研究還較少,對自動機器學習的泛化能力及适用性也不是很清楚。因而,一方面要回答目前自動機器學習算法的适用性和泛化能力,另一方面也要回答哪些問題類存在通用的機器學習算法上和更廣泛問題空間上的自動機器學習算法的可行性。

四、聯邦學習将帶來新的資料共享範式

 聯邦學習的概念最初是由Blaise等人于2017年在Google AI Blog上發表的一篇博文中首次提出。

自提出至今,相關研究甚嚣塵上。 聯邦學習之是以能夠在如此短的時間裡迅速由一個構想變為一門學科,主要原因在于聯邦學習技術作為一種學習範式,能夠在確定使用者資料隐私的同時解決“資料孤島”問題。

AI 崛起的第九個年頭,還有哪些大有可為的地方?

(雷鋒網(公衆号:雷鋒網))

無需資料收集,即可改進AI模型 相對于傳統的AI模型,聯邦學習更像針對目前人工智能發展所面臨的困境的新範式,例如: 

1、在聯邦學習的架構下,各參與者地位對等,能夠實作公平合作; 

2、資料保留在本地,避免資料洩露,滿足使用者隐私保護和資料安全的需求; 

3、能夠保證參與各方在保持獨立性的情況下,進行資訊與模型參數的加密交換,并同時獲得成長; 

4、模組化效果與傳統深度學習算法模組化效果相差不大; 

5、聯邦學習是一個閉環的學習機制,模型效果取決于資料提供方的貢獻。 以上優點顯然給解決資料隐私和安全問題提供了一種新的路徑,而在具體應用層面,英偉達的醫療硬體和軟體架構Clara已經能夠支援聯邦學習,目前已經有美國放射學院、MGH、BWH臨床資料科學中心以及UCLA Health 在平台上訓練相關算法。 

是以,在技術上,确實可以保證合法的進行聯邦學習,并且是有效果的。是以聯邦學習像一個作業系統,它的特點是多方合作,隻有多方都認可才能發揮其威力。 是以接下來,聯邦學習在2020年會繼續成為一種火熱的研究趨勢: 

1)不僅在醫療領域,金融領域,工業界也會加大力度布局聯邦學習,接下來跨領域合作、跨國合作将成為常态。 

2)資料隐私問題、小資料問題得到緩解,跨裝置模型訓練成為解決方案。 

五、機器學習加碼智慧城市建構

智慧城市最重要的是利用各種資訊技術或創新概念,将城市的系統和服務打通、內建,以提升資源運用的效率。

 從技術發展的視角,智慧城市建設要求通過以「移動技術」為代表的物聯網、雲計算等新一代資訊技術應用實作全面感覺、泛在互聯、普适計算與融合應用。 

而 IoT 和機器學習的興起顯然為其提供了支援,例如使用機器學習來為通勤行為模組化,并關注影響通勤方式選擇的因素等;使用機器學習分析傳感器資料減少溫室氣體排放和更智能的資源管理。 

當然智慧城市涉及領域之廣,絕不是一家企業能夠掌握,即使是萬億美元的 Al 巨頭Alphabet也隻有通過聯手政府,才能在衆多城市創造新的街區,規劃房地産、公共能源設施、交通等布局。 

AI 崛起的第九個年頭,還有哪些大有可為的地方?

 例如,去年第二季度,Alphabet 旗下子公司 Sidewalk Labs 釋出了一份 1500 頁的方案,其中詳述了如何通過與政府和其他企業的合作,以 13 億美元在多倫多打造一個智慧城市的項目。

項目的重點和亮點就集中在 AI 在政府和城市規劃的應用上。 總而言之,在2020年,智發展慧的城市發展會在協作和技術兩方面開花:

 1)在合作層面必須得到政府青睐,政府的加入将弱化企業不成比例的前期創新成本 

2)在技術層面必須優化端到端的解決方案,擁有機器學習的城市開發工具、自動駕駛汽車技術以及建築能源管理的AI企業将會極具競争力。 

六、用AI 技術應對 AI 訓練的巨大消耗

 計算密集型的 AI 技術,不僅需要更加智能和可持續化的解決方案,還應該有助于應對全球日益上升的能源需求。 

AI 領域的進展往往都是自上而下的,比如說由科技巨頭開發出某些 AI 工具,然後開源給其他人,造成這一現象的原因之一便是 AI 研究的計算密集性。 

據統計表明,谷歌在2018 年的BigGAN實驗中用來建立狗、蝴蝶和漢堡的超現實圖像所消耗的電量“相當于每個美國家庭在近6個月的時間裡所用的總電量”。如此的耗電量着實令人震驚!

AI 崛起的第九個年頭,還有哪些大有可為的地方?

随着AI 能源消耗的持續走高趨勢,節約能源将會是 AI 在 2020 年乃至未來的重要研究課題。用 AI 技術節約能源主要可從以下三個方面着手: 

1)硬體公司将會聚焦于為機器學習研究提供“超低功耗”的裝置,與此同時能源效用會成為邊緣計算的主要考量點。 

2)将 AI 應用于公用事業規模的能源生産:更多的雲計算巨頭将轉向使用可持續發展的能源,并利用 AI 技術來增加可再生能源産出以及精簡資料中心的營運。 

3)精簡發電和油氣等業務:人工智能能夠預測可再生能源産出、自動化電網管理、幫助油井精确鑽探,以及為智能家居和商業建築提供可持續能源管了解決方案。

七 、解決小資料問題勢在必行

 如果沒有足夠的資料來訓練“資料饑渴”的深度學習算法,有兩種解決方法:生成合成資料,或者開發能從小資料中學習的AI 模型。 生成合成資料的方法在自動駕駛領域應用得比較多,即在模拟環境中合成暴風雪、異常行人行為等現實世界中難以獲得的圖像資料。 

開發能從小資料中學習的AI 模型方法,具體方法如常用于計算機視覺任務的遷移學習,即先在擁有大量标準資料的任務上訓練 AI 算法,再将算法學到的知識遷移到另一個資料很少的任務上。 雖然遷移學習在計算機視覺任務上起到了很大的作用,但是在NLP 任務上,由于普遍缺乏标注資料,該方法目前還無法起到很好的效果。 

而另一種方法——自監督預訓練,則能較好地應對NLP 領域的特殊性。 谷歌的 BERT 就是自監督預訓練一個很好的案例,讓 AI 語言模型不僅能夠根據前面的詞預測詞,而且還預測後面的詞,即能夠實作對上下文的雙向了解。 

Yann LeCun上司的Facebook 人工智能部門便一直在從事自監督方面的研究。一個案例是,對語言模型進行預訓練,然後對模型進行微調來應用于識别仇恨言論。 

AI 崛起的第九個年頭,還有哪些大有可為的地方?

在解決小資料問題上,2020 年的發展趨勢主要包括: 

1)随着自監督技術的發展,NLP 領域會再度成為萬衆矚目的焦點。下遊的NLP 應用如聊天機器人、機器翻譯以及類人寫作等,将會茁壯成長。 

2)大型科技公司依舊會領銜技術的發展。開發預訓練語言模型也是計算密集的,因而在小資料的 AI 模型開發上,也将遵循“自下而上”的規律,即由科技巨頭公司将開發成果開源給下遊應用的研究者使用。 

3)生成真實假資料的合成資料方法和工具将會為那些不像巨頭公司一樣有海量資料的小公司,提供更加公平的競争環境。 

八、量子機器學習

 結合經典機器學習算法和量子 AI 的混合模型,不久後将得到實際應用。 量子機器學習借鑒了傳統機器學習的原理,不過算法在量子處理器上運作,不僅在速度上要遠快于一般的神經網絡,還能克服阻礙了目前在海量資料上做AI 研究的硬體限制。 

無論是科技巨頭還是量子初創公司都正在研究這種混合方法,即其中一部分任務由運作在普通計算機上的傳統神經網絡完成,另一部分任務則由量子神經網絡(QNN)進行增強。 

例如谷歌 AI 團隊自2013年開始就在嘗試為量子計算機開發算法,而最近的目标則是在現有的量子裝置上開發混合的量子—經典機器學習技術。

他們堅信,雖然目前關于量子神經網絡的研究還是理論上的,但是在不遠的将來,理論上的架構将在量子計算機上得到實作和驗證。 2020 年,在量子機器學習方面可以嘗試的方向是: 

1)針對量子計算和 AI 這兩種世上最強大的計算範式,最開始可以嘗試與經典計算機協作的方法來解決現實問題; 

2)量子雲計算将會成為雲計算戰場的前線,亞馬遜、谷歌、IBM 和微軟等玩家将會加大對量子雲計算的投入,與此同時,量子計算将會與傳統 GPU和CPU 協作增加雲計算的附加值。 

九、借鑒 NLP 概念了解生命

 實際上,自然語言處理和基因組都是由序列資料所構成的,AI 算法在自然語言處理領域得心應手,也将會在基因領域博大顯身手。 

在自然語言處理的自監督學習中,AI 算法能夠預測句子中缺失的詞,正如句子是多個詞的序列,蛋白質也是特定順序的氨基酸序列。Facebook AI 研究院和紐約大學的研究者就曾将同樣的自監督學習原理也應用到蛋白質序列的資料上。

AI 崛起的第九個年頭,還有哪些大有可為的地方?

不同于 NLP 中使用自監督學習來預測缺失詞,在蛋白質序列資料上,AI 要預測的是缺失或者隐藏的氨基酸。 

而最近最受關注的一項進展便是DeepMind 在基因組方面取得的進展,他們開發出了名叫Alphafold 的算法,能夠了解基因組中最複雜的難點之一——蛋白質折疊,并最終确定蛋白質的 3D 架構。

而Alphafold 其實就借用了自然語言處理的概念來預測氨基酸之間的距離和角度。 在借鑒 NLP 的概念來了解生命體方面,未來可嘗試的方向有: 

1)更好地設計藥物:現在有一些藥物以蛋白質為靶點,然而蛋白質會随着環境的不同發生動态變化,是以了解蛋白質結構以及折疊方式,将能更好地開發此類藥物。 

2)AI 算法有助于對蛋白質模組化以及了解其架構,而無需深入了解域内知識。 

3)在醫療和材料科學領域針對特定功能開發和優化新的蛋白質設計,将成為可能。

參考:https://www.cbinsights.com/research/report/ai-trends-2020/

繼續閱讀