天天看點

人工智能如何幫助自然科學

背景

人工智能 (AI) 正日益成為其他科學和技術領域研究人員的工具,促進跨學科合作。加州斯坦福大學編制了一個跟蹤人工智能相關資料的索引,該大學在其 2021 年報告中發現,從 2019 年到 2020 年,人工智能期刊出版物的數量增長了 34.5%;從 2018 年到 2019 年的 19.6% 上升(見go.nature.com/3mdt2yq)。2019 年,人工智能出版物占全球所有同行評審科學出版物的 3.8%,高于 2011 年的 1.3%。

五位人工智能研究人員描述了這些合作的成果,超越了期刊出版物,并讨論了他們如何幫助打破學科之間的障礙。

FABIO COZMAN:管理期望

巴西聖保羅大學人工智能中心 (C4AI) 主任。

在我上司人工智能中心 (C4AI) 的巴西聖保羅大學,我們的主要目标是開展對社會和行業有直接影響的機器智能研究。我們有五個核心計劃。一個目标是極大地改進巴西語言葡萄牙語的自然語言處理和翻譯,以便通過計算機語音工具更好地翻譯、轉錄和了解葡萄牙語使用者所說的話。另一個,藍色亞馬遜大腦,研究氣候變化、生物多樣性和礦産資源對巴西大西洋海岸線和居住在那裡的人們的影響。該中心于 2020 年 10 月開業,每年從技術公司 IBM 獲得 200 萬巴西雷亞爾(38 萬美元)的資金,200 萬雷亞爾來自聖保羅研究基金會,400 萬雷亞爾來自聖保羅大學。州政府提供進一步的财政支援。

該中心廣泛合作,但合作者通常對計算機科學可以實作的目标有不同的期望。這些期望可以通過與合作者明确人工智能可以做什麼和不能做什麼來解決。關于研究成果的分歧經常出現:例如,自然科學界的人們通常認為期刊論文是傳播研究的最佳方式,而根據我的經驗,人工智能研究人員更看重會議。

另一個挑戰是一些研究人員隻想要一個程式員。這樣的研究人員需要更願意分享他們的知識和問題,而不是僅僅采用“來幫我程式設計”的方法。協作需要成為旨在解決和回答問題的夥伴關系。

人工智能發展得如此之快,以至于計算機科學和工程領域的人們覺得他們必須伸出援手來解決現實世界的問題:僅僅做我們自己的事情對我們來說不再那麼有益了。我們正在追随一個趨勢:所有主要的人工智能實驗室和中心現在都在參與現實生活中的應用問題。對于希望與人工智能專家合作的研究人員,我的建議是首先管理您的期望:您是否希望讓“擅長計算機”的人幫助您進行一些資料分析,或者您是否真的需要提出更深層次的問題,哪個 AI 可以幫你回答?

一點背景知識和實踐經驗對合作者很有用。

PHIALA SHANAHAN:公平地運作

劍橋麻省理工學院理論實體學家。

我與該公司的 AI 研究部門 Google DeepMind 有持續的合作。該協會始于幾年前在以色列舉行的一次會議。我和我的學生展示了我們在劍橋麻省理工學院 (MIT) 開始的一些項目,這些項目采用了倫敦 DeepMind 的進階研究科學家 Danilo Jimenez Rezende 提出的一些想法;Rezende 的工作包括複雜資料的模組化,例如醫學圖像、視訊、3D 場景幾何和複雜的實體系統。他完成了一些我們已經應用于基礎實體問題的關鍵機器學習研究。

我們進行了交談,并由此産生了更長期的合作。它現在涉及 DeepMind 的幾個人,我的幾個博士後和一個博士生。在過去的幾年裡,我們已經寫了四五篇論文,并且确實做了一些創新的事情,使用機器學習模型來加速已建立的實體計算。最終,目标是使我們能夠進行現有算法和資源在計算上不可能進行的研究。

使我們的合作成功的東西是平等感。我的團隊正在像 DeepMind 團隊一樣努力推動 AI 方面。DeepMind 小組的人也非常了解他們的實體學。雙方都可以做科學的兩個部分,是以這是一次非常均勻和動态的合作,非常有趣。

我參與了效率較低的合作,他們的态度是“一組應該擔心實體部分,一組應該擔心計算機科學部分”,我們在中間相遇。所發生的情況是,這兩個群體最終都變得孤立并與語言障礙作鬥争。我發現這樣的合作不是互動的。

實際上,與 DeepMind 的這種更緊密、更平衡的關系意味着我們每周與參與該項目的每個人開一次會。我們在協作平台 Slack 上也有一個聯合頻道,我們在此期間聊天,并且我在一周内與我自己小組中正在從事該項目的人開會更頻繁。

​​[作者: 吳雄偉]​​

SIMON OLSSON:找到要解決的問題

瑞典哥德堡查爾姆斯理工大學應用人工智能助理教授。

在我去年 10 月開始的實驗室中,我們開發了機器學習方法來解決自然科學中的計算問題。例如,目前,我們正在與英國-瑞典公司阿斯利康合作開發藥物設計方法,該公司在我所在大學附近的哥德堡設有研究中心。我們還在研究如何将實驗資料整合到蛋白質結構和動力學的機器學習模型中。

我們使用來自自然科學的已發表論文和資料來訓練算法,而不是讓它們自己解決問題。例如,如果你想弄清楚一種蛋白質是如何折疊的,或者一種藥物是如何與它互相作用的,那麼使用一個計算模型來考慮關于該蛋白質的文獻,以及控制它的實體和化學定律。行為,可能會有所幫助。

如果你有計算機科學背景并且想在學習自然科學的同時進入人工智能,試着找出你感興趣的領域并找到你想解決的問題。例如,我最初是通過研究分子動力學和分子設計而被這個領域所吸引,其中分子及其互相作用是在計算機中模拟的,通常用于藥物發現的目的。人工智能有可能使以前無法解決的問題在這些領域中得到解決,這些領域對計算的要求非常高。

如果您不是來自計算機科學背景,那麼學習程式設計并掌握機器學習理論的基礎知識是很重要的。一個起點是learnpython.org,它提供了關于 Python 程式設計語言的互動式教程。美國線上課程平台 Coursera 和 YouTube 上也有關于機器學習的線上課程。或者你可以在你的大學參加機器學習或資料科學課程。

學習使用 AI 程式設計的基礎知識還意味着發展應用統計知識和研究機器學習算法的工作原理,以及它們處理資料和從經驗中“學習”的一些方式。掌握這些概念是重要的第一步。

我認為認識到機器學習和人工智能的有用性實際上歸結為問自己:“這些方法如何幫助我們改進,從根本上推動科學向前發展?”

我建議對人工智能感興趣的人開始學習程式設計,隻需嘗試自動化他們在工作生活中經常做的事情:無論是發送模闆電子郵件還是将資料輸入電子表格。如果重複這是一項無聊的任務,那麼自動化它的動力将很快到來。之後,逐漸用越來越複雜的任務挑戰自己。

ROMAN LIPSKI:我的機器學習缪斯

柏林藝術家,将人工智能融入他的作品。

2016 年 4 月,我開始在柏林美術學院教授難民課程,在那裡我遇到了資料科學家 Florian Dohmann。我們開始合作,嘗試使用人工智能探索藝術。我看過 Google 的資料科學家使用 AI 制作的圖檔。它們是由重複元素制成的恐怖故事圖像,以具有 1,000 隻眼睛或 1,000 英尺的動物為特色。

起初我有點天真:我想也許我們會立即拍出有史以來最好的照片。我知道有巨大的潛力,但我不知道如何使用人工智能。弗洛裡安和我開始使用由德國蒂賓根大學的科學家建立的開源算法,該算法旨在使用機器學習識别形狀和顔色。為了忠于我的藝術原則,我們決定隻在我自己的工作上訓練算法。我們拍攝了我在職業生涯中創作的每一幅畫,建立了一個小資料集來教授算法,然後要求它創作一件原創作品。

結果又是慘不忍睹。它看起來就像我從谷歌工程師那裡看到的畫——重複的形狀和顔色,沒有添加任何新東西。從藝術上講,它們比其他任何東西都更具噱頭。

我們決定建立一個新的資料集,使用一個重複的主題——靈感來自安迪沃霍爾的坎貝爾湯罐——我在自己的畫作中使用過。主題是我在 2016 年 3 月通路過的洛杉矶一條非常簡單的街道景觀。我用不同的顔色和紋理多次繪制了相同的場景。

我們将這組圖像數字化,我意識到我制作的藝術不是為了向人類觀衆展示,而是為了讓機器“看到”和處理:這是我和機器之間對話的開始。

這一次,當我們要求算法創新并制作新圖檔時,結果令人驚歎。不是每張照片都好,但我們得到了成千上萬的不同藝術風格的偉大成果,具有真正的藝術品質和我自己無法達到的形式。

在遇見弗洛裡安的前一年,我遇到了徹底的藝術危機。我覺得我已經用完了我自己世界裡可以用油漆講述的故事。我現在又開始畫畫了,但不是簡單地列印 AI 算法生成的東西,而是使用它的輸出作為靈感來創作我自己的原創作品。我現在鼓勵其他人将該算法用作名為 Unfinished 的社群藝術項目的一部分,幫助他們使用 AI 工具體驗我的創作過程并創作自己的畫作。

我的建議是不要被人工智能裝置吓倒,而隻是開始使用它們:就像任何工具一樣,它們有其優點和缺點。但對我來說,人工智能改變了我的職業生涯。

​​[作者: 吳雄偉]​​

SIDDHARTH MISHRA-SHARMA:尋找偉大的導師

劍橋麻省理工學院粒子實體學博士後研究員。

作為大學生,我在英國劍橋大學做過一些實驗高能實體學和天體實體學的實習。其中包括在瑞士日内瓦附近的歐洲粒子實體實驗室歐洲核子研究中心的幾個夏天。在紐澤西州普林斯頓大學攻讀粒子實體學博士學位期間,我還涉足了機器學習,并在我目前在麻省理工學院的職位上回到了機器學習領域。人工智能工具往往是實體學的一個很好的補充。我們經常使用來自粒子對撞機或望遠鏡的龐大資料集,這些資料集可以産生 PB 級的資料。

例如,假設你有一個龐大的資料集,可以通過我們的銀河跟蹤恒星的運動。暗物質可以對恒星的運動産生有趣的影響,将它們稍微拉向一側或另一側,或者扭曲來自它們的光。因為效果很微妙,很難單獨分析超過 1000 億顆恒星。最終,它變成了一個大資料問題:機器學習方法可以幫助我們識别模式,并且可以擴充以處理龐大的資料集。

而且由于有如此多類型的天文資料集可用——從單個星系的圖像到銀河系的地圖——沒有一種機器學習方法可以有效地用于尋找暗物質的影響。當機器學習開始用于天體實體學時,方法被大規模調整,在新的環境中使用已建立的算法。例如,如果機器學習方法擅長區分貓和狗的圖像,它将适用于區分不同星系的圖像。

繼續閱讀