AI生成模型:超越數據觀測與計算機模擬的第三條科學探索之路?

時間:2019-03-22
AI生成模型:超越數據觀測與計算機模擬的第三條科學探索之路?

導語

最先進的人工智能算法已經開始在探測星系的演化、計算量子力學波函數、探索新的化合物等領域施展拳腳。那麼,還有沒有那種無法自動化而只能由科學家完成的工作?

編譯:集智俱樂部翻譯組

來源:quantamagazine

原文題目:

How Artificial Intelligence Is Changing Science

如今的物理學和天文學實驗會產生海量的數據,已經沒有人或團隊能夠跟進所有的這些數據了。其中一些數據每天以TB級的規模增加,而且這個趨勢不會減弱。在二十一世紀 20 年代中期射電望遠鏡 Square Kilometer Arra 將投入使用,它每年產生的數據量和整個互聯網的數據量一樣多。

面對數據洪流,許多科學家開始求助於人工智能。只需要少量的人工輸入,人工智能系統(如神經網絡)就能夠在數據海洋中漫遊,識別異常,挖掘出人類尚未發現的模式。

當然,利用計算機來輔助科學研究的歷史可以追溯到約 75 年前,然而人類幾千年前就在手工調查研究數據來尋找其中的有意義的模式。但是,近期一些科學家認為以機器學習、人工智能為代表的新技術能以一種全新的模式去進行科研工作。其中一種被稱為生成模型的方法,能從對觀測數據的諸多解釋中找到最可信的理論,更為重要的是,該方法在研究中無需預先編入對於系統可能起作用的物理過程。其擁護者認為,生成模型的創新程度足可以被視為理解宇宙的潛在的“第三種方法”。

如果我們忘卻所有的關於天體物理學的知識。僅依靠數據本身,我們能在多大程度上重新發現這些知識?
——Kevin Schawinski

在傳統上,我們是通過觀測來了解自然的。回想一下,開普勒就是通過研究第谷的行星位置表,辨識潛在的行星運行模式,才得以推斷出行星是沿橢圓軌道運行的。同樣的,科學可通過模擬來獲得進步。一位天文學家可能會模擬銀河系及其鄰近的仙女座星系的運動,並預測它們將在幾十億年後碰撞。觀測和模擬都有助於科學家生成假設,然後用進一步的觀測來檢驗假設,而生成模型不同於這兩種方法。

瑞士聯邦理工學院的天文物理學家 Kevin Schawinski 也是一位生成模型的積極支持者。他認為:“生成模型是介於觀測和模擬之間的第三種方法,這是解決問題的另一種方式。”

AI生成模型:超越數據觀測與計算機模擬的第三條科學探索之路?

Kevin Schawinski 是一名天體物理學家,他經營著一家名為 Modulos 的人工智能公司,他認為一種名為生成模型的技術提供了第三種瞭解宇宙的方式。

一些科學家僅僅把生成模型及其它新技術當作傳統科研中的工具,但是大多數研究者都認為 AI 的影響力巨大,並且在科學研究領域會發揮越來越大的作用。費米國家加速器實驗室的天體物理學家 Brian Nord 使用人工神經網絡來研究宇宙。他擔心沒有什麼是不能通過自動化完成的事情,“這個推測倒是有點令人恐慌。”

來自“生成”的探索

從研究生畢業時起,Schawinski 就因用數據驅動科學研究而聞名。在攻讀博士學位期間,他面對的任務是,根據星系的外觀數據對數千個星系進行分類。因為沒有什麼現成的軟件能幫助他完成這項工作,他決定用眾包的方式完成這項工作——於是,銀河動物園(Galaxy Zoo)公民科學項目誕生了。

從 2007 年開始,普通的電腦用戶只要記錄下他們推測的星系最佳歸類,就能幫助到天文學家。通過多數票勝出來判定,通常能帶來正確的分類結果。

這是一個成功的項目,但 Schawinski 也注意到, AI 讓這個模式過時了——今天,一個具有機器學習和雲計算背景的天才科學家只需要花費一個下午就能完成這個工作。

在 2016 年,Schawinski 把目光投向了生成模型,這個強大的新工具。本質上來說,生成模型是在求解,當給定條件 X 和觀測結果 Y 時,概率 P(X,Y) 有多大。這個方法已經被證明是非常有效的。

生成模型示例
假定給生成模型提供一組標註了年齡的人臉圖像,通過計算機程序對這些訓練數據的學習, 生成模型就能在"老臉"和“皺紋”間建立起關聯。最終,這樣的訓練好的模型可以“衰老”任意一張給定的人臉圖像,換而言之,該模型能夠預測任何年齡對臉帶來的物理變化。

生成模型中最為著名的就是生成對抗網絡(GAN)。經過充分的訓練後,GAN 模型能夠修復損壞和像素缺失的圖像,也能讓模糊的圖像變得清晰。該模型通過競爭(對抗)來學習推斷缺失的信息,這個神經網絡的一部分被稱作生成模型(generator):生成虛擬的數據;另一部分被稱為判別模型(discriminator):把生成出來的虛假數據和真是數據分割開來。兩個部分交替訓練,逐步優化(類似於博弈)。

或許,你已經看過最近流傳甚廣的GAN生成的假面孔。正如那個標題所言“這些人並不存在卻又真實得嚇人”。

AI生成模型:超越數據觀測與計算機模擬的第三條科學探索之路?

上面看到的臉孔都不是真實的,上面的 A 列,和左側的 B 列都是由生成對抗網絡(GAN)使用真實的面部元素構建的。然後,GAN 將 A 中的面部的基本特徵(性別,年齡和臉形)與 B 中的面部的精細特徵(頭髮顏色、眼睛顏色)相結合,構建出了上圖表格中的所有人臉圖像。

潛在空間

概括地說,生成模型獲得數據(大多數是圖像),並把他們分解成抽象的基本要素——科學家將其稱為數據的“潛在空間”。算法能控制潛在空間中的元素,以此來探究這些元素如何影響原始的數據。這個方法有助於揭示該系統運作的物理過程。

潛在空間是一個抽象的難以想象的概念。不過我們可以做一個類比:當你在試圖確定一個人臉的性別時,你的大腦可能在做什麼呢?也許會注意到人的髮型、鼻子的形狀,甚至在運用一些你無法用言語描述的判斷模式。同樣的,計算機程序也在數據中尋找顯著的特徵。即便計算機並非不知道什麼是性別,什麼是小鬍子,但如果我們提供給機器學習系統的數據集標註了“男性”和“女性”,並且一部分人還有一個標籤叫“小鬍子”,計算機能快速地推斷出其中的關聯性。

生成模型與星系演化

12月發表在《天文學與天體物理學》(Astronomy & Astrophysics)上的一篇論文中,Schawinski 與他在蘇黎世聯邦理工學院的同事 Dennis Turp 和 Ce Zhang 使用生成模型來研究星系在演化過程中所經歷的物理變化。

論文題目:

Exploring galaxy evolution with generative models

論文下載:

https://arxiv.org/pdf/1812.01114.pdf

因為他們使用的軟件與 GAN 相似,但其在對潛在空間處理的技術與 GAN 有所差異,所以從技術角度來說這不是 GAN。他們的模型創建了人工數據集,去測試假設的物理過程。比如說,他們想知道恆星形成的“淬熄”(形成速率快速下降)與星系環境密度的增加之間的關係。

對 Schawinski 來說,關鍵問題是僅從數據中能挖掘出多少和恆星與星系演變相關的信息。“讓我們忘卻所有的關於天體物理學的知識。僅依靠數據本身,我們能在多大程度上重新發現這些知識?”

首先,星系的圖片被壓縮至他們的潛在空間,然後 Schawinski 在這個空間中調整元素,使其能對應上星系的特定環境變化,比如周圍物質的密度。這樣就有了一個假設生成器。通過重構這個星系,讓大量原本處於低密度環境中的星系處於高密度環境中以此來看看帶來了什麼不同。

這三位研究者注意到隨著星系從低密度環境走向高密度環境,它們的顏色會變得更紅,恆星也變得更加集中。Schawinski 指出這一點與現有的星系觀測相吻合,問題是,為什麼會這樣?

Schawinski 說,後續的工作還沒有實現自動化,“人類必須參與其中,那麼,什麼樣的物理原理可以解釋這種效應?”對於這個過程,可能有兩種解釋,一是在高密度環境中,星系更紅是因為其中包含了更多的塵埃;或者是因為恆星的形成減少了(換句話說,恆星更老了)。

現在有了生成模型,這兩種思路都能接受檢驗。改變與與塵埃和恆星形成率相關的潛在空間元素,就能觀測這種改變對星系顏色的影響。Schawinski 說:“答案很顯然,星系更紅是因為恆星形成率在下降,而不是因為塵埃。因此,我們應該採納這個解釋。”

AI生成模型:超越數據觀測與計算機模擬的第三條科學探索之路?

利用生成模型,天體物理學家可以研究星系如何從低密度環境走向高密度環境,以及這些變化背後的物理原理。

生成模型相較於傳統方式的優勢

這種方法與傳統的模擬方法相近,但與之有關鍵的差別。Schawinski 表示:“模擬本質上是由假設驅動的。也就是說,我們自認為已經洞悉了觀測現象背後的物理法則。所以,我們把恆星形成規律、暗物質行為的原理等等這些我們自認為正確的假設放在一起,模擬運行。但是,模擬環境真的與實際情況吻合嗎?”。他用生成模型所做的事情與模擬完全相反,“我們不知道任何事情,不做任何假設,我們希望數據本身能告訴我們可能會發生什麼。”

生成模型在這項研究中取得的成功並不意味著天文學家和研究者就是多餘的。但這似乎提醒研究者們——僅僅掌握了大量數據的人工智能系統就能夠完成對天體物理學的學習。Schawinski 說:“這不是完全自動化的科學,但這意味著我們至少有能力去構建部分工具,使科學過程自動化。”

雖然生成模型非常強大,但這是否真的代表了一種新的科學研究方法還有待商榷。

對於紐約大學和 Flatiron 研究所的宇宙學家 David Hogg 來說,這項技術令人印象深刻,但充其量也只是一種從數據中提取模式特徵的複雜方法——這是天文學家幾個世紀以來都在做得事情。換而言之,這是觀測、分析的高級形式。

和 Schawinski 相同,Hogg 的工作也充分應用人工智能;他一直在利用神經網絡來對恆星進行基於光譜特徵的分類,並使用數據啟動的模型來推斷恆星的其他物理屬性。但是他認為他的工作和 Schawinski 的一樣,都是經過檢驗的科學。Hogg 表示:“我不認為這是第三種方法。只是我們這個社群在對數據處理的方法上更加複雜而已。特別的是,我們越來越善於將數據與數據進行比較。但是依我看來,我的工作仍然是在做觀測。”

人工智能:

勤奮而“難以捉摸”的科研助手

無論在概念上是否有創新性,人工智能和神經網絡已經顯然在當代天文學和物理學研究中發揮了關鍵作用。在海德堡理論研究所工作的物理學家 Kai Polsterer 領導著一個天體信息學小組,這個小組主要關注以數據為中心的天體物理學研究新方法。從星系數據集中提取紅移信息曾經是一項艱鉅的任務,而現在他們小組使用機器學習算法就能解決這個問題。

Polsterer 認為這些基於基於人工智能的新系統是“勤奮的助手”,可以連續處理數據數個小時而不抱怨單調無聊,不抱怨工作條件。這些系統可以完成所有枯燥乏味的繁重工作,研究者就能脫身去做“又酷又有趣的科學工作”。

Polsterer 警告說,這些系統並不是完美的,算法只能去做他們被訓練過的事情,系統對輸入的數據是“無感覺的”。給 AI 系統一張星系圖片它可以估算其紅移和年齡,但是你給同一個系統一張自拍照或者一張臭魚爛蝦的照片,它也會照方抓藥估算出一個(錯誤的)年齡。Polsterer 認為,人類科學家的監督工作非常重要。工作還是要回到研究者身上,研究者才是要負責解釋這些現象的人。

就這一點而言,費米實驗室的 Nord 警告道,神經網絡不僅要給出結果,也要給出相關的誤差線,如果在科學研究中,你做了一個測量但沒有報告相關的誤差估計,就沒有人會認真對待這個結果。

就像許多的人工智能研究員一樣,Nord 也關注神經網絡給出的結果的可解釋性,通常來說,一個 AI 系統在給出結果時無法明確地表示出這個結果是如何獲得的。

然而,並不是每個人都覺得結果不透明是一個必須關注的問題,法國CEA Saclay理論物理研究所的研究員 Lenka Zdeborová 指出,人類的直覺同樣難以捉摸,給你看一張貓的圖片,你能立刻認出這是一隻貓,但是你並不知道你是怎樣做到這一點的,從這個角度上來說,人的大腦就是個黑盒。

並不僅僅是天體物理學家和宇宙物理學家在向人工智能助力、數據驅動的科學研究發展。Perimeter 理論物理研究所和安大略滑鐵盧大學的量子物理學家 Roger Melko 已經使用神經網絡來解決該領域中的一些最棘手最重要的問題,例如多粒子系統的波函數的數學表示。

因為波函數的數學形式可能會隨著它所描述的系統中的粒子數量呈指數級增長,這被 Melko 稱為是“指數維度詛咒”,在這樣的工作中 AI 就是不可缺少的組成部分了。

這個困難類似於在國際象棋和圍棋中找到最好的走法:玩家會試圖多看一步,想想對手會出什麼招,然後再選擇自己的最佳應對策略。但是隨著思考步數的增加,複雜性也大為增加。

當然, AI 已經攻克了這兩個領域。 1997 年 5 月 11 日, 深藍計算機在國際象棋領域戰勝了人類;2017年4月10日 ,AlphaGo 戰勝了柯潔,AI 在圍棋領域戰勝了人類。Melko 認為,量子物理學也面臨同樣的問題。

機器的思想

無論是 Schawinski 所聲稱的他找到的是科學研究的“第三方法”,還是如 Hogg 所說的這“僅僅是傳統上的觀測和數據分析”。我們可以明確的是, AI 正在改變科學探索的方式並且在加速科學發現,值得探討的是,這場 AI 革命在科學領域能走多遠?

有時候,人們會對“人工智能科學家”的成就大肆褒獎。十年前,一個名叫亞當的 AI 機器人化學家研究了麵包師傅的酵母的基因組,並找出了負責製造某種特定氨基酸的是哪些基因。(亞當觀察缺少某些特定基因的酵母菌落,並與擁有這些基因的菌落的行為進行比較,由此找到差異完成研究。)

當時Wired雜誌的標題是:機器人獨立完成科學發現。

https://www.wired.com/2009/04/robotscientist/

最近,格拉斯哥大學的化學家 Lee Cronin 在使用機器人去隨機混合化學物質,由此來觀測會形成什麼樣的化合物,並通過質譜儀、核磁共振機和紅外分光計實時監控反應,這個系統最終能學會預測哪些組合的化學反應最為劇烈。Cronin 表示即使這個系統不能帶來新的發現,機器人系統也能讓化學家的研究效率提高 90%。

去年,蘇黎世聯邦理工學院的另一組科學家們在訓練神經網絡從數據中推導物理定律。他們的系統類似於“機器人開普勒”,利用從地球上觀測到的太陽和火星的位置信息,重新發現了日心說;並且通過觀測小球碰撞模型發現了動能守恆。因為物理定律通常會有多種表述形式,科學家們想知道這個系統能否提供種更簡潔的方法來思考已知的物理定律。

這些都是 AI 啟動、助力科學探索的例子。儘管在每一個例子中,這些新方法的革命性都會收到爭議。但在這個信息浩如煙海且高速增長的時代,最值得商榷的問題可能是:僅從數據中,我們能獲得多少信息?

在 《The Book of Why: The New Science of Cause and Effect》一書中,計算機科學家 Judea Pearl 和科學作家 Dana Mackenzie 斷言到:數據“愚蠢至極”。他們寫到:關於因果性的問題“永遠不能僅憑數據去尋找答案”。

“每當你看到以無模型的方式分析數據的論文或研究時,你可以肯定的是這項研究成果僅僅是總結,或許做了轉述,但絕對不是在解釋數據。”Schawinski 對 Pearl 的觀點抱有同感,“只使用數據”這個想法有點類似於“稻草人”。他也從未生成以這樣的方式做因果推斷。他想說的是:“和我們通常的工作相比,我們可以用數據多做點事。”

另一個經常聽到的觀點是:科學需要創造力。

要擁有創造力,你必須厭惡無聊,然而我認為電腦就永遠不會感受到無聊。
——Kai Polsterer

可是到目前為止,我們還不知道,如何將創造力編入計算機。(Cronin 的機器人化學家只是在簡單地嘗試科研工作,似乎不能算是特別有創造力)Polsterer 認為:“創建一套理論,有理有據的理論,我認為需要創造力,而創造力離不開人類。”

然而,創造力來自何方呢?Polsterer 懷疑這和不喜歡無聊有關,這恐怕是機器所沒有的體驗。“要擁有創造力,你必須厭惡無聊,然而我認為電腦就永遠不會感受到無聊。”然而,“創造力”、“靈感”卻常常用來描述深藍、AlphaGo 這樣的 AI 程序。我們在描述機器的思想時的困難映射出我們在描述自己思維過程時的困難。

Schawinski 最近離開了學術界,去了私人企業。他現在經營著一家名為 Modulos 的初創公司,該公司僱傭了許多聯邦理工學院的科學家。根據該公司的網站介紹,該公司位於“人工智能和機器學習這股風潮的風眼中”。無論當前人工智能技術和成熟的人工智能之間存在多大的差距,他和其他專家都認為機器已經準備好了去完成更多的科學家的工作。不過,AI 的侷限性還有待考證。

Schawinski 暢想道:“在可以預見的未來,有沒有可能去製造出一臺能過發現物理定律、數學原理的機器,甚至超越當今最聰明的人類的能力極限?科學的未來終將被人力所不能及的機器所掌握麼?這是一個好問題,但我不知道答案。”

翻譯:Leo

審校:惠惠 Freya

編輯:王怡藺

原文地址:

https://www.quantamagazine.org/how-artificial-intelligence-is-changing-science-20190311/

推薦閱讀

Nature機器智能:破解因果推斷難題

物理學家要失業?機器學習能自學量子力學!

做科研做到絕望是一種什麼樣的體驗?

科研投入越來越多,重大成果的產出卻越來越少?

要不要加入我們?一起影響世界!

AI生成模型:超越數據觀測與計算機模擬的第三條科學探索之路?

集智俱樂部QQ群|877391004

商務合作及投稿轉載|swarma@swarma.org

◆ ◆ ◆

搜索公眾號:集智俱樂部

加入“沒有圍牆的研究所”

讓蘋果砸得更猛烈些吧!

相關推薦