被「AI for Science」的炒作騙了?有位科學家遭遇了慘痛的教訓

將 ScienceAI 設為星標

第一時間掌握

新鮮的 AI for Science 資訊

圖片

圖片

圖示:Nick McGreivy。

編輯 | 蘿蔔皮

說起 AI for Science,可能大家首先會想到累累碩果,例如 Alphafold3、Evo2 等工具可以預測幾乎所有生命分子的結構、功能,GNoME 可以發現 220 萬種新晶體……這些成果代表了 AI 在科學領域應用的進步歷程。

但是,這些成果有沒有被誇大報導呢?拋開理論,人工智慧在現實世界中的實踐效果究竟如何呢?

今天在這裡給大家分享一個不同尋常的故事。

故事的主人公名叫 Nick McGreivy,去年剛剛在普林斯頓大學(Princeton University)獲得博士學位,是一名物理學家。

他曾經熱衷於用「AI 加速物理學」,並因此將研究課題的重點轉向了機器學習領域。但是,當他嘗試將 AI 技術應用於實際物理問題時,結果卻令他大失所望。

與大家第一次嘗試 ChatGPT 等聊天機器人得到智障答案時的反應不同(最多也就發社交平台罵它一通,該用還是得用啊,手動捂臉),Nick 認真分析總結了他用 PINN 求解偏微分方程時所得到教訓,並深入探究了這件事背後容易被人忽略的一些方法論錯誤,同時對這些錯誤可能存在的科學研究場景進行了分析,最終給出了一些結論。

把這些結論翻譯成人話就是:人工智慧在科學界廣泛使用,更多是「科學家受益」而非「科學受益」,加上研究者的論文往往報喜不報憂,存在大量倖存者偏差,導致這個領域像「朋友圈精修圖」——光鮮成果背後藏著被濾鏡過濾的失敗和過度美化的期待。

那麼,是什麼讓曾經熱衷於人工智慧的 Nick 得出這樣的結論呢?「AI 加速科學發現」真的是「偽命題」嗎?Nick 最近發布的一篇文章也許能找到些線索。

圖片

以下為 ScienceAI 對 Nick McGreivy 文章的全文翻譯整理。

2018年,作為普林斯頓大學等離子體物理學二年級博士生,我決定將研究重點轉向機器學習。我當時還沒有具體的研究項目,但我認為利用人工智慧加速物理學研究可以帶來更大的影響。(坦白說,人工智慧領域的高薪工作也激勵了我。)

我最終選擇研究人工智慧先驅 Yann LeCun 後來稱之為「確實相當熱門的課題」:利用人工智慧求解偏微分方程 (PDE)。然而,當我試圖在自認為很棒的研究成果的基礎上繼續探索時,卻發現人工智慧方法的表現遠不像宣傳的那樣強悍。

起初,我嘗試將一種被廣泛引用的人工智慧方法 PINN 應用於一些相當簡單的偏微分方程,但發現它出乎意料地脆弱。

後來,儘管數十篇論文聲稱人工智慧方法可以比標準數值方法更快地求解偏微分方程——在某些情況下甚至快上百萬倍——但我發現,這些比較大多是偏頗的。當我將這些人工智慧方法與最先進的數值方法進行同等比較時,人工智慧所擁有的任何狹義的優勢通常都消失了。

這段經歷讓我開始質疑人工智慧即將「加速」甚至「徹底改變」科學的說法。我們真的即將進入 DeepMind 所說的「人工智慧賦能科學發現的新黃金時代」嗎?還是說,人工智慧在科學領域的整體潛力被誇大了——就像我所在的學科領域一樣?

許多其他機構也發現了類似的問題。例如,2023 年,DeepMind 聲稱發現了 220 萬個晶體結構,這標誌著「人類已知穩定材料的數量級擴展」。但當材料科學家分析這些生成的化合物時,他們發現它們「大部分都是垃圾」,並「禮貌地」表示該論文「沒有得到任何新材料」。

相關連結:

https://www.nature.com/articles/s41586-023-06735-9 https://journals.aps.org/prxenergy/abstract/10.1103/PRXEnergy.3.011002

此外,普林斯頓大學計算機科學家 Arvind Narayanan 和 Sayash Kapoor 整理了一份涵蓋 30 個領域的 648 篇論文的清單,這些論文均犯了名為「數據洩露(data leakage)」的方法論錯誤。每篇論文都存在數據洩露,導致結果過於樂觀。他們認為,基於人工智慧的科學研究正面臨「可重複性危機」。

相關連結:

https://reproducible.cs.princeton.edu/

https://arxiv.org/abs/2405.15828

然而,過去十年來,人工智慧在科學研究中的應用急劇上升。當然,計算機科學的影響最為顯著,但其他學科——物理學、化學、生物學、醫學和社會科學——也見證了人工智慧的快速應用。在所有科學出版物中,人工智慧的使用率從 2015 年的 2% 增長到 2022 年的近 8%。雖然很難找到過去幾年的數據,但我們有充分的理由相信,這種持續上升地增長仍在持續。

圖片

圖示:越來越多的科學家使用 AI 進行研究。

需要明確的是,人工智慧可以推動科學突破。我擔心的是突破的規模和頻率。人工智慧是否真的展現出足夠的潛力,足以支撐如此大規模的人才、培訓、時間和資金投入,從現有的研究方向轉向單一範式?

每個科學領域對人工智慧的體驗都不同,因此我們應謹慎地進行論述。然而,我確信,我的經驗中的一些教訓可以廣泛適用於整個科學領域:

1、越來越多的科學家們正熱衷於使用人工智慧進行科研,與其說是因為它「有利於科學」,不如說是因為它的存在本身就「有利於科學家」。

2、由於人工智慧研究人員幾乎從不發表負面結果,因此「人工智慧」學科正經歷著「倖存者偏差」。

3、發表的積極成果往往對人工智慧的潛力過於樂觀。

相關連結:https://arxiv.org/abs/2412.07727

因此,我開始相信,人工智慧在科學上總體上並沒有看上去那麼成功和具有革命性。

歸根結底,我不知道人工智慧能否扭轉數十年來科學生產力下降、科學進步停滯(甚至減速)的趨勢。我認為沒有人能做到。但除非高級人工智慧領域出現重大(在我看來不太可能)突破,否則我預計人工智慧將更多地成為一種漸進式、不均衡的科學進步的常規工具,而非革命性的工具。

對 PINN 的失望經歷

2019 年夏天,我初次體驗了後來成為我論文主題的內容:用人工智慧求解偏微分方程。偏微分方程是用於模擬各種物理系統的數學方程,求解(即模擬)偏微分方程是計算物理和工程領域中極其重要的任務。我的實驗室使用偏微分方程來模擬等離子體的行為,例如聚變反應堆內部以及外太空星際介質中的等離子體行為。

用於解決 PDE 的 AI 模型是自定義深度學習模型,同 AlphaFold 相比,它與 ChatGPT 更類似。

我嘗試的第一個方法是所謂的物理信息神經網路(PINN)。PINN 的概念最近在一篇頗具影響力的論文中被提出,該論文已獲得數百次引用。

相關連結:

https://www.sciencedirect.com/science/article/abs/pii/S002199918307125

https://github.com/maziarraissi/PINNs

與標準數值方法相比,PINN 是一種完全不同的求解 PDE 的方法。標準方法將 PDE 解表示為一組像素(例如圖像或視頻中的像素),並為每個像素值推導方程。相比之下,PINN 將 PDE 解表示為神經網路,並將方程代入損失函數。

作為一個甚至還沒有導師的思想天真的研究生,PINN 對我來說有著無比的吸引力。它們看起來如此簡單、優雅、通用。

它們似乎也取得了不錯的結果。介紹 PINN 的論文表示:它們的「有效性」已「通過一系列經典流體問題、量子力學、反應擴散系統以及非線性淺水波的傳播得到了證明」。我想,如果 PINN 能夠解決所有這些偏微分方程,那麼它們肯定也能解決我實驗室關注的一些等離子體物理偏微分方程。

但是,當我用另一個同樣極其簡單的偏微分方程(一維弗拉索夫方程)替換那篇影響深遠的論文(一維 Burgers 方程)中的一個示例時,結果看起來與精確解完全不同。

最終,經過大量的調優,我得到了一些看似正確的結果。然而,當我嘗試稍微複雜一些的偏微分方程(例如一維弗拉索夫-泊松方程)時,無論怎麼調優都無法得到合適的解。

幾週失敗後,我給另一所大學的朋友發了消息,他告訴我他也嘗試過使用 PINN,但沒有取得好的結果。

從 PINN 實驗中學到的東西

最終,我意識到問題出在哪裡。PINN 論文的原作者和我一樣,「觀察到某些特定的設置對一個方程能產生很棒的結果,但對另一個方程卻可能無效」。但是,為了說服讀者相信 PINN 有多麼強悍,他們沒有展示任何 PINN 失敗的例子。

這次經歷教會了我一些事情。

首先,要謹慎對待人工智慧研究的表面價值。大多數科學家並不想誤導任何人,但由於他們有強烈的動機去呈現有利的結果,所以仍然有被誤導的風險。展望未來,我必須更加謹慎,甚至(或者說尤其)對那些成果顯著、影響深遠的論文保持懷疑態度。

其次,人們很少發表關於人工智慧方法何時失敗的論文,而只發表關於它們何時成功的論文。

PINN 論文的原作者並沒有發表他們的方法無法解決的偏微分方程。我也沒有發表我那些失敗的實驗,只是一個不太知名的會議上做了海報展示。因此,很少有研究人員聽說過它們。事實上,儘管 PINN 非常受歡迎,但四年後才有人發表一篇關於其失效模式的論文。那篇論文現在已被引用近千次,這表明許多其他科學家也嘗試過 PINN 並發現了類似的問題。

相關連結:

https://github.com/nickmcgreivy/PINN/blob/master/APS-Poster-McGreivy-2019.pdf

https://proceedings.neurips.cc/paper/2021/hash/df438e5206f31600e6ae4af72f2725f1-Abstract.html

第三,我得出結論,PINN 不是我想要的方法。它們確實簡單優雅,但也太不可靠、太繁瑣、太慢了。

截至今天,六年後,原始 PINN 論文已被引用 14,000 次,使其成為 21 世紀被引用次數最多的數值方法論文。

儘管現在人們普遍認為 PINN 在求解偏微分方程方面通常不如標準數值方法,但 PINN 在解決另一類被稱為逆問題的問題上的表現如何仍存在爭議。支持者聲稱 PINN 對逆問題「特別有效」,但一些研究人員對此提出了強烈質疑。

我不知道爭論的哪一方是正確的。我願意相信所有這些 PINN 研究已經取得了一些有用的成果,但如果有一天我們回頭看 PINN,發現它只是一個巨大的引用泡沫,我也不會感到驚訝。

基線薄弱導致過度樂觀

我的論文專注於使用深度學習模型求解偏微分方程,這些模型與傳統求解器類似,將偏微分方程的解視為網格或圖形上的一組像素。

與 PINN 不同,這種方法在我實驗室關注的複雜、時間相關的偏微分方程上展現出了巨大的潛力。最令人印象深刻的是,一篇又一篇的論文證明了這種方法能夠比標準數值方法更快地求解偏微分方程——通常快幾個數量級。

最讓我和導師興奮的例子是流體力學中的偏微分方程,例如納維-斯托克斯方程。我們認為我們可能會看到類似的加速,因為我們關心的偏微分方程——例如描述聚變反應堆中等離子體的方程——具有類似的數學結構。理論上,這可以讓像我們這樣的科學家和工程師模擬更大的系統,更快地優化現有設計,並最終加快研究的步伐。

到那時,我已經足夠成熟,知道在人工智慧研究中,事情並不總是像表面那麼美好。我知道可靠性和穩健性可能是嚴重問題。如果人工智慧模型能夠提供更快的模擬速度,但這些模擬的可靠性卻更低,那麼這種權衡是否值得?我當時並不知道答案,於是開始著手尋找答案。

但當我嘗試——並且大多以失敗告終——使這些模型更加可靠時,我開始質疑人工智慧模型在加速偏微分方程方面究竟展現出多大的潛力。

根據一些備受矚目的論文,人工智慧求解納維-斯托克斯方程的速度比標準數值方法快幾個數量級。然而,我最終發現,這些論文中使用的基線方法並非目前最快的數值方法。當我將人工智慧與更先進的數值方法進行比較時,我發現人工智慧並不比更強的基線方法更快(或者最多只是略快一點)。

圖片

圖示:當將用於解決 PDE 的 AI 方法與強基線進行比較時,無論 AI 具有何種狹義的優勢,通常都會消失。

我和我的導師最終發表了一篇系統綜述,探討了使用人工智慧求解流體力學偏微分方程的研究。我們發現,在 76 篇聲稱優於標準數值方法的論文中,有 60 篇(79%)使用了較弱的基線方法,這要么是因為它們沒有與更先進的數值方法進行比較,要么是因為它們沒有在平等基礎上進行比較。那些加速比較大的論文都與弱基線方法進行了比較,這表明結果越令人印象深刻,論文的比較就越有可能不公平。

相關連結:https://www.nature.com/articles/s42256-024-00897-5

圖片

圖示:一項系統性回顧研究的結果,比較了用於求解流體力學偏微分方程的人工智慧方法與標準數值方法。報告負面結果的論文很少,而報告正面結果的論文大多與較弱的基線方法進行了比較。

我們再次發現的證據表明,研究人員傾向於不報告負面結果,這種效應被稱為報告偏差。我們最終得出結論,AI 用於 PDE 求解的研究過於樂觀:「薄弱的基線會導致過於積極的結果,而報告偏差會導致負面結果的漏報。」

這些發現引發了關於計算科學和工程領域人工智慧的爭論:

1、喬治華盛頓大學 (GWU) 教授 Lorena Barba 曾在她所謂的「愚弄大眾的科學機器學習」中討論過糟糕的研究實踐,她認為我們的研究結果是「確鑿的證據,支持了我們計算科學界對人工智慧的炒作和不科學的樂觀主義的擔憂」。

2、谷歌研究院一個獨立得出類似結論的團隊的負責人 Stephan Hoyer 將我們的論文描述為「對我為什麼從偏微分方程的人工智慧轉向天氣預報和氣候建模的一個很好的總結」,這些是人工智慧看起來更有前景的應用。

3、Johannes Brandstetter 是林茨約翰肯塔基大學 (JKU Linz) 的教授,同時也是一家提供「人工智慧驅動的物理模擬」的初創公司的聯合創始人。他認為,人工智慧可能會在更複雜的工業應用中取得更好的效果,並且「該領域的未來無疑充滿希望和潛在的影響」。

在我看來,人工智慧最終可能會在某些與求解偏微分方程相關的應用中發揮作用,但目前我並沒有看到太多樂觀的理由。我希望看到更多關注點放在如何達到數值方法的可靠性以及紅隊人工智慧方法(red teaming AI methods)上;目前,它們既缺乏理論保證,也缺乏標準數值方法經實驗驗證的穩健性。

我還希望資助機構能夠激勵科學家為偏微分方程組創建挑戰性問題。CASP 就是一個很好的例子,這是一個兩年一度的蛋白質結構預測競賽,在過去 30 年裡,它幫助激勵並集中了該領域的研究。

人工智慧會加速科學發展嗎?

除了蛋白質結構(人工智慧實現科學突破的典型例子)之外,人工智慧取得科學進步的一些例子包括:

1、天氣預報,與傳統的基於物理的預報相比,人工智慧預報的準確率提高了 20%(儘管分辨率仍然較低)。

2、藥物研發:初步數據顯示,AI 發現的藥物在 I 期臨床試驗中取得了更大的成功(但 II 期臨床試驗中則不然)。如果這一趨勢持續下去,這意味著端到端藥物審批率將提高近兩倍。

但人工智慧公司、學術和政府組織以及媒體越來越多地將人工智慧不僅視為一種有用的科學工具,而且認為它「將對科學產生變革性影響」。

我認為我們不應該忽視這些說法。儘管根據 DeepMind 的說法,目前的 LLM「仍然難以達到人類科學家所依賴的更深層次的創造力和推理能力」,但假設先進的人工智慧系統有朝一日或許能夠完全自動化科研流程。我不認為這種情況會在短期內發生——甚至永遠不會發生。但如果這樣的系統被創造出來,毫無疑問它們將改變並加速科學的發展。

然而,根據我的研究經驗中的一些教訓,我認為我們應該對更傳統的人工智慧技術能夠顯著加速科學進步的想法持懷疑態度。

對人工智慧的科學啟示

大多數關於人工智慧加速科學發展的論調都來自人工智慧公司或從事人工智慧研究的科學家,他們直接或間接地從這些論調中獲益。例如,NVIDIA 首席執行官黃仁勳就曾談論「人工智慧將推動科學突破」和「將科學發展速度提高一百萬倍」。由於存在經濟利益衝突,NVIDIA 經常對人工智慧在科學領域的應用發表誇張的言論。

你可能會認為,科學家越來越多地採用人工智慧,這證明了人工智慧在科學研究中的實用性。畢竟,如果人工智慧在科學研究中的使用呈指數級增長,那一定是因為科學家覺得它有用,對吧?

我不太確定。事實上,我懷疑科學家們轉向人工智慧,與其說是因為它有利於科學,不如說是因為它對他們自己有利。

想想我在 2018 年轉向人工智慧的動機。雖然我真心認為人工智慧可能在等離子體物理學中發揮作用,但我主要還是為了更高的薪水、更好的工作前景和學術聲望。我還注意到,實驗室裡的高層通常對人工智慧的融資潛力更感興趣,而不是技術方面的考慮。

後續研究發現,使用人工智慧的科學家更有可能發表高被引論文,平均引用次數是其他科學家的三倍。鑑於使用人工智慧的動力如此強烈,如此多的科學家選擇這樣做也就不足為奇了。

因此,即使人工智慧在科學領域取得了真正令人印象深刻的成果,也並不意味著它對科學做出了貢獻。更多時候,這僅僅反映了人工智慧未來應用的潛力。

這是因為從事人工智慧研究的科學家(包括我自己)經常採用逆向思維。我們不是先發現問題,然後嘗試尋找解決方案,而是先假設人工智慧就是解決方案,然後再尋找需要解決的問題。

但由於很難確定可以使用人工智慧解決的開放性科學挑戰,這種「用錘子尋找釘子」的科學風格意味著研究人員通常會解決適合使用人工智慧但已經被解決或不會創造新的科學知識的問題。

為了準確評估人工智慧對科學的影響,我們需要切實地審視科學本身。但遺憾的是,科學文獻並非評估人工智慧在科學領域成就的可靠來源。

一個問題是倖存者偏差。用一位研究人員的話來說,由於人工智慧研究「幾乎沒有發表負面結果」,我們通常只看到人工智慧在科學上的成功,而看不到其失敗。然而,如果沒有負面結果,我們評估人工智慧對科學影響的嘗試通常會被扭曲。

任何研究過重複危機的人都知道,倖存者偏差是科學界的一個重大問題。通常,罪魁禍首是一個篩選過程,在這個過程中,統計上不顯著的結果被從科學文獻中過濾掉。

例如,醫學研究中的z值分佈如下所示。z 值在 -1.96 到 1.96 之間表示結果不具有統計學顯著性。這些值附近的明顯不連續性表明,許多科學家要么沒有發表介於這些值之間的結果,要么在達到統計學顯著性的閾值之前對數據進行了修改。

問題在於,如果研究人員未能公布負面結果,可能會導致醫生和公眾高估醫療治療的有效性。

圖片

圖示:醫學研究中超過一百萬個 z 值的分佈。陰性結果(z 值在 -1.96 到 1.96 之間的結果)大多缺失。

類似的事情也發生在人工智慧科學領域,儘管選擇過程並非基於統計顯著性,而是取決於所提出的方法是否優於其他方法,或是否成功完成某些新任務。這意味著,人工智慧科學領域的研究人員幾乎總是報告人工智慧的成功,而很少在人工智慧失敗時發表結果。

第二個問題是,即使成功發表,某些方法論陷阱也常常會導致人們對人工智慧在科學領域的應用得出過於樂觀的結論。不同領域中陷阱的細節和嚴重程度似乎有所不同,但大多數陷阱可以歸為以下四類:數據洩露、基線薄弱、選擇性採納和誤報。

雖然造成這種過度樂觀傾向的原因很複雜,但核心問題似乎在於利益衝突,即評估人工智慧模型的人也從這些評估中獲益。

這些問題似乎已經夠糟糕了,我鼓勵人們以對待營養科學中令人驚訝的結果的方式,本能地持懷疑態度來對待人工智慧科學領域中令人印象深刻的結果。

好了,故事看完了。

不知道對大家有沒有什麼啟示,歡迎在評論區留下你的看法。

相關內容:https://www.understandingai.org/p/i-got-fooled-by-ai-for-science-hypeheres

人工智能 × [ 生物 神經科學 數學 物理 化學 材料 ]

「ScienceAI」關注人工智慧與其他前沿技術及基礎科學的交叉研究與融合發展。

歡迎關注標星,並點擊右下角點讚和在看。

點擊閱讀原文,加入專業從業者社區,以獲得更多交流合作機會及服務。

主標籤:人工智慧與科學

次標籤:人工智慧應用報告偏差偏微分方程科學研究


上一篇:重磅!OpenAI聯合蘋果傳奇設計大佬Jony Ive官宣新公司「io」:劍指全新AI交互硬體

下一篇:一文搞懂:RAG、Agent與多模態的產業實踐與未來趨勢

分享短網址