ScienceAI をスター付きに設定
最新のAI for Science情報を
いち早く入手
写真:ニック・マクグリーヴィー
編集 | 大根の皮
AI for Science と聞いて、まず多くの人が、Alphafold3 や Evo2 といった、ほぼすべての生命分子の構造と機能を予測できるツール、GNoME が220万種の新結晶を発見したことなど、数々の輝かしい成果を思い浮かべるかもしれません。これらの成果は、科学分野におけるAI応用の進歩の過程を代表しています。
しかし、これらの成果は過剰に報道されていないでしょうか?理論を脇に置いて、現実世界における人工知能の実践効果は実際どうなのでしょうか?
今日は、皆さんに珍しい物語を共有したいと思います。
物語の主人公はニック・マクグリーヴィー氏で、昨年プリンストン大学で博士号を取得した物理学者です。
彼はかつて「AIによる物理学の加速」に熱心で、そのために研究テーマを機械学習分野に転向しました。しかし、AI技術を実際の物理問題に応用しようとした際、その結果は彼を大きく失望させました。
皆さんが初めてChatGPTなどのチャットボットを試して、頓珍漢な答えを得たときの反応(せいぜいSNSで文句を言う程度で、それでも使うことになるのですが、手動顔隠し)とは異なり、ニックはPINNを使って偏微分方程式を解いた際に得た教訓を真剣に分析し、その背後に見過ごされがちな方法論的誤りを深く掘り下げました。同時に、これらの誤りが存在する可能性のある科学研究のシナリオを分析し、最終的にいくつかの結論を導き出しました。
これらの結論を平たく言えば、科学界における人工知能の広範な利用は、「科学が恩恵を受ける」というよりも「科学者が恩恵を受ける」側面が強く、研究者の論文が往々にして良いニュースばかりを報告し、失敗を隠す傾向があるため、大量の生存者バイアスが存在します。その結果、この分野は「SNSの修正写真」のようになっています――華やかな成果の裏には、フィルターで隠された失敗や過度に美化された期待が潜んでいるのです。
では、かつて人工知能に熱心だったニックが、なぜこのような結論に至ったのでしょうか?「AIによる科学的発見の加速」は本当に「偽命題」なのでしょうか?ニックが最近発表したある記事に、その手がかりがあるかもしれません。
以下は、ScienceAIがニック・マクグリーヴィー氏の記事を全文翻訳・整理したものです。
2018年、プリンストン大学のプラズマ物理学の博士課程2年生として、私は研究の焦点を機械学習に移すことに決めました。当時はまだ具体的な研究プロジェクトはありませんでしたが、AIを活用して物理学研究を加速させれば、より大きな影響を与えられると考えました。(正直なところ、AI分野の高給の仕事も私を動機付けました。)
最終的に、AIの先駆者ヤン・ルカンが後に「かなりホットなトピック」と呼んだもの、すなわち人工知能を使って偏微分方程式(PDE)を解く研究を選びました。しかし、私が素晴らしいと思っていた研究成果をさらに探求しようとしたとき、AI手法の性能は宣伝されているほど強力ではないことに気づきました。
当初、私は広く引用されているAI手法であるPINNをかなり単純な偏微分方程式に適用しようとしましたが、驚くほど不安定であることがわかりました。
その後、数十本の論文がAI手法が標準的な数値的手法よりも速く偏微分方程式を解けると主張し、場合によっては百万倍も速いとされていましたが、私はこれらの比較のほとんどが偏っていることに気づきました。これらのAI手法を最先端の数値的手法と比較してみると、AIが持っていたいかなる狭義の利点も通常は消滅しました。
この経験により、私はAIが科学を「加速」させ、さらには「根本的に変革する」という主張に疑問を抱き始めました。私たちは本当に、DeepMindが言うところの「AIが科学的発見を可能にする新しい黄金時代」に突入しようとしているのでしょうか?それとも、AIの科学分野における全体的な可能性は、私の専門分野でそうであったように、誇張されているのでしょうか?
他の多くの機関も同様の問題を発見しています。例えば、2023年にDeepMindは220万の結晶構造を発見したと主張し、「人類に知られている安定材料の数を桁違いに拡大した」と述べました。しかし、材料科学者がこれらの生成された化合物を分析したところ、それらが「ほとんどゴミ」であり、論文は「いかなる新材料も生み出していない」と「丁寧に」述べました。
関連リンク:
https://www.nature.com/articles/s41586-023-06735-9 https://journals.aps.org/prxenergy/abstract/10.1103/PRXEnergy.3.011002
さらに、プリンストン大学のコンピュータ科学者アルヴィンド・ナラヤナンとサヤシュ・カプーは、30の分野にわたる648本の論文リストを作成しました。これらの論文はすべて「データリーク(data leakage)」という方法論的誤りを犯していました。どの論文にもデータリークがあり、その結果、結果が過度に楽観的になっていました。彼らは、AIベースの科学研究が「再現性の危機」に直面していると主張しています。
関連リンク:
https://reproducible.cs.princeton.edu/
https://arxiv.org/abs/2405.15828
しかし、過去10年間で、科学研究におけるAIの応用は劇的に増加しました。もちろん、コンピュータ科学への影響が最も顕著ですが、物理学、化学、生物学、医学、社会科学といった他の分野でもAIの急速な導入が見られます。科学出版物全体におけるAIの利用率は、2015年の2%から2022年には8%近くまで増加しました。過去数年間はデータを見つけるのは難しいですが、この継続的な増加傾向は続いていると考える十分な理由があります。
写真:AIを使って研究する科学者が増えている。
はっきりさせておきたいのは、AIが科学的ブレイクスルーを推進できるということです。私が懸念しているのは、ブレイクスルーの規模と頻度です。AIは、既存の研究方向から単一のパラダイムへ、これほど大規模な人材、訓練、時間、資金の投入を正当化するのに十分な可能性を本当に示しているのでしょうか?
科学の各分野ではAIに対する経験が異なるため、議論には慎重であるべきです。しかし、私の経験からのいくつかの教訓は、科学全体に広く適用できると確信しています。
1. 科学者たちがAIを研究に熱心に使うのは、「科学にとって有益だから」というよりは、AIの存在自体が「科学者にとって有益だから」です。
2. AI研究者はほとんど負の結果を発表しないため、「AI」という分野は「生存者バイアス」を経験しています。
3. 発表される肯定的な結果は、AIの可能性について過度に楽観的であることがよくあります。
関連リンク:https://arxiv.org/abs/2412.07727
したがって、私は、AIは科学において全体的に見かけほど成功しておらず、革命的でもない、と考えるようになりました。
結局のところ、AIが何十年にもわたる科学生産性の低下、科学的進歩の停滞(あるいは減速)の傾向を覆せるかどうかはわかりません。誰にもできないと思います。しかし、高度なAI分野で重大な(私の見解ではありそうもない)突破口が開かれない限り、AIは革命的なツールというよりも、科学的進歩のための漸進的で不均一な一般的なツールになるだろうと私は予想しています。
PINNに対する失望
2019年の夏、私は後に私の論文の主題となるものを初めて経験しました。それは人工知能を使った偏微分方程式の解法です。偏微分方程式は、様々な物理システムをシミュレートするための数学方程式であり、偏微分方程式を解く(すなわちシミュレートする)ことは、計算物理学と工学の分野で極めて重要なタスクです。私の研究室では、核融合炉内部や外宇宙の星間物質中のプラズマの振る舞いをシミュレートするために偏微分方程式を使用しています。
PDEの解決に使用されるAIモデルは、AlphaFoldよりもChatGPTに似たカスタムの深層学習モデルです。
私が最初に試した方法は、いわゆる物理情報ニューラルネットワーク(PINN)でした。PINNの概念は最近、数百回引用されている影響力のある論文で提案されました。
関連リンク:
https://www.sciencedirect.com/science/article/abs/pii/S002199918307125
https://github.com/maziarraissi/PINNs
標準的な数値的手法と比較して、PINNはPDEを解くための全く異なるアプローチです。標準的な手法はPDEの解をピクセルの集合(画像やビデオのピクセルなど)として表現し、各ピクセル値の方程式を導出します。対照的に、PINNはPDEの解をニューラルネットワークとして表現し、方程式を損失関数に組み込みます。
まだ指導教官もいない思想のナイーブな大学院生だった私にとって、PINNは計り知れないほど魅力的でした。それらはとてもシンプルで、エレガントで、汎用性があるように見えました。
彼らはまた、良い結果を達成しているようでした。PINNを紹介する論文は、その「有効性」が「一連の古典的な流体問題、量子力学、反応拡散系、非線形浅水波の伝播を通じて証明された」と述べていました。もしPINNがこれらすべての偏微分方程式を解けるなら、私の研究室が関心を持ついくつかのプラズマ物理学の偏微分方程式も確実に解けるだろうと考えました。
しかし、その影響力のある論文の例(一次元のバーガース方程式)を、同様に非常に単純な別の偏微分方程式(一次元のブラソフ方程式)に置き換えると、結果は厳密解とは全く異なるものになりました。
最終的には、多くのチューニングの後、一見正しい結果が得られました。しかし、もう少し複雑な偏微分方程式(例えば、一次元のブラソフ-ポアソン方程式)を試すと、どれだけチューニングしても適切な解を得ることができませんでした。
数週間の失敗の後、私は別の大学の友人に連絡を取り、彼もPINNを試したが良い結果が得られなかったと教えてくれました。
PINNの実験から学んだこと
最終的に、私は問題がどこにあるのかを認識しました。PINN論文の原著者も私と同様に、「特定の設定が、ある方程式では素晴らしい結果を生むが、別の方程式では効果がない場合があることを観察しました。」しかし、PINNがいかに強力であるかを読者に納得させるため、彼らはPINNが失敗した例を一切示しませんでした。
この経験から、いくつかのことを学びました。
第一に、AI研究の表面的な価値を鵜呑みにしないことです。ほとんどの科学者は誰も誤解させたいとは思っていませんが、有利な結果を示す強い動機があるため、誤解されるリスクは依然としてあります。今後は、さらに慎重になり、特に成果が顕著で影響力の大きい論文に対しても、懐疑的な姿勢を保つ必要があります。
第二に、AI手法がいつ失敗したかについての論文はほとんど発表されず、成功したときの論文ばかりが発表されるということです。
PINN論文の原著者は、彼らの手法が解決できなかった偏微分方程式を発表しませんでした。私も、失敗した実験を発表せず、あまり知られていない会議でポスター発表をしただけでした。そのため、それらについて聞いた研究者はほとんどいません。実際、PINNは非常に人気があるにもかかわらず、その失敗モードに関する論文が発表されるまでに4年かかりました。その論文は現在、約千回引用されており、他の多くの科学者もPINNを試して同様の問題を発見したことを示しています。
関連リンク:
https://github.com/nickmcgreivy/PINN/blob/master/APS-Poster-McGreivy-2019.pdf
https://proceedings.neurips.cc/paper/2021/hash/df438e5206f31600e6ae4af72f2725f1-Abstract.html
第三に、私はPINNが自分の求める方法ではないと結論付けました。それらは確かにシンプルでエレガントでしたが、あまりにも信頼性が低く、煩雑で、遅すぎました。
今日現在、6年後、元のPINN論文は14,000回引用され、21世紀で最も引用された数値計算手法の論文となっています。
PINNが偏微分方程式を解く上で標準的な数値手法に劣ることが現在では一般的に認識されていますが、逆問題と呼ばれる別の種類の問題におけるPINNの性能については依然として議論があります。支持者はPINNが逆問題に「特に有効」だと主張していますが、一部の研究者はこれに強く異議を唱えています。
私はどちらの議論が正しいのかわかりません。これまでのPINN研究が何らかの有用な成果を生み出してきたと信じたいですが、いつかPINNを振り返って、それが単なる巨大な引用バブルだったと判明しても、私は驚かないでしょう。
脆弱なベースラインが過度の楽観主義を招く
私の論文では、深層学習モデルを用いて偏微分方程式を解くことに焦点を当てていました。これらのモデルは、従来のソルバーと同様に、PDEの解をグリッドやグラフ上のピクセルの集合として扱います。
PINNとは異なり、このアプローチは私の研究室が関心を持つ複雑な時間依存偏微分方程式において大きな可能性を示しました。最も印象的だったのは、この手法が標準的な数値的手法よりもはるかに高速に、しばしば数桁高速に偏微分方程式を解くことができることを示す論文が次々と発表されたことです。
私と指導教官が最も興奮したのは、流体力学におけるナビエ・ストークス方程式のような偏微分方程式の例でした。私たちが関心を持つ偏微分方程式、例えば核融合炉内のプラズマを記述する方程式も同様の数学的構造を持っているため、同様の加速が見られるかもしれないと考えました。理論的には、これにより私たちのような科学者やエンジニアは、より大規模なシステムをシミュレートし、既存の設計をより迅速に最適化し、最終的に研究のペースを加速させることができます。
その頃には、AI研究においては常に物事が表面通りに良いわけではないと知るほどに私は成熟していました。信頼性や堅牢性が深刻な問題となる可能性があることも知っていました。もしAIモデルがより速いシミュレーション速度を提供できるとしても、これらのシミュレーションの信頼性が低ければ、そのトレードオフは価値があるのでしょうか?当時の私には答えがわからなかったので、その答えを探し始めました。
しかし、これらのモデルをより信頼性の高いものにしようと試み(そしてほとんど失敗に終わった)るうちに、AIモデルが偏微分方程式の加速においてどれほどの可能性を本当に示しているのか疑問を抱き始めました。
いくつかの注目すべき論文によると、AIはナビエ・ストークス方程式を標準的な数値手法よりも桁違いに速く解くとのことでした。しかし、最終的に私が発見したのは、これらの論文で使用されていたベースライン手法が、現在利用可能な最も高速な数値手法ではなかったということです。AIをより高度な数値手法と比較すると、AIはより強力なベースライン手法よりも速くはなく(あるいは、せいぜいわずかに速いだけ)、その狭い利点は通常消失しました。
写真:PDEを解決するために使用されるAI手法を強力なベースラインと比較すると、AIが持っていたいかなる狭義の利点も通常は消失します。
私と指導教官は最終的に、流体力学の偏微分方程式を解くためのAI使用に関する研究を調査したシステマティックレビューを発表しました。標準的な数値的手法よりも優れていると主張する76本の論文のうち、60本(79%)が弱いベースライン手法を使用していることを発見しました。これは、より高度な数値的手法と比較していなかったか、あるいは同等な条件で比較していなかったためです。加速がより大きいと報告された論文はすべて、弱いベースライン手法と比較されており、結果が印象的であるほど、その論文の比較が不公平である可能性が高いことを示唆しています。
関連リンク:https://www.nature.com/articles/s42256-024-00897-5
写真:流体力学偏微分方程式の解法に用いられるAI手法と標準数値手法を比較したシステマティックレビューの結果。負の結果を報告した論文は少なく、正の結果を報告した論文のほとんどは弱いベースラインと比較されていました。
私たちは再び、研究者が負の結果を報告しない傾向があるという証拠を発見しました。この効果は報告バイアスとして知られています。最終的に、PDE解法のためのAI研究は過度に楽観的であると結論付けました。「弱いベースラインは過度に肯定的な結果をもたらし、報告バイアスは負の結果の過少報告につながります。」
これらの発見は、計算科学と工学分野におけるAIに関する議論を引き起こしました。
1. ジョージ・ワシントン大学(GWU)のロレーナ・バルバ教授は、彼女が「大衆を欺く科学機械学習」と呼ぶ劣悪な研究慣行について議論してきましたが、彼女は私たちの研究結果が「計算科学コミュニティのAIの誇大広告と非科学的な楽観主義に対する懸念を裏付ける決定的な証拠である」と考えています。
2. Google Researchで同様の結論に達した独立チームの責任者であるステファン・ホイヤー氏は、私たちの論文を「私がPDEのAIから天気予報や気候モデリングに切り替えた理由をよくまとめている」と評しました。これらはAIがより有望に見える応用分野です。
3. ヨハネス・ケプラー大学リンツ(JKU Linz)の教授であり、「AI駆動型物理シミュレーション」を提供するスタートアップの共同創設者でもあるヨハネス・ブランシュテッター氏は、AIはより複雑な産業応用においてより良い結果を出す可能性があり、「この分野の未来は間違いなく有望で、潜在的な影響力がある」と考えています。
私の意見では、AIは最終的に偏微分方程式の解法に関連するいくつかの応用で役割を果たすかもしれませんが、現状では楽観的な理由はあまり見当たりません。私は、数値手法の信頼性を達成する方法と、AI手法のレッドチーミング(red teaming AI methods)により焦点を当てることを望みます。現在、それらは理論的な保証も、標準的な数値手法が実験的に検証された堅牢性も欠いています。
また、助成機関が科学者たちに、偏微分方程式系のための挑戦的な問題を作成するよう奨励することを望みます。CASPは良い例で、過去30年間にわたってこの分野の研究を刺激し、集中させるのに役立ってきた隔年開催のタンパク質構造予測コンテストです。
AIは科学の発展を加速させるのか?
タンパク質構造(AIが科学的ブレイクスルーを達成した典型的な例)以外にも、AIが科学的進歩を遂げた例としては、以下のようなものがあります。
1. 天気予報:AI予測は、従来の物理ベースの予測と比較して精度が20%向上しました(ただし、解像度はまだ低い)。
2. 創薬:初期データによると、AIによって発見された薬剤は、第I相臨床試験でより大きな成功を収めています(ただし、第II相臨床試験ではそうではない)。もしこの傾向が続けば、エンドツーエンドの薬剤承認率がほぼ2倍になることを意味します。
しかし、AI企業、学術・政府機関、そしてメディアは、AIを有用な科学ツールとしてだけでなく、「科学に革新的な影響を与えるだろう」と考えていると、ますます見なすようになっています。
私はこれらの主張を無視すべきではないと思います。DeepMindによれば、現在のLLMは「人類の科学者が依拠するより深いレベルの創造性や推論能力にはまだ苦戦している」ものの、いずれ高度なAIシステムが研究プロセスを完全に自動化する可能性は考えられます。私はこれが短期的に起こるとは思いませんし、永遠に起こらないとさえ思います。しかし、もしそのようなシステムが作られれば、それが科学を変革し、加速させることは間違いありません。
しかし、私の研究経験から得たいくつかの教訓に基づいて、私は、より伝統的なAI技術が科学的進歩を大幅に加速させるという考えには懐疑的であるべきだと考えます。
AIの科学的意義
AIが科学の発展を加速させるという主張のほとんどは、AI企業やAI研究に従事する科学者から発せられており、彼らはこれらの主張から直接的または間接的に利益を得ています。例えば、NVIDIAのCEOジェンスン・フアンは、「AIが科学的ブレイクスルーを推進する」ことや「科学の発展速度を100万倍に高める」ことについて語っています。経済的利益相反があるため、NVIDIAはAIの科学分野への応用について誇張された主張をすることがよくあります。
科学者によるAIの採用が増加していることは、科学研究におけるAIの有用性を証明していると考えるかもしれません。結局のところ、科学研究におけるAIの使用が指数関数的に増加しているなら、それは科学者がそれを有用だと感じているからに違いありません、そうですよね?
私はあまり確信が持てません。実際、科学者たちがAIに転向するのは、それが科学にとって有益だからというよりも、彼ら自身にとって有益だからだと私は疑っています。
2018年に私がAIに転向した動機を考えてみてください。AIがプラズマ物理学で役割を果たすと心から信じていた一方で、主な動機はより高い給与、より良い仕事の見通し、そして学術的 prestige でした。また、研究室の上層部が技術的な考慮よりもAIの資金調達の可能性に興味を持っていることにも気づきました。
その後の研究では、AIを使用する科学者は、そうでない科学者と比較して、引用数の多い論文を発表する可能性が3倍高いことが判明しました。AIを使用する強力な動機があることを考えると、多くの科学者がそうすることを選択するのは驚くことではありません。
したがって、AIが科学において真に印象的な結果を達成したとしても、それが必ずしも科学に貢献したことを意味するわけではありません。多くの場合、それは単に将来のAI応用の可能性を反映しているに過ぎません。
これは、AI研究に従事する科学者(私自身を含む)が、しばしば逆向きの思考を採用しているためです。私たちはまず問題を特定してから解決策を探すのではなく、まずAIが解決策であると仮定し、次に解決する必要がある問題を探すのです。
しかし、AIで解決できる未解決の科学的課題を特定することは難しいため、この「ハンマーが釘を探す」ような科学スタイルは、研究者がAIの使用に適しているが、すでに解決済みであるか、あるいは新しい科学知識を生み出さない問題を解決することが多いということを意味します。
AIが科学に与える影響を正確に評価するためには、科学そのものを真剣に検討する必要があります。しかし残念ながら、科学文献は科学におけるAIの成果を評価するための信頼できる情報源ではありません。
一つの問題は生存者バイアスです。ある研究者の言葉を借りれば、AI研究では「負の結果がほとんど発表されない」ため、私たちは通常、科学におけるAIの成功だけを目にし、その失敗を見ることはありません。しかし、負の結果がなければ、科学に対するAIの影響を評価しようとする私たちの試みは、しばしば歪められます。
再現性の危機について研究した人なら誰でも知っているように、生存者バイアスは科学界の大きな問題です。多くの場合、原因はスクリーニングプロセスにあり、統計的に有意でない結果が科学文献からフィルタリングされます。
例えば、医学研究におけるz値の分布は以下の通りです。z値が-1.96から1.96の間であることは、結果が統計的に有意ではないことを示します。これらの値付近の明らかな不連続性は、多くの科学者がこれらの値の範囲内の結果を出版しなかったか、統計的有意性の閾値に達する前にデータを修正したかのいずれかを示唆しています。
問題は、研究者が負の結果を公表しない場合、医師や一般の人々が医療処置の有効性を過大評価する可能性があるということです。
写真:医学研究における100万を超えるz値の分布。負の結果(z値が-1.96から1.96の間)が大幅に欠落しています。
同様のことがAI科学の分野でも起こっていますが、選択プロセスは統計的有意性に基づいているのではなく、提案された手法が他の手法よりも優れているか、または何らかの新しいタスクを成功裏に完了したかに基づいています。これは、AI科学の分野の研究者はAIの成功をほとんど常に報告し、AIが失敗したときに結果を発表することはめったにないことを意味します。
第二の問題は、たとえ発表されたとしても、特定の方法論的落とし穴がしばしば、科学におけるAIの応用について過度に楽観的な結論を導き出すことです。これらの落とし穴の詳細と深刻さは分野によって異なるようですが、ほとんどはデータリーク、弱いベースライン、選択的採用、誤報の4つのカテゴリーに分類できます。
この過度な楽観主義の傾向の原因は複雑ですが、核心的な問題は、AIモデルを評価する者もその評価から利益を得るという利益相反にあるようです。
これらの問題は十分に悪いように思われます。私は、栄養科学における驚くべき結果を扱うのと同じように、AI科学分野における印象的な結果に対しても本能的に懐疑的な態度で接することを推奨します。
さて、物語は終わりです。
皆さんに何か啓示があったでしょうか。コメント欄にあなたの意見を残してください。
関連コンテンツ:https://www.understandingai.org/p/i-got-fooled-by-ai-for-science-hypeheres
人工知能 × [生物学 神経科学 数学 物理学 化学 材料]
「ScienceAI」は、人工知能と他の最先端技術および基礎科学との学際的な研究と統合された発展に焦点を当てています。
ぜひフォローしてスターを付けてください。そして、右下の「いいね」と「見てる」ボタンをクリックしてください。
「原文を読む」をクリックして、専門家コミュニティに参加し、より多くの交流・協力の機会やサービスを入手してください。