ChatGPTがいかにNLP分野全体を破壊したか:オーラルヒストリー

Quanta誌は最近、自然言語処理分野の研究者19名にインタビューを行い、彼らの対話を通じて、「Attention機構」とTransformerの登場以来、NLP分野全体が驚きから危機、そして急速な再構築へと大きく転換した経緯を整理し、技術パラダイム変革の背後にある人物の視点と重要な節目を再現しました。

以下、翻訳全文です。原文はこちら:

https://www.quantamagazine.org/when-chatgpt-broke-an-entire-field-an-oral-history-20250430/

科学者にパラダイムシフト、特にリアルタイムでのそれを認識させるのは難しい問題です。結局のところ、真に時代を画する知的な更新には、何十年もかかることがあります。しかし、「パラダイムシフト」という言葉を使わなくても、自然言語処理(NLP)という分野が大きく変化したことを認識できます。

自然言語処理は、文字通り、コンピュータが人間の言語の複雑さを処理できるようにすることです。それは工学と科学を融合した分野であり、その歴史は1940年代にさかのぼります。自然言語処理は、スティーブン・ホーキングに「話す」ことを可能にし、Siriに「知性」を与え、ソーシャルメディア企業に広告を正確にターゲットする方法を提供しました。また、大規模言語モデルが生まれた源泉でもあります――NLPはこの技術の発明を助けましたが、その爆発的な成長と変革力は、この分野の多くの人々にとって予想外でした。

2019年、Quanta誌は当時の画期的なNLPシステムBERTについて報道しましたが、「大規模言語モデル」という言葉は一度も触れませんでした。わずか5年半後には、LLMはどこにでも存在し、それが触れるあらゆる科学分野で新しい発見、変革、そして論争を引き起こしています。そして、良くも悪くも、あるいはその中間でも、その影響が最も強く感じられた分野は、自然言語処理に他なりません。それを経験した人々にとって、それはどのようなものだったのでしょうか?

Quanta誌は、この物語を語るために、現役および元NLP研究者19名にインタビューしました。専門家から学生まで、終身在職権を持つ学者からスタートアップ創業者まで、彼らは彼らの世界を変えた一連の瞬間――夜明けの認識、恍惚とした出会い、そして少なくとも一度の「存在論的危機」――を語りました。私たち自身のものも。

プロローグ:大規模モデルの誕生

2017年までに、ニューラルネットワークは自然言語処理分野の現状をすでに変えていました。その夏、Googleの研究者たちは、「Attention Is All You Need」という画期的な論文で、新しいタイプのニューラルネットワークであるTransformerを発表しました。それはすぐにこの分野を支配するようになりました。しかし、誰もがそれを予見したわけではありませんでした。

・ エリー・パヴリック(ブラウン大学計算機科学・言語学助教授、Google DeepMind研究科学者):Googleはニューヨークでワークショップを開き、学術界の人々と研究者たちを交流させました。その論文の著者の一人であるヤコブ・ウスツコライトがそこで発表しました。彼は、このモデルは言語学的な知見を一切考慮に入れていないと明確に述べました。彼はある種冗談めかして、私たちが下したこれらの恣意的な決定がいかにばかげているかを示しますが、それがどれほど優れているかも見てください、と言いました。その時点で、ニューラルネットワークは支配的になりつつあり、人々は非常に懐疑的で抵抗がありました。当時の姿勢は、これはすべて手品だ、というものでした。

・ レイ・ムーニー(テキサス大学オースティン校人工知能研究所所長):それは面白かったですが、すぐに大きな突破口として見えたものではありませんでしたよね?世界が翌日変わったわけではありませんでした。私は概念的に、それは言語を処理するための正しいモデルではないと本当に思っていました。私は、この概念的に間違ったモデルを膨大なデータで訓練すると、どれほど素晴らしいことができるかを認識していませんでした。

・ ナズニン・ラジャニ(Collinear AI創業者兼CEO、当時はレイ・ムーニーのもとで博士課程の学生):私たちのNLP読書グループで「Attention Is All You Need」という論文を読んだ時のことをはっきりと覚えています。実際にはレイが議論を主導しており、私たちは非常に活発な議論をしました。Attentionという概念はしばらく前から存在していたので、もしかしたらそれがレイが乗り気でなかった理由かもしれません。しかし私たちは、わあ、これは転換点になりそうだ、と思いました。

・ R・トーマス・マッコイ(イェール大学言語学科助教授):その夏、私の研究チームのメンバーが具体的に議論していたのを覚えています。「これらのTransformerを研究すべきか?」と。そして結論は、「いや、明らかに一時的な流行だ」というものでした。

・ クリストファー・ポッツ(スタンフォード大学言語学科主任):Transformerの論文は私のレーダーに載っていませんでした。今読んでも、非常に控えめな言葉で表現されています。あの論文を読んで、そこから何が出てくるかを誰が見抜くのは難しかったと思います。そのビジョンを見るには、BERTチームのような人々が必要でした。

GoogleのオープンソースTransformerモデルであるBERTが2018年10月にリリースされてすぐ(OpenAIのあまり知られていないモデルGPTとともに)、様々な言語処理テストで従来の性能記録を急速に破りました。その後「BERTブーム」が続き、研究者たちはこれらのモデルがどのように機能するかを理解しようと奮闘し、同時にベンチマーク(NLPの進捗を測定するために使用される標準化されたテスト)でお互いを上回ろうと競いました。

・ アナ・ロジャーズ(コペンハーゲンIT大学コンピュータ科学准教授、ACLローリングレビュー編集長):BERTは一気にブレイクし、誰もがBERTに関する論文を書いていました。私の研究室でこのような議論をしたのを覚えています。「よし、BERTに取り組まなければならない、それが今の分野が進んでいることだから。」若いポストドクターとして、私の態度はただ、「よし、これが分野が進んでいることだ。分野が間違っていると私が言う立場ではない」というものでした。

・ ジュリアン・マイケル(Scale AI安全・評価・キャリブレーションラボ主任、当時はワシントン大学の博士課程の学生):BERTが出た後、多くのプロジェクトがお蔵入りになりました。その後起こったのは、ベンチマークの進捗が誰よりもはるかに速くなったことです。だから人々は、「もっと多くのベンチマークが必要だ、より難しいベンチマークが必要だ、テストできるすべてのものに対してベンチマークを行うんだ」となりました。

この「ベンチマーク狂騒曲」を気晴らしと見る者もいれば、その先を見据える者もいました。

・ サム・バウマン(Anthropicテクニカルパーソン、当時はニューヨーク大学准教授):私はしばしばベンチマーク提出物を見て、それが合理的であることを確認する責任者でした。システムをハッキングしている人がいないかを確認していました。だから私はすべての提出物を見ましたが、ますます多くのものが単に古いアイデアや単純なアイデアをスケールアップしているだけであることに気づきました。

・ ジュリアン・マイケル:それはスケール競争になりました。これらのモデルのサイズを大きくすることで、あらゆるベンチマークでうまくやる能力が高まるのです。そして私は、「うーん、それは本質的に面白くないな」と思っていました。

・ サム・バウマン:当時は、「新しい突破口がなければ、TransformerモデルはBERTよりずっと良くならないだろう」という仮説がありました。しかし、この進歩の主要な決定要因がスケールであることは、私にとってますます明らかになってきました。これらの非常に強力な汎用システムが得られるだろうと。物事は面白くなり、ステークスはさらに高くなるだろうと。だから私は、「よし、これが数年間続いたらどうなるだろう?」という疑問に非常に関心を持つようになりました。

NLPのバラ戦争(2020年~2022年)

Transformerモデルが様々なNLPテストで「人間のベンチマーク」に近づき(さらには超え)るにつれて、その能力をどのように解釈するかについての静かな議論が熱を帯びてきました。2020年、これらの議論――特に「意味」と「理解」についての議論――は、大規模言語モデルをタコに例えた論文で最高潮に達しました。

・ エミリー・M・ベンダー(ワシントン大学言語学科教授、2024年計算言語学会会長):私はTwitterで絶えず議論に巻き込まれていました。それは疲れるものでした。ある議論は、BERTを使ってミューラー報告書を何らかの方法で編集解除することについてでした。それはひどいアイデアだと私は思っていました。そして、「いや、いや、いや、LLMは本当に理解している」と言う人々の流れがありました。同じ議論が何度も繰り返されました。私は計算言語学者のアレックス・コラーとこの問題について話していて、彼は言いました。「これらの議論をきちんとした学術論文として書き上げよう。そうすればTwitterの意見だけでなく、査読付きの研究になるだろう。そうすれば議論は収まるだろう。」しかし、議論は収まりませんでした。

ベンダーとコラーの「タコテスト」は、統計的なパターンを通じて言語形式を模倣するだけのモデルは、決して言語の意味を理解できないと主張しました――人間のメッセージで観察されたパターンをどんなに巧妙に再現しても、陸上生活がどのようなものかを決して知らない「確率的タコ」のように。

・ サム・バウマン:その主張――「ここには見るべきものはない」、ニューラル言語モデルは基本的に私たちが注目すべきものではなく、これはほとんど誇大宣伝だ――それは非常に二極化を引き起こしました。

・ ジュリアン・マイケル:私もこの議論に参加しました。私はその論文への反論を書きました――私が書いた唯一のブログ記事で、論文とほぼ同じ長さです。私は著者の意見を正直に述べようと努力し、エミリーにも草稿を見てもらい、私の誤解を訂正してもらいました。しかし、私が容赦なく敵対的でありながら笑顔でいることは明らかでした。

・ エリー・パヴリック:私にとって、これらの「理解戦争」は、この分野が本当にアイデンティティ危機を迎え始めたことを意味しました。

一方、現実世界の規模(思想実験ではなく)によって駆動される別の種類のアイデンティティ危機も進行中でした。2020年6月、OpenAIはGPT-3をリリースしました。これはその前のバージョンより100倍以上大きく、より高性能なモデルでした。ChatGPTはまだ登場していませんでしたが、多くのNLP研究者にとって、GPT-3の出現はすべてを変えました。今や、ベンダーが言った「タコ」が現実のものとなったのです。

・ クリストファー・カリソン=バーチ(ペンシルベニア大学コンピュータ・情報科学教授):私はGPT-3ベータ版への早期アクセスを得て、いじり回しました。私は最近の博士課程の学生たちが学位論文のために行っていたすべてのことを試しましたが、ただただ驚愕しました――なんてことだ、学生が5年かかったことを、私は1ヶ月で再現できるようです。私のキャリアで触れたり深く調査したりしたすべての古典的なNLPタスクが、まるで動くかのようでした。それは信じられないほど深遠な感覚であり、私は時々それを職業上の存在論的危機と表現しています。

・ ナズニン・ラジャニ:私はGPT-3で遊びましたが、それは非常に危険でした。例えば、「女性に投票を許可すべきですか?」と尋ねると、「いいえ」とか答えるようなものです。しかし、3、4行の自然言語で全く新しいタスクを教えることができたという事実は、完全に驚異的でした。

・ クリストファー・ポッツ:私のグループの誰かがGPT-3の早期APIアクセスを得ました。私は今いる場所と全く同じオフィスに立って、私は論理的な問題をいくつか質問するつもりだ、それは失敗するだろう、と言ったのを覚えています。私は、それがあなたが感銘を受けることを単に記憶しているだけであり、仕掛けであることを示すつもりだ、と。私は何度も試しましたが、その後、認めなければなりませんでした。「よし、これは絶対に仕掛けではない」と。

・ チェ・イェジン(スタンフォード大学コンピュータ科学教授、2022年マッカーサーフェロー):それはまだ非常に欠陥がありました。GPT-3が出力する多くの常識的な知識は本当に壊れていました。しかし、GPT-2はほぼゼロ、全く役に立たず、GPT-3はおそらく3分の2は大丈夫で、それは衝撃的な驚きでした。

・ R・トーマス・マッコイ:GPT-3の論文は、まるでゲーム・オブ・スローンズの最終回のように、誰もがそれを読んで話し、噂していました。

・ リアム・ダガン(ペンシルベニア大学博士課程4年生):それは秘密を共有しているような感じでした。それを他の人と共有すると、彼らは驚嘆するでしょう。私はただ人々を私のコンピューターに連れて行って見せました。

・ ジュリアン・マイケル:BERTはこの分野における段階的転換でしたが、GPT-3は衝撃の価値においてより直感的でした。言語を生成するシステム――私たちは皆エリザ効果を知っていますよね?それは私たちの心により強い反応を引き起こしました。そして、それは私たちが行っている実際の研究にとってより変革的でした――感じたことは、「原則として、これを使えば何でもできる」ということでした。それは何を意味するのでしょうか?それはパンドラの箱が開けられたようなものでした。

OpenAIはGPT-3のソースコードを公開しませんでした。その規模、破壊力、そして企業の秘密主義は、多くの研究者を不安にさせました。

・ サム・バウマン:それは当時いくつかの論争を引き起こしました。なぜならGPT-3は学術的なNLPコミュニティの外から来ていたからです。しばらくの間、主要な結果がGPT-3に関する論文は論争の的となりました。それは、まるで有料でインタラクトしなければならないプロプライエタリ製品のようなものであり、それは非常に異質な感じでした。

・ アナ・ロジャーズ:私は別のベンチマークをすることを考えていましたが、ただ思いました、「何の意味があるのだろう?」GPT-3が文字シーケンスを続けられるかどうかを示すことが、何を示すのでしょうか?それはもはや機械学習の研究課題ですらありません。それは単なる無料の製品テストです。

・ ジュリアン・マイケル:当時、「APIサイエンス」という言葉が造られ、それはある種の不満をもって使われました。「私たちは製品で科学をやっているのか?それは科学ではない、再現性がない。」しかし、他の人々は言いました。「見ろ、私たちは最先端を行かなければならない、これが現実だ。」

・ タル・リンゼン(ニューヨーク大学言語学・データ科学准教授、Google研究科学者):学術界の人々は何をすべきか分からなくなった時期がありました。

この対立する態度は、Microsoft(GPT-3の独占アクセス権を得た)やGoogleのような企業内でも存在しました。

・ カリカ・バリ(マイクロソフトリサーチインド主任研究員):マイクロソフトのリーダーシップは、GPT-3について非常に早期に私たちに話してくれました。それはまるでロケットに乗って地球から月へ打ち上げられているような感じでした。それは興奮しましたが、非常に速く動いていたので、正しい方向に進んでいるか確認するために、すべてのナビゲーション機器を常にチェックしなければなりませんでした。

・ エミリー・M・ベンダー:ティムニット・ゲブル(当時はGoogleのAI倫理研究者)がTwitterのダイレクトメッセージで私に尋ねました。言語モデルをスケールアップすることによる可能性のある負の影響について、何か研究を知っていますか?彼女はGoogle内部で、OpenAIはより大きなモデルを持っている、我々もスケールアップしなければならない、という状況を見ていました。そして彼女の仕事は、「これは何が問題なのか?」と問うことでした。

ベンダーはゲブルら同僚とともに、「確率的オウムの危険性について:言語モデルは大きすぎるか?」という論文を共著しました。この論文は、形式と意味、方法とスケールについての分野の核となる(そしてますます敵対的になっている)議論に道徳的な緊急性を注入し、NLPにおいて一部の人々が「内戦」と表現したものを引き起こしました。

・ カリカ・バリ:エミリーが述べたいくつかの点は、私たちが考えるべき全く正当なことでした。それは、NLPコミュニティが世界の最も使われている言語以外の言語が無視されている事実に突然気づき、それまで誰もこのようなことについて話していなかった年でした。しかし私が気に入らなかったのは、NLPコミュニティ全体がこの論文を支持するか反対するかで非常に二極化したことです。

・ R・トーマス・マッコイ:あなたはLLM支持者ですか、それとも反対者ですか?この質問は当時どこにでもありました。

・ ジュリー・カリニー(スタンフォード大学コンピュータ科学科博士課程2年生):若い研究者として、私は陣営分けを非常にはっきりと感じました。当時、私はプリンストン大学の学部生でしたが、私が尊敬していた異なる人々――プリンストンでの私の研究指導教官であるクリスティアナ・フェルバウムや他の大学の教授たち――が異なる陣営にいたのをはっきりと覚えています。私はどちらの側につくべきか分かりませんでした。

・ カリカ・バリ:それは肯定的な影響もありましたが、尊敬する人々が敵対しているのを見るのは非常にストレスでした。私はこれが原因でTwitterを辞めました。これにひどく動揺しました。

・ リアム・ダガン:博士課程の学生として、私はこのようなプレッシャーを感じました。「発表する研究が2、3年後に影響力を持つことを望むなら、どちらかの側を選ばなければならない」と。なぜなら、それが物事の見方を大きく左右したからです。私は両方の側の意見を読み、しばしば言語学者からの非常に強い反発を一部のプラットフォームで見たり、Twitterでスケールアップ賛成の意見を見たりしました。

・ ジェフ・ミッチェル(サセックス大学コンピュータ科学・人工知能助教授):それが非常に論争的になり、少し不健全な感じがしました。

研究が加速するにつれて、一部の人々は分野の学術的な議論がひどく悪化したと感じました。状況を改善するために、NLP研究コミュニティは2022年夏にそのメンバーに対して、「言語構造は必要である」「スケールアップは事実上あらゆる重要な問題を解決するだろう」「AIは近い将来、革命的な社会変化を引き起こす可能性が高い」といった「30の潜在的に論争的な声明」について調査を行いました。

・ サム・バウマン:スケールアップに関する初期の研究を行っていた業界グループは、学術的なNLP研究者と密接につながっていませんでした。彼らは外部者と見なされ、両グループ間の理解と認識にこの隔たりが生まれました。なぜなら、彼らはあまり話していなかったからです。

・ リアム・ダガン:その年、ACL(計算言語学会、分野のトップ会議)で大きな調査が配布されました。私にとっては初めての会議で、多くのビッグネームに会えるのでとても興奮していました。携帯でその調査を受け取り、私は「これらの質問はただただワイルドに見える」と思いました。

・ ジュリアン・マイケル:分野はすでに危機に瀕しており、この調査によってそれがより深く認識されました。

・ リアム・ダガン:あなたは分野の断裂、異なる陣営が形成されているのを見ることができました。純粋なLLM技術をかなり不信に思う言語学陣営、そして中間にいる人々、そしてスケールアップを通じて普遍的な人工知能を強く信じる人々がいました。それは私には少し極端に見えました。私はChatGPTが登場するまで、それをそれほど真剣に捉えていませんでした。

ChatGPTの「惑星」規模の衝撃(2022年11月~2023年)

2022年11月30日、OpenAIは実験的なチャットボットChatGPTをリリースし、それは小惑星のようにNLP分野に衝突しました。

・ イジー・ベルタジー(アレン人工知能研究所主席研究科学者、SpiffyAIチーフサイエンティスト兼共同創業者):たった1日で、多くの研究者が取り組んでいた問題の多くが、もはや無意味になりました。

・ クリストファー・カリソン=バーチ(ペンシルベニア大学コンピュータ・情報科学教授):私はそれが来るとは予想していませんでしたし、誰も予想できなかったと思います。しかし、GPT-3の経験があったので、心理的には準備ができていました。

・ R・トーマス・マッコイ(イェール大学言語学科助教授):特定の研究プロジェクトが他の人の似たような成果に先を越されたり、取って代わられたりすることは比較的よくあります。しかし、ChatGPTは特定のプロジェクトを先取りしたのではなく、NLP研究のカテゴリ全体を面白くなくしたり、実用的でなくしたりしました。学術界の人々にとって、多くの最先端のNLP研究方向は、もはや面白くなくなったか、もはや実用的でなくなりました。

・ サム・バウマン(Anthropicテクニカルパーソン):分野全体が完全に再編成された感じでした。

・ イジー・ベルタジー:EMNLP(自然言語処理における経験的手法に関する会議、もう一つのトップ会議)の期間中、私は本当にパニックと混乱を感じました。会議は12月に開催され、ChatGPTのリリースからわずか1週間後でした。誰もがまだ動揺しており、ある人は「これが最後のNLP会議になるのだろうか?」とさえ言いました。昼食時、カクテルアワー、廊下の会話で、誰もが同じ質問をしていました。「私たちはもはや何の研究をすればいいのか?」

・ ナズニン・ラジャニ(Collinear AI創業者兼CEO):私はEMNLPで基調講演をしたばかりでした。数日後、Hugging Faceの上司で共同創業者の一人であるトム・ウルフからメッセージが来て、「ねえ、近いうちに電話できるか?」と。彼は、会社が研究チームの何人かを解雇したこと、そして残りの人々はプリトレーニングかポストトレーニングのどちらかをやっていると私に言いました――それは基本的に、基盤モデルを構築するか、それらの上にChatGPTのような指示に従うモデルを構築するかのどちらかです。そして彼は、「まだHugging Faceにいたいなら、これらの道のどちらかを選ぶことを勧めます」と言いました。それはHugging Faceの企業文化とは反対のように感じました。それ以前は、やりたい研究はほぼ自由にできました。その変化は本当に不快でした。

ChatGPTの出現は、基礎レベルからの警戒すべき現実ももたらしました。ある主要なNLP専門家は、ChatGPTがリリースされた数週間後、学部生の授業でそれを身をもって体験しました。

・ クリスティアナ・フェルバウム(プリンストン大学言語学・コンピュータ科学教授相当講師):新学期が始まったばかりでした。授業の前に、まだ知らない学生が私のところに来て、私の名前が書かれた、見覚えのあるタイトルの論文を見せて、「先生の授業を本当に受けたかったんです。先生の研究を見ました。この論文を見つけました。いくつか質問があるのですが、答えていただけますか?」と言いました。もちろん私は「どうぞ」と言いました。誰かが私の研究を見てくれたことを嬉しく思いました。私は論文を見て、何についてのものか思い出そうとしていました。すると彼が突然爆笑しました。私は「何がそんなに面白いんだ?」と尋ねました。彼は言いました。「この論文はChatGPTが書いたんです。私はそれに『クリスティアナ・フェルバウムのスタイルで論文を書きなさい』と言っただけで、これが出てきました。」授業は10分後に始まる予定だったので、私は逐語的には読んでいませんでしたが、私が書いただろうものと非常によく似ていました。私は完全に騙されました。私は教室に入り、頭の中は「どうしよう?」という思いでいっぱいでした。

翌年、博士課程の学生たちも新たな現実と向き合わなければなりませんでした。ChatGPTは彼らの研究プロジェクトを、そして潜在的にキャリアを脅かしました。様々な人々が異なる程度の成功でそれに対処しました。

・ クリストファー・カリソン=バーチ:終身在職権があれば少し楽です。しかし若い学術家にとっては、危機はより直接的で激しいものでした。サポートグループを結成した博士課程の学生もいました。

・ リアム・ダガン(ペンシルベニア大学博士課程4年生):私たちはただお互いに泣きつき、慰め合っていました。私の年上のクラスメートの多く、学位論文を始めた人たちは、研究方向を完全に変えなければなりませんでした。以前の研究アイデアの多くは、もはや学術的に面白く感じられませんでした。今は、言語モデルを適用するだけで解決しました。奇妙なことに、辞めた人は一人も知りませんが、間違いなく怠けたり、非常に否定的で皮肉になったりした人は知っています。

・ レイ・ムーニー:私の大学院生の一人は実際に退学を検討しました。彼らは、おそらく本当の行動は業界にあり、学術界は死んでいると感じていたからです。私は思いました、「彼らは正しいかもしれない」。彼らが最終的に留まることを決めてくれて嬉しかったです。

・ ジュリー・カリニー(スタンフォード大学コンピュータ科学科博士課程2年生):私は2023年に博士課程を始めましたが、非常に不確実な感じでした。どのような研究方向へ進むべきか全く分かりませんでしたが、誰もが同じ状況でした。私はただその事実を受け入れ、機械学習の基礎を固めようとしました。移りゆくトレンドである可能性のあるLLMだけに焦点を当てるのは馬鹿げていました。

一方、シアトルから南アフリカまで、NLP研究者たちは洪水のような注目を浴びましたが、すべてが肯定的だったわけではありません。

・ ヴコシ・マリヴァテ(プレトリア大学ABSA UPデータサイエンス主席、Masakhane共同創業者):2023年、私は大規模言語モデルについて何度講演したか数えきれません。それ以前は何年も、この分野に注目してもらうために奮闘し、「ここには面白いものがあるよ」と言っていました。それが突然、「これが何であるか教えてください」というリクエストで一杯になりました。

・ サム・バウマン:この分野は比較的無名なものから非常にホットなものへと変わり、私は同じ月にローマ法王と大統領の両方に会った人々と昼食をとるまでになりました。

・ エミリー・M・ベンダー(ワシントン大学言語学科教授、2024年計算言語学会会長):1月から6月まで、私は数えましたが、メディアから連絡がなかったのはたった5営業日だけでした。それは絶え間なかったです。

・ エリー・パヴリック(ブラウン大学計算機科学・言語学助教授、Google DeepMind研究科学者):ChatGPTが登場する前は、ジャーナリストとやり取りしたのはおそらく一度か二度だけだったと思います。ChatGPTが登場してからは、60ミニッツに出演しました。私の仕事は完全に変わりました。

・ クリストファー・カリソン=バーチ:私の仕事は、少数の大学院生や分野の他の研究者向けの純粋な学術的な仕事から、突然科学コミュニケーションという重要な責任を負うものへと変化したと感じました。私は議会で証言することも招待されました。

・ リアム・ダガン:博士課程2年生として、私は突然インタビューで意見を求められました。最初はクールでした。「今は専門家だ!」と。しかし、それは面白くなくなり、ストレスになりました。「分野は将来どうなると思いますか?」と聞かれるようなことです。私に分かるはずがありません。なぜ私に聞くのですか?しかし私はただ自信を持って答えていました。それはただばかげているだけです。何千もの論文があり、誰もがホットな見解を持っていますが、ほとんどの人は何が起こっているのか理解していません。

・ サム・バウマン:一方では、この分野はかつてないほど注目を浴び、他の分野の多くの素晴らしい人々がNLPに注目し始めました。もう一方では、大量のノイズがありました。人々は絶えずそれについて話し、多くの見解はただ思いつきで、意味をなしませんでした。それは同時にエキサイティングであり、フラストレーションもたまるものでした。

・ ナズニン・ラジャニ:その年はクレイジーなジェットコースターのようでした。

2023年12月、ChatGPTがリリースされて1年後、EMNLPの年次会議がシンガポールで再び開催されました。

・ リアム・ダガン:以前よりもずっと熱かったです。arXiv(プレプリントプラットフォーム)には膨大な量の研究が流れ込んでいました。会議場を歩くと、プロンプトエンジニアリングや言語モデルの評価についての会話ばかりでした。以前とは全く違う感じでした。まるで良い研究アイデアがあるよりも多くの人がそこにいるかのようでした。それはNLP会議というより、AI会議のように感じました。

変化の渦中(2024年~2025年):大規模言語モデル研究、資金、そしてAIへの移行

NLP分野にとって、大規模言語モデルの影響は明らかであり、人々はその影響が何を意味するかについて異なる見解を持っています。

・ R・トーマス・マッコイ:AIシステムの能力を研究する場合、訓練データにアクセスできるシステムを研究すべきです。それは今のこの分野の主流のやり方ではありません。その観点から、私たちは厳密な科学者というより、「LLM研究者」のようなものです。

・ エリー・パヴリック:私はこれをしていることを完全に認めます。私は今、講演をするときに、「今、私たちは皆言語モデルを研究しています」と言います。これが近視眼的に見えることは分かっています。しかし長期的な研究プログラムの観点から見ると、それは必要だと感じます。私にとって、LLMが何をしているのかを理解しない限り、言語を本当に理解することはできません。

・ カリカ・バリ(マイクロソフトリサーチインド主任研究員):西洋主導の技術変化があるたびに、哲学的な議論が起こります。しかし、グローバルサウスのほとんどの地域では、私たちは「この技術を今、私たちのためにどう機能させるか」にもっと関心があります。小さな例として、ChatGPTが登場したとき、インドの多くの初期の考えは、生成モデルを英語で機能させ、それを翻訳システムを通して他の言語に渡すことでした。しかし機械翻訳は非常に文字通りであり、もし数学の問題でジョンとメアリーがキーライムパイ(実際はライムパイだが、直訳するとエビパイになり理解が歪む)を分け合っている場合、それがヒンディー語に翻訳されると、インドのほとんどの人はキーライムパイが何であるか知りません。モデル自体がこれらのことを理解しない限り、それを文化的に同等のものにどのように翻訳できるでしょうか?それが私がこれらの問題を解決する方法について考えることに非常に興味を持つようになりました。

・ イジー・ベルタジー(アレン人工知能研究所主席研究科学者、SpiffyAIチーフサイエンティスト兼共同創業者):分野を進歩させるためには、これらの大規模で高価な成果物を構築しなければならないことに気づきます。それは大型ハドロン衝突型加速器のようなものです。これらの成果物なしには、実験物理学で進歩を遂げるのは難しいです。私はアレン人工知能研究所(Ai2)で働けて幸運です。そこはほとんどの学術研究室よりも多くのリソースを持っています。ChatGPTは、OpenAIと他のすべての人々との間のギャップがどれほど大きいかを明確にしました。だから直後、私たちはこれをゼロから構築する方法について考え始め、実際にそうしました。2024年、Ai2はOLMoをリリースしました。これは、ますます混雑する業界言語モデル分野に完全なオープンソースの代替手段を提供しました。一方、これらの商業言語モデル(ChatGPTによって引き起こされたAIハイプ波の後、規模、能力、洗練度が増大しました)を研究し続けた一部の研究者は、新たな抵抗に遭遇し始めました。

・ チェ・イェジン(スタンフォード大学コンピュータ科学教授、2022年マッカーサーフェロー):2023年末、私は最新のGPTモデルが乗算処理で見せる奇妙な振る舞いを示す論文を発表しました。数字が3桁や4桁になると、性能が急激に低下するというものです。その論文は多くの論争を巻き起こしました。実証的な研究を全くしない人々は私に疑問を投げかけました。「あなたの実験は正しかったのか?」と。そんなことは以前にはありませんでした。彼らの反応は感情的でした。私はこれらの人々を実際に尊敬していますが、彼らの反応は私にとって非常に驚きでした。モデルが彼らにとってそれほど重要であり、まるで私が彼らの「赤ん坊」を批判しているかのようでした。それは本当に私の目を開かせました。根拠のない誇大宣伝は科学にとって良いものではありません。私はLLMの基本的な能力と限界を厳密に研究することが非常に重要だと考えており、それが2024年の私の主要な研究方向となっています。しかし、私は常にモデルができないことを指摘し、反論者であるかのように感じる厄介な立場にいることに気づきます。それが重要であるとは思うものの、それだけをやりたくありません。だから最近は、他の様々な研究課題についても考えています。

・ タル・リンゼン:科学的な会話をしているふりをすることがありますが、会話の参加者の中には500億ドルの価値がある会社で働いている人もいます。そうなると会話は複雑になります。

研究ブーム、資金の流入、そして過剰な誇大宣伝は、NLPとAIの間のすでに不明瞭な境界線を完全に曖昧にしました。研究者たちは、自身の新しい機会とインセンティブだけでなく、分野全体の方向性も考慮しなければなりませんでした。

・ ナズニン・ラジャニ:LLMは私にとって、以前は存在しなかった多くの扉を開けてくれました。私は、オープンソース環境でChatGPTのデータを取得し、再現した最初期の人物の一人であり、基本的にその「プレイブック」を書きました。それは本当に素晴らしいことでした。それが私のスタートアップがまともなシードラウンドを獲得した理由です。

・ R・トーマス・マッコイ:AIに少しでも関わる大学教授は、皆AI分野の専門家として型にはめられます――ある意味、タイプキャストです。私のスキルセットから、最も影響力のある研究方向の一つであるAIに取り組むことは喜ばしいことです。しかし、私を本当に幸せにするのは、文法や人間の認知における興味深い細かい部分に深く入り込むことです。それはAIの発展と結びつけることができますが、それは非常に長い道のりです。

・ ジュリー・カリニー:それはまさに意味論の問題ですよね?私個人としては、自分はNLP、計算言語学、そしてAIに同時にいると感じています。それぞれの分野に特定のコミュニティがあることは知っていますが、複数の分野を横断している人々もたくさんいます。

・ ジュリアン・マイケル(Scale AI安全・評価・キャリブレーションラボ主任):もしNLPが変化しなければ、それは時代遅れになるでしょう。私はある程度、そうなったと思います。そう言うのは悲しいです。私は今、AIキャリブレーション研究者です。

・ アナ・ロジャーズ:私は心配していません。主な理由は、自然言語処理の問題をまだ解決していないと考えているからです。「これがすべてだ、言語処理は解決された」と思うなら、落ち込むべきでしょうが、私はそう思いません。

・ クリストファー・ポッツ(スタンフォード大学言語学科主任):言語学とNLPにとって、今はこの上なく重要な瞬間であるべきです。リスクも機会も非常に大きいです。おそらくこれは、人々が自分たちが大きな影響力を持っていることに気づく分野の覚醒の瞬間です。もはやあなたは、謙虚な研究のための研究分野である科学や工学の分野であるふりをすることはできません――なぜなら今、この分野に世界中の資金が流れ込み、すべての大企業がこの分野に影響を与えたいと考えており、言語モデルはいたるところで使われているからです。それほど大きな成功を収めたなら、それに伴う激しい議論も受け入れる必要があります。そうでなければ一体何なのでしょうか?

大規模言語モデルはパラダイムシフトか?

予想通り、人々は異なる見解を持っていました。

・ タル・リンゼン:5年前、7年前、あるいは10年前に私に尋ねた人がいたとしても、私は想像もできなかったでしょう。言語モデルにたった1つの指示を入力するだけで、それがあなたが求めたことを実行し、文章を完成させるなんて。当時、誰もそれが今のパラダイムになるとは予想していなかったと思います。今ではインターフェースがあるだけで、あらゆる種類のタスクを実行できます。

・ アナ・ロジャーズ:言語学者としては、そうは思いません。2013年頃の単語埋め込みの時代から始まり、すべての研究の中心的なアイデアは転移学習でした――大量のテキストデータから何かを学び、その知識が他のタスクに役立つことを期待するものです。長年にわたって、モデルの人気、アーキテクチャ、そして一般の認識は変わりましたが、核となる原則は変わっていません。

・ ジェフ・ミッチェル:私は企業利益がこの分野のゲームを変えたと思います。

・ エリー・パヴリック:メディアの存在は大きな影響を与えたと思います。私たちの分野の科学者たちは、成功がNLP以外の分野でも認知度を得ることを意味し得ると気づき、聴衆が突然変わりました。現在、arxiv.orgの論文タイトルは、教授の注意を引くためではなく、ジャーナリストやシリコンバレーの愛好家の注意を引くためにしばしば付けられています。それは大きな変化です。

・ ヴコシ・マリヴァテ:ある意味、この分野への参入障壁は下がると同時に上がったと思います。下がったというのは、これらのシステムが実際にどのように機能するのかについて私たちが知らないことがたくさんあるため、多くの研究はただそれらをできる限りテストし、探求することです。その場合、ニューラルネットワークのアーキテクチャを隅々まで知る必要はありません。しかし同時に、障壁は上がりました。これらのアーキテクチャについて深く研究したい場合、計算資源の観点から、非常にリソースが豊富な環境にいなければならないからです。

・ エミリー・M・ベンダー:私は、チャットボットや関連するテキスト生成マシンをエンドツーエンドの解決策として見る人々への大きな転換を見ています。しかし私はそれは行き止まりだと思います。

・ クリスティアナ・フェルバウム:私はそれを大きな転換、あるいは衝撃とさえ呼ぶでしょう。これらの大規模言語モデルが非常に強力になり、私たちは「その中に人間はどこにいるのか?」と考えなければならなくなったのです。これはパラダイムシフトです。技術的なシフトであり、これらのモデルが訓練された方法、そして彼らが何を学んだかです。そしてもちろん、教育への影響もあります。私が授業で経験したようなことです。これらは夜も眠れない問題です。

・ R・トーマス・マッコイ:言語学では、歴史的に哲学的なレベルにとどまっていた議論が多くありましたが、今や突然実証的にテストできるような気がします。それは間違いなく大きなパラダイムシフトです。しかし別の観点から見ると、10年前のこの分野の研究パラダイムは、人々が何らかのデータセットを作成し、それにニューラルネットワークを適用し、何が起こるかを見る、というものでした。そのパラダイムはまだ残っています。ただデータセットとニューラルネットワークがはるかに大きくなっただけです。

・ クリストファー・ポッツ:おそらくこれは、科学がこのように進むだけだと感じるべきでしょう。パラダイムシフトの印は、かつて重要だった問題がもはや議論されないことだと。過去5年間で、それは本当に起こったようです。私は以前、感情分類を専門としていました。例えば、「文章をください、それが肯定的か否定的か教えてあげます」と。しかし今、分野全体が自然言語生成に焦点を当てており、かつて私たちが核となる問題だと思っていたことは、それからすると周辺的なものに感じられます。これらのことはすぐに古くなるでしょう。おそらく2030年になれば、私たちは振り返って、これは2029年に起こったことと比べれば何でもなかったと思うでしょう。

では、大規模言語モデルは本当に「パラダイムシフト」なのでしょうか?

メインタグ:自然言語処理

サブタグ:大規模言語モデル学術界AI研究ChatGPT


前の記事:ダウンロード数2,200万のAIアシスタントはなぜ評判が地に落ちたのか?

次の記事:マイクロソフトアジア研究所 SYNTHLLM:言語モデル向け合成データのスケーリング則を検証

短いURLをシェア