AppleのAI論文が大失敗！テスト方法に大きな問題が指摘され…ネット民「クックは彼らを解雇すべきだ！」

AppleのAI研究チームが今回、本当にやらかした！

彼らが最近発表した論文がAI界隈で一斉に酷評を浴びている。その理由は、なんとテスト方法に大きな問題があったからだ。

前記事：Appleが推論モデルに死刑宣告！Google CEO「AGIは忘れろ、AJIを使いこなせ」

研究者Lisan al GaibがApple論文のハノイの塔（Tower of Hanoi）テストを再現したところ、驚くべき事実が判明した。モデルが失敗したのは推論能力不足ではなく、出力トークンの制限が原因だったのだ！

ご存知の通り、ハノイの塔問題は少なくとも2^N - 1ステップで解決する必要があり、出力形式は1ステップあたり10トークンに加え、固定の内容が必要となる。

これは何を意味するのか？

Sonnet 3.7（128k出力制限）、DeepSeek R1（64K）、o3-mini（100k）の場合、ディスク数が13を超えると、すべてのモデルの精度は0%になる。これは解決できないからではなく、物理的にそれほどの内容を出力できないからだ！

さらに皮肉なことに、問題の規模が大きくなると、モデルたちの反応は非常に人間的になる。彼らは直接こう言うのだ。「移動回数が多すぎるため、32,767ステップすべてをリストアップするのではなく、解決方法を説明します」。

これは、数学者にA4用紙に100万の数字を書かせ、それから彼が数学が苦手だと言うのと同じくらい馬鹿げている！

Lisan al Gaibはまた、問題をより小さなブロックに分解し、毎回モデルに5ステップだけ実行させることを試みた。

結果はどうか？

Gemini 2.0 Flashでテストしたところ、分解することで逆にパフォーマンスが悪化することが判明した。

モデルは処理中にアルゴリズムの中で迷子になり、特定のステップを繰り返すようになった。

ハノイの塔は理論上ステートレスである（各ステップの最適移動は現在の状態にのみ依存する）が、モデルは自分がどこまで実行したかを知るために履歴記録を必要とする。

研究ではまた、興味深い現象が発見された。ディスクが9～11個の場合に、トークン使用量がピークに達するのだ。

なぜか？

なぜなら、まさにこの時点でモデルたちが「2^n_disks - 1ステップなんて書きたくない」と言い始める臨界点だからだ。

それ以前のモデルも、段階的に推論していたわけではない。

ディスクが5～6個程度の小規模な問題では、いくつかの推論プロセスが見られた。しかし、この規模を超えると、モデルは基本的に問題を復唱し、アルゴリズムを復唱し、ステップを印刷するだけになる。ディスクが10～11個になると、すべてのステップを出力するのを拒否し始めた。

最もとんでもないのは、Apple論文の結論だ。

彼らは、ハノイの塔が他のテストよりも難しいのは、訓練データの問題だと主張した。しかしLisan al Gaibは次のように指摘する。

これは全くのナンセンスだ！

モデルは思考の連鎖でアルゴリズムを明確に暗唱し、中にはコード形式で示したものさえある。ハノイの塔は指数関数的なステップ（2^n）を必要とするが、他のゲームは二次または線形のステップしか必要とせず、これはハノイの塔が推論上より困難であることを意味しない。

異なるゲームの単一ステップの難易度は異なり、単にステップ数で難易度を判断することはできない！

他の研究者たちも批判の嵐に加わった。

Shin Megami Bosonは、この論文が「最悪だ」と露骨に述べた。彼はAppleが0%の精度と評価した複雑さで、モデルにツールを使用させることで100%の精度を達成したという。

しかも、より弱いモデルを使ったのだ！

彼の実験結果のグラフは「何も写っていないように見える」という。なぜなら、それは単に100%の精度を示す直線だからだ。

彼は次のように結論付けた。「彼らはハンマーでネジを回そうとし、ハンマーは物を固定するのに実際には限界があると論文に書いたようなものだ」。

そして私が最も腹立たしく失望したのは、AppleがAIを使ってユーザー体験を改善しようとするのではなく、AIに問題があることを証明しようと努力しているように見えることだ。

Pliny the Liberator（@elder_plinius）の皮肉は的を射ている。

Siriが4回以上の試行でカレンダーイベントを正常に作成できるようになるまでは、クパチーノにあるあの巨大で陳腐なドーナツ型の建物から出てくるAI研究論文は一切読まないだろう。

彼は続けて言う。

もし私がAppleのCEOなら、チームが現在の方法の限界を記録することだけに焦点を当てた論文を発表するのを見たら、その場で関わった全員を解雇するだろう。そんなこと誰が気にするんだ。それを突破する方法を考えろ！

Luci Dreams（@Luci_Drea）は皮肉った。

「我々には良いAIがないから、君たちのAIの欠陥を見て、あまり楽しませないでくれ」

Chris Fry（@Chrispyfryz）は疑問を呈した。

一体、彼らは向こうで何をやっているんだ？

R（@rvm0n_）はコメントした。

彼らがこれほどひどく台無しにした理由が理解できない。

Freedom_Aint_Free（@baianoise）の比喩はさらに的確だ。

これは、キアのエンジニアが、トヨタ車は大規模な修理なしには200万マイル走れないと論文に書くようなものだ。

Ben Childs（@Ben_Childs）はユーモラスに言った。

ほら、Appleには素晴らしいAIがあるよ。ただ、彼女は別の高校に通ってるから、君は知らないだろうけどね。

SPUDNIK（@tuber_terminal）はSiriの音声認識エラーを真似た。

「はい、ではスプーンデーのハム6時にアプリ軟膏を作成したいのですね？作成してよろしいですか？」

AppleはTim Cookによって「Cook」されている。これらの研究者たちは、ユーザー体験を改善するのではなく、AIに問題があることを証明するために時間を費やしているのだ。

クックは彼らを解雇すべきだと思わないか？

👇

また、私はAIを使ってインターネット全体のAIニュースを収集し、AIで選別、審査、翻訳、要約したものを『AGI Hunt』の知識プラネットで公開している。

これは、情報のみで感情のないAIニュースフィードだ（レコメンドフィードではなく、講座販売でもなく、説教でもなく、人生訓でもなく、情報のみを提供する）。

ご参加を歓迎します！2000人以上の仲間とのグループチャットへの参加も歓迎です。

AppleのAI論文が大失敗！テスト方法に大きな問題が指摘され…ネット民「クックは彼らを解雇すべきだ！」

短いURLをシェア