大規模言語モデル(ChatGPTなど)が複雑な問題を解決する際、通常、「推論プロセス」を生成し、最後に回答を出します。従来の評価方法は最終的な回答の正誤だけを見ますが、この論文は直感に反する視点を提案しています:最終的な回答はモデルの「思いつき」の結果にすぎない可能性があり、中間ステップの思考を深く掘り下げる価値があります。
論文:Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think
リンク:https://arxiv.org/pdf/2504.20708
例えば、モデルが数学の問題を解く際、途中で計算ミスをしても、最後に無理やり修正し、誤った回答になることがあります。あるいは、正しい回答が中間ステップで一度現れても、その後の誤った推論によって上書きされることもあります。論文は実験を通じて、最終的な回答だけに依存すると、より良い解を見逃す可能性があることを証明しています。
発見:中間ステップに鍵があり、回答の一貫性が精度を決定する
研究者はモデルの推論プロセスを複数の「Subthoughts」(サブ思考)に分割しました。「ちょっと待って」「別の角度から」といったヒントとなる言葉を新たな思考段階の始まりとみなしました。そして、各中間ステップから推論を再生成し、回答の分布を作成しました。
重要な発見:
正しい回答は中間ステップで頻繁に現れる傾向がありますが、誤った回答は大きく変動します。
回答の分布が集中しているほど(エントロピーが低いほど)、モデルは正しい可能性が高いです。分布が分散しているほど(エントロピーが高いほど)、エラーの確率が高くなります。
理解を助ける公式:
エントロピー計算(回答の一貫性を測る):
エントロピー低 → 回答集中 → 信頼性高 ✅
エントロピー高 → 回答分散 → 間違いの可能性 ❌
方法:「ステップバイステップチェック」でモデルの性能を向上させるには?
論文はシンプルかつ効果的な手順を提案しています:
1. 思考を中断:モデルの各中間ステップ(例:「ステップ3まで計算した」)で一時停止します。
2. 生成を再開:一時停止した時点から後続の推論を再生成し、複数の候補回答を得ます。
3. 多数決で決定:最も頻繁に出現する回答(最頻値モード)を選択します。
例🌰:
モデルが方程式を解く際、中間ステップで正しい回答(96)を3回生成したが、最終的な回答が誤り(50)だったとします。「ステップバイステップチェック」により、システムは96が頻出する回答であることを統計し、エラーを修正します。