机器之心報道
編集:杜偉
再帰的思考+自己批判、CoRTはLLM推論能力に飛躍をもたらすか?
CoT(Chain-of-thought)は皆さんよくご存知でしょう。「人間の問題解決思考」を模倣することで、言語モデルの推論能力を大幅に向上させます。
この数日、CoRT(Chain-of-Recursive-Thoughts)という概念が話題になっています!名称から見て、CoTに「再帰的思考」というステップを追加しています。
具体的には、CoRTはAIモデルが自身の応答について再帰的に思考し、代替案を生成し、その中から最適なものを選択することを可能にします。
これは、AIに自己疑問や反論する能力を与え、何度も試行錯誤させるようなものです。
「構造化された自己批判」と「再帰的思考モード」を組み合わせることで、言語モデルの推論能力を向上させます。
わずか2週間で、CoRTのGitHubのスター数は2kに迫っています。
GitHubアドレス:https://github.com/PhialsBasement/Chain-of-Recursive-Thoughts
技術原理から言えば、従来のCoTと比較して、CoRTは言語モデルに段階的に思考させるだけでなく、思考過程で繰り返し確認・修正を行い、人間の「反省的思考」や「内省」に類似した推論パスを形成させます。
しかし、多くのネチズンはCoRTの出現にそれほど興奮していません。CoRTはLLMにもっと努力して思考させる良いテクニックですが、斬新なアイデアとは言えません。その動作原理は、再帰コンポーネントが追加されたメタプロンプトのようです。
また、この手法は2023年の論文《Improving Factuality and Reasoning in Language Models through Multiagent Debate》ですでに登場していると指摘するネチズンもいます。
あるネチズンは疑問を投げかけています。CoRTは今のほとんどのLLMの思考モードではないか?
例えば、Cursorに設定されているGemini 2.5 ProのCoTはまさにこれを行っています。モデルは1分間思考し、自身の答えに反論し、最も反論できない答えを見つけるまで続けます。
また、CoRTはQwenやR1における「but wait」モードではないでしょうか?モデルは思考を続け、自己反論しており、両者に違いはないようです。
皆さんは、CoRTは「新しいボトルに古い酒」だと思いますか?コメント欄にご意見をお寄せください。
プロジェクト紹介
プロジェクト紹介によると、CoRTの秘訣は以下の4点にあります:
自己評価;
競争力のある代替生成案;
イテレーション最適化;
動的な思考深度。
ワークフローには以下の4つのステップが含まれます:
まず、AIが初期応答を生成します。
次に、AIが必要な「思考」のラウンド数を決定します。
続いて、各思考ラウンドで:
代替応答を3つ生成します;
全ての応答を評価します;
最適な応答を選択します。
最後に、最終応答はこのAI大乱闘の生き残りです。
Webインターフェースの使用方法(まだ早期開発段階)
1、start_recthink.batを開きます
2、しばらく待って、依存関係がインストールされるのを待ちます
3、設定成功
Linuxシステムで実行している場合は、以下の手順に従います:
新しいシェルを開きます:
効果はどうでしょうか?
著者はMistral 3.1 24Bを使用してテストを行ったところ、彼の説明によると、CoRTはプログラミングタスクでのパフォーマンスが「meh」(まあまあ)から「holy crap」(すごい)に向上しました。
例を見てみましょう。下の画像はMistral 3.1 24B + CoRTです:
下の画像はMistral 3.1 24Bなしのものです:
結果から見ると、CoRTの使用前後で、三目並べゲームが基本的なCLI(コマンドラインインターフェース)から完全にOOP(オブジェクト指向プログラミング)に変わりました。
参照リンク:https://x.com/omarsar0/status/1917401353061818478
© THE END
転載は本公式アカウントに連絡して許可を得てください
投稿または取材依頼:liyazhou@jiqizhixin.com