バイトダンスSeedの新手法！オープンソース8Bコードモデル：自身でデータをキュレーションして学習、同規模でSoTAを達成、100億パラメータ級の競合をも凌駕

LLMが自身のデータを学習することで、人間がキュレーションするよりも効率的になると思いませんか？従来のコード大規模モデルは、手動で設定されたルールに依存してデータをフィルタリングしており、コストが高く、非効率的で、モデルを偏らせやすいという問題がありました。

論文：Seed-Coder: Let the Code Model Curate Data for Itself

リンク：https://github.com/ByteDance-Seed/Seed-Coder/blob/master/Seed-Coder.pdf

しかし、Seed-Coderチームは、「LLM自身が教師となる」という直接的なアプローチを採用しました。モデルを使ってデータをフィルタリングし、それによって自身を学習させることで、8Bパラメータの軽量なオープンソースコードモデルシリーズを構築しました。その性能は、100億パラメータクラスの競合モデルをも上回るほどです！

Seed-Coder

1. 自給自足のデータファクトリー従来のモデルは、「コメントを含める必要がある」「構文エラーがあってはならない」といった手動ルールに依存してコードデータをフィルタリングしていました。しかし、プログラマーの美的感覚は様々で、ルールが衝突しやすく、拡張性に乏しいという問題がありました。Seed-Coderの解決策は非常に「荒っぽい」ものです。別のLLMを審査員にするのです！チームは、「コード品質スコアラー」と呼ばれるLLMを訓練し、可読性、モジュール性、明瞭さ、再利用性の4つの観点からコードを採点させ、低品質なデータを自動的にフィルタリングします。

この「LLMがLLMに教える」モデルにより、データフィルタリングの効率が百倍向上し、最終的に6兆トークンの高品質なコード学習ライブラリを構築、89種類のプログラミング言語をサポートしています！

2. 小さなボディに大きな知恵のモデルアーキテクチャSeed-Coderは、Llama 3アーキテクチャに基づいており、8.2Bパラメータです：

長文脈対応：リポジトリレベルでのコード連結により、モデルは32Kという超長コードファイルを処理でき、複雑なプロジェクトにも容易に対応できます。

穴埋め学習法（FIM）：コードをランダムに接頭辞、中綴じ、接尾辞に分解し、モデルが「中間部分の不足を補完する」ことを学習させ、コード補完能力を向上させます。式は以下の通りです：<[fim-suffix]> SUFFIX <[fim-prefix]> PREFIX <[fim-middle]> MIDDLE

この学習により、モデルはパズルを解くようにコードロジックを学習し、従来の単一モード学習をはるかに超える効果を発揮します。

3. 推論能力の学習法Seed-Coderの推論モデルは、長思考連鎖強化学習（LongCoT）を使用し、多段階の複雑なコーディング問題に特化しています。簡単に言うと、モデルにまず問題解決の考え方を書かせ、次にコードを生成させ、試行錯誤を繰り返してロジック連鎖を最適化します。例えば、アルゴリズム問題を解く際、モデルはまず問題を分割します：「第一段階は入力を読み込む、第二段階はソートする、第三段階は差分を計算する…」と、段階を追ってコードを書きます。この「まず考えてから実行する」戦略により、競争プログラミングの練習問題集で驚異的なパフォーマンスを発揮しています。