既存のデータ合成手法は、妥当性と分布の一貫性に欠け、異なるデータへの自動適応能力が不足しており、拡張性が低い。
大規模言語モデルはサンプリング効率とコンテキストウィンドウサイズによって制限されており、大規模なデータセットを直接合成することは困難である。
大規模モデルを用いて、構造的に整合性があり、統計的に信頼でき、意味的に妥当なデータを生成する方法が、喫緊の課題となっている。
このため、マギル大学の研究チームは新しい手法LLMSynthorを提案した。
この手法により、大規模モデルを構造認識型のデータシミュレーターに変え、プライバシーに配慮し、データが不足しているシナリオ向けに、漏洩のない高品質な代替データを生成することができる。
LLMSynthor:LLMを「構造認識型ジェネレーター」に変える
人口、Eコマース、移動などのシナリオでは、データの機密性により共有が困難であり、異なるデータ形式ごとにモデルを個別に設計する必要があるため、コストが高く、移植性が低い。
従来手法は、高次元の依存関係をモデル化するのが困難であるか、汎化性能が低く不安定であり、「9歳の博士」のような統計的には妥当だが意味的に不条理なサンプルを生成することがよくある。
同様に、最近の大規模モデルもデータ生成に利用されているが、サンプリング速度が遅い、分布が制御不能、コンテキストが制限されるなどの問題があり、構造的に完全な大規模データセットを効率的に生成することは困難である。
LLMSynthorの解決策は、LLMが直接データを生成するのではなく、「構造認識型ジェネレーター」となり、統計的アラインメントのフィードバックを通じて継続的に反復最適化を行うことである。
全体フレームワークは以下の通りである。
ステップ1:構造推論
信頼できるデータを生成する上で、変数の間の依存構造を理解することが鍵となる。
従来のCopulaモデルは、変数分布と関係モデリングを分離できるものの、高次元で多義的なシナリオでは拡張が難しい。
LLMSynthorの主要な革新は、大規模言語モデルを用いてコピュラをシミュレートすることである。
LLM自体は、現実世界の結合分布に対する高次元事前分布と見なすことができ、事前学習プロセスにおいて人間行動や社会構造の変数共起パターンを内包している。
統計的要約(頻度、分布など)の理解と組み合わせることで、変数間の高次関係を推論し、意味情報を用いて隠れた依存関係を掘り起こすことができる。
ステップ2:統計的アラインメント
LLMSynthorは生データと直接比較するのではなく、統計的要約(変数分布、結合頻度など)を通じて、実データと合成データの間のギャップを測定する。
この方法により、構造情報を保持しつつ、個々のデータの漏洩を防ぐことができる。
(統計的特徴のみに依存するため、集約された指標が入力された場合でも、構造的に合理的で意味的に一貫性のある合成データを生成でき、特に国勢調査やアンケート調査などのプライバシーに配慮が必要なシナリオに適している。)
さらに、LLMSynthorのアラインメントメカニズムは帰属可能である。つまり、「全体的な偏り」を測定するだけでなく、特定の偏差がどの変数または変数組み合わせから生じたかを特定できる。
このようなきめ細かなフィードバックは、次回の生成における構造調整に直接利用でき、段階的なアラインメントを実現する。
ステップ3:サンプルではなく分布を生成する
従来手法はサンプルを1つずつ生成するため、効率が低く、分布の制御が難しい。
LLMSynthorは、代わりにサンプリング可能な分布ルール(プロポーザル)を生成する。例えば、「25歳女性、一線都市在住、美容製品を購入」といったルールを生成し、一括でサンプリングを行い、さらには画像などの外部ジェネレーターを呼び出してマルチモーダルタスクに拡張することも可能である。
プロポーザルは、統計的フィードバックとLLMの常識の両方によって誘導され、「10歳の博士」のような不条理な変数組み合わせを自然に避けることができる。
この方式は、効率的で構造的に信頼できるだけでなく、「分布記述言語」を通じて他のモデルとの協調生成を調整し、クロスモーダル、マルチソース、マルチタスクのデータ合成とシミュレーションを実現する。
ステップ4:反復アラインメント
「構造推論-統計比較-ルール生成-新規データサンプリング」を絶えず繰り返すことで、モデルは最終的に、構造的にも統計的にも実データに非常に近く、常識にも合致する合成データセットを生成する。
理論的保証
経験的効果に加えて、LLMSynthorは理論的な収束保証も備えている。
LLMSynthorチームは、局所構造一貫性定理(Local Structural Consistency)を提案した。これは、合理的な仮定の下で、ある変数または変数グループの初期分布に偏差がある場合、有限回の反復で誤差を任意の制御可能な範囲に収束させることができるというものである。
これは、LLMSynthorが「感覚で近づく」のではなく、数学的な保証をもって実データ構造に段階的に収束することを示している。
複数シナリオでの実測
LLMSynthorの実用性と安定性を検証するため、著者らはEコマース取引、人口統計、都市移動の3つの代表的な実世界シナリオで実験を行った。
Eコマース取引生成
これは、連続変数と離散変数が混在し、変数間の関係が複雑なシナリオである。
著者らはベイジアンネットワークに基づいて制御可能なデータセットを構築し、モデリング能力の評価のために明確な構造を設定した。
結果は、LLMSynthorが周辺分布と結合分布の両方の誤差で最適に機能し、変数間の依存関係を正確に復元することを示している。
さらに、予測実験でも、その合成データで訓練されたモデルが実データ上で最高の性能を示し、その高い実用価値が示された。
人口マイクロ合成
人口データは家族-個人のネストされた構造を含み、本質的に非構造化されている。この種のデータは、都市計画、政策評価、資源配分などの重要なタスクで広く使用されている。LLMSynthorはこのような複雑な構造を処理でき、6カテゴリ16の政策指標(高齢者貧困率など)において、既存の手法を大幅に上回る性能を発揮する。
都市移動シミュレーション
移動データは、時系列、地理、行動など多様な複雑なタイプを含み、交通シミュレーションや緊急時管理の基礎となる。
LLMSynthorは、多源データに基づいて、都市のリズムに合致するシミュレートされた移動軌跡の生成に成功した。さらに重要なのは、プロンプトに応じて生成を制御できることである。
例えば、「午後8時に東京ドームでコンサートがある」と入力すると、合成データは該当時間帯の潮汐的な乗客流動の変化を示し、現実の再現力とシナリオ操作能力を発揮し、政策シミュレーションやイベントのリハーサルに適している。
大規模モデルの互換性
LLMSynthorは高い生成効率を持ち、訓練不要であり、多様な大規模モデルと互換性がある。Qwen-2.5-7Bなどのオープンソースモデルを使用しても安定して動作し、優れた拡張性と実用的な適応能力を備えている。
論文リンク:https://arxiv.org/pdf/2505.14752
プロジェクトアドレス:https://yihongt.github.io/llmsynthor_web/