Statistically Controllable Data Synthesis! New Framework Breaks LLM Data Generation Limitations, McGill University Team Launches LLMSynthor

現有的資料合成方法在合理性與分佈一致性方面存在不足,且缺乏自動適配不同資料的能力,擴展性較差。

大型語言模型受限於取樣效率與上下文視窗大小,難以直接合成大規模資料集。

如何利用大型模型生成結構對齊、統計可信、語義合理的資料,已成為亟待解決的問題。

為此,麥吉爾大學團隊提出了一項新方法,LLMSynthor——

透過這個方法,可將大型模型轉變為結構感知的資料模擬器,為隱私敏感、資料稀缺的場景生成不洩漏的高品質替代資料。

圖片

LLMSynthor:讓大型語言模型成為「結構感知的生成器」

在人口、電商、出行等場景中,資料敏感難以共享,不同資料格式還需單獨設計模型,成本高、遷移差。

傳統方法如貝葉斯網路、GAN等,要麼難以建模高維依賴,要麼泛化能力差且不穩定,還常生成「9歲博士」這類統計合理但語義荒謬的樣本。

同樣地,近期大型模型也被用於資料生成,但存在取樣慢、分佈不可控、上下文受限等問題,難以高效生成結構完整的大規模資料集。

而LLMSynthor的解決方案是:讓大型語言模型不直接生成資料,而是轉變為「結構感知的生成器」,透過統計對齊回饋不斷迭代優化。

整體框架如下:

圖片

步驟1:結構推理

生成可信資料的關鍵,在於理解變數之間的依賴結構。

傳統Copula模型雖能拆分變數分佈與關係建模,但在高維度、多語義場景下難以擴展。

LLMSynthor的關鍵創新在於:使用大型語言模型模擬Copula。

大型語言模型本身可視為一種現實世界聯合分佈的高維度先驗,其預訓練過程中已內化了人類行為、社會結構的變數共現規律。

結合對統計摘要(如頻率、分佈等)的理解,它能推斷變數間的高階關係,並利用語義資訊挖掘隱藏依賴。

步驟2:統計對齊

LLMSynthor不直接比對原始資料,而是透過統計摘要(如變數分佈、聯合頻率)來衡量真實資料與合成資料的差距。

如此一來,既能保留結構資訊,又能避免洩漏個體資料。

(因為只依賴統計特徵,即便輸入的是聚合指標,也能生成結構合理、語義一致的合成資料,特別適合人口普查、問卷調查等隱私敏感場景。)

此外,LLMSynthor的對齊機制是可歸因的:不僅衡量「整體偏離」,還能定位具體偏差來自哪個變數或變數組合。

這種細粒度回饋能直接用於下一輪生成的結構調整,實現逐步對齊。

步驟3:生成分佈而非樣本

傳統方法逐條生成樣本,效率低且難以控制分佈。

LLMSynthor改為生成可取樣的分佈規則(proposals),例如:「25歲女性、在第一線城市、購買美妝產品」,然後批量取樣,甚至可呼叫圖像等外部生成器擴展至多模態任務。

proposals同時受統計回饋與大型語言模型常識引導,可自然避免如「10歲博士」一類的荒謬變數組合。

這種方式不僅高效、結構可信,還能透過「分佈描述語言」來協調其他模型協同生成,實現跨模態、多源、多任務的資料合成與模擬。

步驟4:迭代對齊

透過「結構推理-統計比較-規則生成-新資料取樣」不斷循環,模型最終會生成一組結構上、統計上都高度接近真實資料,且符合常理的合成資料集。

圖片

理論保障

除了經驗效果,LLMSynthor還具備理論收斂保障。

LLMSynthor團隊提出了局部結構一致性定理(Local Structural Consistency):在合理的假設下,如果某個變數或變數組分佈初始存在偏差,經過有限次迭代可將誤差收斂至任意可控範圍。

圖片

這說明LLMSynthor並非「憑感覺靠近」,而是有數學保障地逐步收斂到真實資料結構。

圖片

多場景實測

為了驗證LLMSynthor的實用性與穩定性,作者在三個具代表性的真實場景中進行了實驗,包括電商交易、人口統計和城市出行。

電商交易生成

這是一個包含連續與離散變數的混合場景,變數關係複雜。

作者基於貝葉斯網路建立可控資料集,設定明確結構,用於評估建模能力。

圖片圖片

結果顯示,LLMSynthor在邊緣與聯合分佈誤差上均表現最優,準確還原變數依賴。

圖片

進一步的預測實驗也顯示,其合成資料訓練出的模型在真實資料上效果最佳,體現出強大的實際價值。

人口微觀合成

人口資料包含家庭-個人巢狀結構,天然非結構化。這類資料廣泛應用於城市規劃、政策評估、資源配置等關鍵任務。LLMSynthor可處理此類複雜結構,並在6類共16項政策指標上(如老年貧困率),顯著優於已有方法。

圖片圖片

城市出行模擬

出行資料包含時序、地理、行為等多種複雜類型,是交通模擬與應急管理的基礎。

LLMSynthor基於多源資料,成功生成符合城市節奏的模擬軌跡。更關鍵的是,它能響應提示控制生成。

例如輸入「晚上8點東京巨蛋有演唱會」,合成資料便展現出對應時段的潮汐客流變化,展現出現實還原力與場景操控能力,適用於政策模擬與事件預演。

圖片圖片

大型模型兼容情況

LLMSynthor生成效率高、無需訓練,同時相容多種大型模型,換用如Qwen-2.5-7B等開源模型也能穩定運行,具備良好擴展性與落地適配能力。

圖片

論文連結:https://arxiv.org/pdf/2505.14752

專案連結:https://yihongt.github.io/llmsynthor_web/

主標籤:合成資料生成

次標籤:大型語言模型人工智慧應用統計對齊資料隱私保護


上一篇:50年僵局突破!麻省理工學院最新證明:演算法中,少量記憶體勝過大量時間

下一篇:歷史首次!o3模型找出Linux核心零時差漏洞,鑽研12000行程式碼百次終獲,無需呼叫任何工具

分享短網址