35%準確率蒸發!字節跳動與華中科技大學WildDoc揭示多模態文件理解的強韌性短板

圖片

在文件理解領域,多模態大型模型(MLLMs)正以驚人的速度演進。從基礎文件圖像辨識到複雜文件理解,它們在掃描或數位文件基準測試(如 DocVQA、ChartQA)中表現出色,這似乎顯示 MLLMs 已很好地解決了文件理解問題。然而,現有的文件理解基準存在兩大核心缺陷:

脫離真實情境:現實中的文件多為手機/相機拍攝的紙本文件或螢幕截圖,面臨光線不均、物理扭曲(褶皺/彎曲)、拍攝視角多變、模糊/陰影、對焦不準等複雜干擾;

無法評估強韌性:現有基準未模擬真實環境的複雜性和多樣性,導致模型在實際應用中表現存疑;

圖片

這些缺陷引出了一個關鍵疑問:當前 MLLMs 模型距離在自然環境中實現全面且強韌的文件理解能力到底還有多遠?

為了揭開這個謎底,字節跳動 OCR 團隊聯合華中科技大學打造了 WildDoc ——首個真實世界情境文件理解的基準資料集。

WildDoc 選取了 3 個常用的具代表性文件情境作為基準(Document/Chart/Table),包含超過 12,000 張手動拍攝的圖片,涵蓋了環境、光線、視角、扭曲和拍攝效果等五個影響真實世界文件理解效能的因素,且可與現有的電子基準資料集表現進行對比。

為了嚴格評估模型的強韌性,WildDoc 建構了一致性評估指標(Consistency Score)。實驗發現主流 MLLMs 在 WildDoc 上效能顯著下降,揭示了現有模型在真實情境文件理解的效能瓶頸,並為技術改進提供了可驗證的方向。

本工作不僅填補了真實情境基準的空白,更推動文件理解研究向「實用化、泛化性」邁出關鍵一步。

圖片

論文連結:

https://arxiv.org/abs/2505.11015

專案主頁:

https://bytedance.github.io/WildDoc/

Github:

https://github.com/bytedance/WildDoc

圖片

WildDoc 資料建構與組成

WildDoc 資料包含超過 1.2 萬張手動採集的真實文件圖像,模擬自然環境中的複雜挑戰,並引入一致性分數指標,量化評估模型在跨情境下的強韌性。WildDoc 目前已開源全部 12K+ 圖像與 48K+ 問答對,其建構過程如下:

1. 資料採集:

情境多樣化:在自然環境(如戶外、室內不同光線條件)中手動拍攝文件,確保涵蓋環境、光線、視角等多維度干擾因素。

基準對齊:復用現有基準的電子文件,透過物理列印後拍攝,保證與傳統基準的可比性。

2. 多條件拍攝:

對同一文件進行四次拍攝,每次改變環境參數(如光線強度、拍攝角度、紙張扭曲程度),獲取各種不同效果的對比樣本。

3. 標註與驗證:

對圖像中的文字、版面等關鍵資訊以及對於問題的可回答性進行人工驗證,確保準確性。

透過一致性分數計算,評估模型在不同條件下的穩定性,輔助篩選高品質資料。

圖片圖片

實驗結果

研究團隊對眾多具代表性的 MLLMs 進行了測試,包括通用 MLLMs(如 Qwen2.5-VL、InternVL2.5)、專注文件理解的 MLLMs(如 Monkey、TextHarmony)和領先的閉源 MLLMs(如 GPT4o、Doubao-1.5-pro)。實驗結果揭示了當前多模態大型模型在真實情境下的諸多不足。

圖片

首先,現有 MLLMs 在 WildDoc 上的效能相比傳統文件基準(如 DocVQA)測試大幅下降。例如,GPT-4o 平均準確率下降 35.3%,ChartQA 子集下降高達 56.4%;開源模型 Qwen2.5-VL-72B 平均準確率 70.6%,為開源最佳,但仍低於原始基準約 15%。

目前最優的閉源模型為 Doubao-1.5-pro 表現最佳(平均準確率 73.7%),但其一致性分數僅 55.0,這也意味著它在一半以上的情況下都不能在不同條件下保持準確回答。這表明,當前 MLLMs 模型在面對真實情境的變化時,缺乏足夠的穩定性和適應性。

實驗結果揭示了在真實世界文件理解中 MLLMs 模型的表現,有以下幾點發現:

物理扭曲最具挑戰性:皺紋、褶皺、彎曲等物理變形導致模型效能下降最顯著(如 GPT-4o 下降 34.1-34.7%),遠超光線(-25.9%)或視角(-26.2%)變化的影響。

非正面視角與圖像品質:非正面拍攝(如傾斜視角)因文字形變和模糊導致效能下降(Qwen2.5-VL-72B 下降 17.6%),但螢幕擷取圖像因資料增強演算法成熟,效能下降較小(-8.3% 至 -9.1%)。

語言模型規模影響有限:大參數量模型(如 72B 參數的 Qwen2.5-VL)在 WildDoc 上表現略優,但未完全克服真實情境挑戰,表明模型架構需針對性優化。

圖片圖片

另外,一些模型在原始基準測試上表現差異不大,甚至已經接近飽和,但在 WildDoc 上卻出現了顯著的效能差異。這說明傳統基準測試已經難以區分模型的真實能力,而 WildDoc 則能更敏銳地捕捉到模型在真實情境下的不足。

圖片

未來之路:如何讓 MLLMs 更好地理解真實世界的文章?

面對這些挑戰,研究團隊提出了幾點改進策略,為未來的研究指明了方向。

一是資料增強。透過更多的增強技術來模擬真實世界的條件,如變化的光線、陰影等,讓模型在訓練中接觸到更多樣化的情境,從而提高其適應能力。

二是強韌特徵學習。讓模型學會提取對真實世界變化不敏感的特徵,這樣即使文件圖像發生了一些變化,模型也能準確理解其內容。

三是真實資料引入。收集更多的真實世界文件圖像,豐富訓練資料集,讓模型在更多的「實戰」中累積經驗,提升效能。

WildDoc 資料集有效揭示了 MLLMs 在真實文件理解中的不足,為後續研究提供了關鍵基準和優化方向,更推動文件理解研究向「實用化、泛化性」邁出關鍵一步。

附錄:更多的視覺化資料

圖片

更多閱讀

圖片圖片圖片圖片

#投稿管道#

讓你的文字被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。

總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人,在我們的平台上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。

📝稿件基本要求:

• 文章確係個人原創作品,未曾在公開管道發表,如為其他平台已發表或待發表的文章,請明確標註

• 稿件建議以markdown格式撰寫,文中配圖以附件形式傳送,要求圖片清晰,無版權問題

• PaperWeekly 尊重原作者署名權,並將為每篇被採納的原創首發稿件,提供業界具競爭力稿酬,具體依據文章閱讀量和文章品質階梯制結算

📬投稿管道:

• 投稿信箱:hr@paperweekly.site

• 來稿請備註即時聯絡方式(微信),以便我們在稿件選用的第一時間聯絡作者

• 您也可以直接加入小編微信(pwbot02)快速投稿,備註:姓名-投稿

圖片

△長按加入PaperWeekly小編

🔍

現在,在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點擊「追蹤」訂閱我們的專欄吧

圖片

主標籤:人工智慧

次標籤:文件理解基準測試機器學習多模態模型


上一篇:Google 研究發現:多代理人系統的核心在於提示詞設計!

下一篇:繼ZeroSearch之後,通義最新力作MaskSearch提出推論搜尋預訓練新框架

分享短網址