新智元報導 編輯:元宇
【新智元導讀】最近,Google AI Studio上的一個神秘模型不僅成功辨識了200多年前一位商人的「天書」帳本,還修正了裡面的格式錯誤和模糊表述,其展現出的推理能力讓歷史學家震驚。
悄悄地,Google已經解決了AI界的兩大古老難題?
前不久,Google AI Studio上的一個神秘模型引起網友關注,其中包括一位名叫Mark Humphries的歷史學家。
他拿出200多年前一位奧爾巴尼商人的「天書」帳本,來測試大型模型在手寫文本辨識(HTR)上的能力。
令人震驚的一幕出現了!
這個神秘模型不僅在自動手寫辨識上接近滿分,還糾正了原帳本中的一個書寫格式錯誤,並優化了其中一個可能引發歧義的模糊表述。
這意味著該模型不僅能辨識字母,還可以理解字母背後的邏輯和知識背景。
而且,這些能力都是在模型未被提示的情況下展現出來的。
專家級的手寫文字辨識能力,無需顯式規則的推理能力,這兩大難題的解決標誌著AI模型能力上的一次躍遷。
網友推測,這個神秘模型可能就是Google即將在今年推出的Gemini-3,但尚未官方確認。
破解歷史學家難題
Mark Humphries是威爾弗里德·勞裡埃大學(Wilfrid Laurier University)的一位歷史學教授。
作為一名歷史學家,他非常關心AI在自己的專業領域是否已經達到了人類專家級的推理水平。
因此,Humphries選擇讓大型模型來辨識歷史手寫體,他認為這是檢驗大型模型整體能力的一個黃金測試。
辨識歷史手寫體,不僅是一個視覺任務,還要對歷史手稿所在的歷史背景有一定的了解。
如果缺乏這些知識,要準確辨識和轉寫一份歷史文獻幾乎是不可能的。
在Humphries看來,這恰恰也是歷史文獻中最難辨識的部分。
隨著大型模型能力的發展,它們在HTR上的辨識準確率可以超過90%,但剩下的10%才是最難,也是最關鍵的。
Humphries認為,如今的大型模型(Transformer架構)在本質上是預測式的(其核心機制是預測下一個token),但歷史文獻中的拼寫錯誤和風格不一致,本來就是不可預測、低概率的答案。
因此,要把「the cat sat on the rugg」而不是「mat」轉寫出來,模型就必須逆著訓練分佈的傾向來做。
這也是為什麼大型模型在轉寫不熟悉的人名(尤其姓氏)、冷門地名、日期或數字(比如金額)時不太擅長的原因。
例如,一封信是Richard Darby寫的,還是Richard Derby寫的?日期是1762年3月15日,還是1782年3月16日?帳單是339美元,還是331美元?
當歷史文獻中,出現這類難以辨認的字母或數字時,往往需要透過其他類型的背景知識來找到答案。
Humphries認為,這「最後一哩路的準確性」,才是歷史手寫文本辨識能被人類使用的前提。
預測式架構是否存在「天花板」?
為了衡量手寫轉寫準確性,Humphries與Lianne Leddy博士專門做了一個測試集,這是一個包含50份文件、總計約1萬詞的集合。
並且,他們採取了一切合理的預防措施,盡可能確保這些文件不在大型模型的訓練資料裡。
這個測試集包含了不同風格的書寫(從難以辨識的潦草字跡到正式的秘書手寫體),以及各種工具拍攝的圖像。
在Humphries看來,這些文件代表了他以及研究18、19世紀英語文獻的歷史學家最常遇到的類型。
他們用字符錯誤率(CER)和詞錯誤率(WER)來衡量轉寫錯誤的比例。
研究顯示,非專業人士通常WER在4-10%。
即便專業的轉寫服務也預期會有少量錯誤,他們通常保證1%的WER,但前提是文本清晰易讀。
所以,這基本就是準確度的上限。
去年,在Humphries等人的測試集上,Gemini-2.5-Pro的表現為:
嚴格CER為4%,WER為11%。
當排除大小寫和標點的錯誤時,它們通常不會改變文本的實際含義,也不影響搜尋與可讀性,這些錯誤率降到了CER 2%和WER 4%。
Humphries也發現,每一代模型的改進確實都在穩步發生。
Gemini-2.5-Pro的成績,已經比他們幾個月前測試的Gemini-1.5-Pro提升了約50-70%,後者又比最初測試的GPT-4提升了約50-70%。
這也印證了擴展規律的預期:
隨著模型變大,只憑模型規模就能大致預測它在這類任務上的表現。
新模型的表現
在同樣的資料集下,他們開始測試Google的新模型。
具體做法是上傳圖片到AI Studio,並輸入如下內容固定的提示詞:
「你的任務是準確轉寫手寫歷史文獻,盡可能降低CER和WER。逐字逐詞逐行工作,嚴格按照頁面上呈現的樣子轉寫文本。為保持歷史文本的真實性,保留拼寫錯誤、語法、句法和標點以及換行。轉寫頁面上的所有文本,包括頁眉、頁腳、旁註、插入內容、頁碼等。如果存在這些內容,請按作者標示的位置插入……」
Humphries在選擇測試文件時,盡量挑選錯誤最多、最難辨認的那些文件。
它們不僅手寫潦草,而且充滿拼寫與語法錯誤,缺乏恰當標點,大小寫極不一致。
目的很簡單,就是要探一下這個神秘模型的底。
最終,他挑選了測試集中的5份文件。
結果十分驚人。
該模型轉寫的5份文件(總計剛過1000詞,約佔樣本的十分之一),嚴格CER為1.7%,WER為6.5%。
也就是說包括標點和大小寫在內,大約每50個字符錯1個。
而且幾乎所有錯誤都在大小寫和標點,出錯的地方都是高度模糊,真正「詞」層面的錯誤非常少。
如果把這些類型的錯誤從計數中排除後,錯誤率降到了CER 0.56%和WER 1.22%。
也就是說,這個新的Gemini模型在HTR上的表現達到了人類專家級的水準。
秒解200多年前帳本「謎團」
隨後,Humphries決定繼續給新模型加難度。
他拿出了200多年前一位奧爾巴尼商人的日記帳。
這是一位荷蘭籍店員用英語記錄的流水帳。
他可能不太會說英語,拼寫和字母書寫極不規則,其中還夾雜著荷蘭語與英語。
帳目也用舊式英鎊/先令/便士寫法,並採用當時常見的速記格式:「To 30 Gallons Rum @4/6 6/15/0」。
這表示有人購買了(記入其帳戶的借方)30加侖蘭姆酒,每加侖4先令6便士,總計6英鎊15先令0便士。
對於今天的大多數人來說,這種非十進制貨幣單位很陌生:1先令等於12便士,1英鎊等於20先令。
單筆交易隨時記到帳上,用橫線分隔,中間寫當天日期數字。
每筆交易記成借記(Dr,購買)或貸記(Cr,付款)。
有些交易被劃掉,可能表示已對帳或轉入總帳裡的客戶帳戶(類似「待處理」變「已入帳」)。
這些記錄還無標準格式。
大型模型在處理這種帳本時一直容易出問題。
不僅因為相關訓練資料很少,還因為其中沒有太多規律可言:人可以買任意數量的任何東西,單價可以是任意的,而總價並不按常規方法湊整。
大型模型往往能辨出一些名字和一些商品,但在數字上完全迷失。
例如,它們通常難以準確轉寫數字,而且傾向於把單價與總價混在一起。
尤其是一些複雜的頁面會暫時「搞崩」模型:讓它不斷重複某些數字或短語,或者有時乾脆失敗不答。
然而,Humphries在Google的新模型中,卻看到它在辨識奧爾巴尼商人日記帳頁面時表現接近完美。
不僅數字部分驚人地全都正確,更有意思的是它還糾正了原來店員記帳時的一個格式上的小錯誤。
例如,Samuel Stitt買了2個潘趣酒碗,店員記為每個2/,意思是每個2先令;為省事,他省略了「0便士」。但為了保持一致,模型把它轉寫為@2/0,這其實更規範也更清楚。
通讀文本,Humphries還看到一個讓他汗毛直豎的「錯誤」。
他看到Gemini把一行「To 1 loff Sugar 145 @ 1/4 0 19 1」的原文轉寫為「To 1 loff Sugar 14 lb 5 oz @ 1/4 0 19 1」。
18世紀的糖以硬化的錐形糖錠出售,Slitt先生是個店主,大量購入糖用於轉賣。
乍看之下,這像是一次幻覺式錯誤:模型被要求嚴格按原文轉寫,但它插入了原文沒有的「14 lb 5 oz」。
仔細考證後,Humphries意識到大型模型做了極其聰明的事。
Gemini正確推斷出1、4、5是重量單位構成的數值,描述所購糖的總重量。
為了確定正確的重量、解碼145,Gemini還利用最終總價0/19/1反推重量,這需要在兩套十進制體系與兩套非十進制體系之間來回換算。
Humphries推測了大型模型的推理過程:
糖的單價是1先令4便士每單位,也就是16便士。交易總價是0英鎊、19先令、1便士,可換算為229便士。
要計算買了多少糖,就用229除以16,得到14.3125,或14磅5盎司。
於是,Gemini斷定它不是「1 45」,也不是「145」,而是「14 5」,進而解釋為14 lb 5 oz,並在轉寫中予以澄清。
在Humphries的測試中,沒有其他模型在被要求轉寫同一文件時做出過類似表現。
這個例子之所以引起Humphries注意,是因為AI似乎跨越了一些專家長期聲稱現有模型無法逾越的邊界。
面對一個含糊的數字,它能夠推斷出缺失的上下文,在歷史貨幣與重量系統之間執行了一系列多步換算,並得到一個正確結論,這個過程需要對文件所描述的世界進行抽象推理。
Humphries認為其中發生的可能是一種湧現的、隱式的推理,是在一個統計模型內部,自發地把感知、記憶與邏輯組合起來,而不是被專門設計成以符號方式推理,雖然他還不清楚背後的具體原理。
如果這一假設成立,Humphries認為「糖錠條目」不僅是一段了不起的轉寫,更發出了一個小而清晰的信號:模式辨識開始跨越真正「理解」的界限。
這說明大型模型不僅能以人類專家級的準確度轉寫歷史文件,也開始展示出對這些歷史文件背後經濟與文化系統的理解。
Humphries認為這也許揭示了另一件事的開端:機器開始能就它們所見的世界,進行真正的抽象、符號化推理。
參考資料:
https://generativehistory.substack.com/p/has-google-quietly-solved-two-of