AIが18世紀の「謎の帳簿」を瞬時に解読！Googleの新モデルがブラインドテストで話題に

新智元レポート編集：元宇

【新智元ガイド】最近、Google AI Studio上の謎のモデルが、200年以上前の商人の「暗号のような」帳簿を成功裏に識別しただけでなく、その中の書式エラーや曖昧な表現も修正し、その推論能力は歴史家を驚かせました。

Googleは、密かにAI界の二つの古くからの難題を解決したのでしょうか？

少し前、Google AI Studio上の謎のモデルがインターネットユーザーの注目を集めました。その中には歴史家のマーク・ハンフリーズ氏もいました。

彼は200年以上前のオールバニの商人の「暗号のような」帳簿を持ち出し、手書き文字認識（HTR）における大規模モデルの能力をテストしました。

驚くべき出来事が起こりました！

謎のモデルは、手書きの自動認識においてほぼ満点に近い結果を出しただけでなく、元の帳簿の書式エラーを修正し、曖昧さを引き起こす可能性のある表現を最適化しました。

これは、このモデルが文字を認識するだけでなく、文字の背後にある論理と知識的背景を理解できることを意味します。

さらに、これらの能力は、モデルに明示的な指示がない状態で示されました。

専門家レベルの手書き文字認識能力と、明示的なルールなしでの推論能力の解決は、AIモデルの能力における飛躍を示しています。

ネットユーザーは、この謎のモデルがGoogleが今年リリースすると予想されるGemini-3である可能性を推測していますが、公式には確認されていません。

歴史家の難題を解決

マーク・ハンフリーズ氏は、ウィルフリッド・ローリエ大学の歴史学教授です。

歴史家として、彼はAIが自身の専門分野で人間の専門家レベルの推論能力に達しているかどうかを非常に懸念していました。

そのため、ハンフリーズ氏は歴史的な手書き文字の認識に大規模モデルをテストすることを選びました。彼はこれを大規模モデルの全体的な能力を検証する「黄金のテスト」と考えています。

歴史的な手書き文字の認識は、単なる視覚的なタスクではなく、歴史的写本の背景にある歴史的知識を理解する必要があります。

これらの知識がなければ、歴史的文書を正確に識別し、転写することはほぼ不可能です。

ハンフリーズ氏の見解では、これこそが歴史的文書の中で最も識別が難しい部分です。

大規模モデルの能力が発展するにつれて、HTRの認識精度は90%を超えることができますが、残りの10%が最も難しく、最も重要です。

ハンフリーズ氏は、今日の大規模モデル（Transformerアーキテクチャ）は本質的に予測的である（その核となるメカニズムは次のトークンを予測すること）と考えていますが、歴史的文書のスペルミスやスタイルの一貫性のなさは、本来予測不可能で発生確率の低い答えです。

したがって、「the cat sat on the rugg」を「mat」ではなく「rugg」と転写するためには、モデルは訓練分布の傾向に逆らって行動する必要があります。

これが、大規模モデルが不慣れな人名（特に姓）、珍しい地名、日付、または数字（金額など）を転写するのが苦手な理由です。

例えば、手紙はRichard Darbyによって書かれたのか、それともRichard Derbyによって書かれたのか？日付は1762年3月15日なのか、それとも1782年3月16日なのか？請求書は339ドルなのか、それとも331ドルなのか？

歴史的文書において、このような判読困難な文字や数字が現れる場合、しばしば他の種類の背景知識を通じて答えを見つける必要があります。

ハンフリーズ氏は、「この『最後の1マイルの正確さ』こそが、歴史的な手書き文字認識が人間によって使用される前提である」と考えています。

予測型アーキテクチャに「天井」はあるのか？

手書き転写の正確性を測るため、ハンフリーズ氏とリアン・レディ博士は、50の文書、合計約1万語からなるテストセットを特別に作成しました。

さらに、彼らはこれらの文書が大規模モデルの訓練データに含まれていないことを最大限に保証するため、あらゆる合理的な予防策を講じました。

このテストセットには、識別が困難な走り書きから公式な書記の筆跡まで、さまざまなスタイルの筆記と、さまざまなツールで撮影された画像が含まれていました。

ハンフリーズ氏の見解では、これらの文書は彼や18世紀、19世紀の英語文献を研究する歴史家が最も頻繁に遭遇するタイプを表しています。

彼らは文字誤り率（CER）と単語誤り率（WER）を用いて転写エラーの割合を測定しました。

研究によると、非専門家のWERは通常4〜10%です。

専門的な転写サービスでさえ少数のエラーを予想しており、テキストが明確で読みやすいという前提で、通常1%のWERを保証しています。

したがって、これが正確さの基本的な上限です。

昨年、ハンフリーズ氏らのテストセットにおいて、Gemini-2.5-Proの性能は以下の通りでした：

厳密なCERは4%、WERは11%でした。

大文字と小文字、句読点のエラー（これらは通常、テキストの実際の意味を変えたり、検索可能性や可読性に影響を与えたりしない）を除外すると、これらのエラー率はCER 2%、WER 4%にまで減少しました。

ハンフリーズ氏はまた、各世代のモデルの改善が着実に進んでいることも発見しました。

Gemini-2.5-Proの成績は、数ヶ月前にテストしたGemini-1.5-Proよりも約50〜70%向上しており、Gemini-1.5-Proは、最初にテストしたGPT-4よりも約50〜70%向上していました。

これは、スケール則の期待を裏付けるものです。

モデルが大きくなるにつれて、モデルの規模だけで、この種のタスクでの性能を大まかに予測できます。

新モデルの性能

同じデータセットを使用して、彼らはGoogleの新しいモデルのテストを開始しました。

具体的な方法は、画像をAI Studioにアップロードし、以下の固定されたプロンプトを入力することでした：

「あなたの任務は、手書きの歴史文書を正確に転写し、CERとWERを可能な限り低くすることです。一語一語、一行一行作業し、ページに表示されている通りに厳密にテキストを転写してください。歴史的テキストの信憑性を保つため、スペルミス、文法、構文、句読点、改行を保持してください。ヘッダー、フッター、余白の注記、挿入内容、ページ番号など、ページ上のすべてのテキストを転写してください。これらの内容が存在する場合は、著者が示している場所に挿入してください…」

ハンフリーズ氏はテスト文書を選ぶ際、最もエラーが多く、最も判読困難な文書を意図的に選びました。

それらは、走り書きであるだけでなく、スペルや文法の間違いだらけで、適切な句読点が欠けており、大文字と小文字の使い方も非常に一貫性がありませんでした。

目的は単純で、この謎のモデルの底力を探ることでした。

最終的に、彼はテストセットから5つの文書を選びました。

結果は驚くべきものでした。

このモデルが転写した5つの文書（合計1000語強、サンプル全体の約10分の1）では、厳密なCERは1.7%、WERは6.5%でした。

つまり、句読点や大文字と小文字を含めると、約50文字に1つのエラーが発生したことになります。

しかも、ほとんどすべてのエラーは大文字と小文字、句読点に関するもので、エラー箇所は非常に曖昧で、真の「単語」レベルのエラーは非常に少なかったです。

これらのタイプのエラーをカウントから除外すると、エラー率はCER 0.56%、WER 1.22%にまで減少しました。

つまり、この新しいGeminiモデルのHTRにおける性能は、人間レベルの専門家の水準に達したということです。

200年以上前の帳簿の「謎」を瞬時に解読

その後、ハンフリーズ氏は新モデルにさらなる難題を課すことを決定しました。

彼は200年以上前のオールバニの商人の日記帳を持ち出しました。

これは、オランダ人店員が英語で記録した流水帳でした。

彼はおそらく英語があまり得意ではなく、スペルや文字の書き方が非常に不規則で、オランダ語と英語が混ざっていました。

帳簿は古いポンド/シリング/ペンス表記が使われ、当時一般的だった速記形式「To 30 Gallons Rum @4/6 6/15/0」が採用されていました。

これは、誰かが（そのアカウントの借方として）30ガロンのラム酒を、1ガロンあたり4シリング6ペンスで合計6ポンド15シリング0ペンスで購入したことを意味します。

今日のほとんどの人にとって、このような非十進法通貨単位は馴染みがありません。1シリングは12ペンス、1ポンドは20シリングです。

個々の取引は随時帳簿に記帳され、横線で区切られ、中央にその日の日付が数字で書かれています。

各取引は借方（Dr、購入）または貸方（Cr、支払い）として記録されます。

一部の取引は取り消し線が引かれており、おそらく帳簿が照合されたか、総勘定元帳の顧客口座に転記された（「保留中」が「記帳済み」になったような）ことを示していると思われます。

これらの記録は標準的な形式もありませんでした。

大規模モデルは、このような帳簿を処理する際に常に問題が発生しやすかったです。

関連する訓練データが非常に少ないだけでなく、その中にあまり規則性がなかったためです。人々は任意の量のどんなものでも、任意の単価で購入でき、総額は通常の丸め方では整いませんでした。

大規模モデルは、ある程度の名前や商品を見分けることはできても、数字に関しては完全に迷子になっていました。

例えば、通常は数字を正確に転写するのが難しく、単価と総額を混同しがちでした。

特に複雑なページでは、モデルが一時的に「崩壊」し、特定の数字やフレーズを繰り返し続けたり、時には完全に失敗して回答しなかったりすることがありました。

しかし、ハンフリーズ氏はGoogleの新しいモデルで、オールバニの商人の日記帳のページを認識する際に、ほぼ完璧なパフォーマンスを見せました。

数字の部分が驚くほどすべて正しかっただけでなく、さらに興味深いことに、元の店員が記帳時に行った書式上の小さな間違いも修正しました。

例えば、サミュエル・スティットがパンチボウルを2つ購入した際、店員は「各2/」と記帳しました。これは各2シリングを意味しますが、手間を省くために「0ペンス」を省略していました。しかし、一貫性を保つため、モデルはそれを「@2/0」と転写しました。これは実際にはより標準化されており、より明確です。

テキストを読み進めるうちに、ハンフリーズ氏は身の毛がよだつような「エラー」にも遭遇しました。

彼は、Geminiが「To 1 loff Sugar 145 @ 1/4 0 19 1」という元の行を「To 1 loff Sugar 14 lb 5 oz @ 1/4 0 19 1」と転写しているのを見ました。

18世紀、砂糖は硬化された円錐形の砂糖塊として販売されており、スリット氏は店主で、転売用に大量の砂糖を仕入れていました。

一見すると、これは幻覚的なエラーのように見えました。モデルは原文を厳密に転写するよう求められたのに、原文にはない「14 lb 5 oz」を挿入したからです。

綿密な調査の後、ハンフリーズ氏は大規模モデルが極めて賢いことをしたと気づきました。

Geminiは1、4、5が重量単位を構成する数値であり、購入した砂糖の総重量を表していると正しく推論しました。

正しい重量を特定し、145を解読するために、Geminiは最終的な合計金額0/19/1を利用して重量を逆算しました。これには、2つの十進法システムと2つの非十進法システムの間で往復換算を行う必要がありました。

ハンフリーズ氏が推測した大規模モデルの推論プロセスは次のとおりです。

砂糖の単価は1単位あたり1シリング4ペンス、つまり16ペンスでした。取引の合計金額は0ポンド19シリング1ペンスで、229ペンスに換算できます。

購入した砂糖の量を計算するには、229を16で割ると14.3125、つまり14ポンド5オンスが得られます。

そこで、Geminiはそれが「1 45」でも「145」でもなく、「14 5」であり、さらに14 lb 5 ozであることを確信し、転写でそれを明確にしました。

ハンフリーズ氏のテストでは、同じ文書を転写するよう求められた他のモデルで、同様のパフォーマンスを示したものはありませんでした。

この例がハンフリーズ氏の注意を引いたのは、AIが、専門家が既存のモデルでは乗り越えられないと長年主張してきた境界を越えたように見えたからです。

曖昧な数字に直面し、不足している文脈を推論し、歴史的な通貨と重量システムの間で一連の多段階換算を実行し、正しい結論に達することができました。このプロセスは、文書に記述されている世界について抽象的な推論を行う必要があります。

ハンフリーズ氏は、そこで起こったのは、統計モデルの内部で知覚、記憶、論理が自発的に組み合わされた、創発的で暗黙的な推論であり、記号的に推論するように特別に設計されたものではないと考えていますが、その具体的な原理についてはまだ明らかではありません。

もしこの仮説が正しければ、ハンフリーズ氏は「砂糖の塊の項目」は単なる素晴らしい転写であるだけでなく、パターン認識が真の「理解」の境界を越え始めたという小さくも明確な信号を発していると見ています。

これは、大規模モデルが人間レベルの専門家の精度で歴史文書を転写できるだけでなく、これらの歴史文書の背後にある経済的・文化的システムを理解し始めたことを示しています。

ハンフリーズ氏は、これはもしかすると、機械が彼らが見る世界について、真の抽象的、記号的な推論を開始するという、もう一つの事柄の始まりを示しているのかもしれないと考えています。

参考文献：

https://generativehistory.substack.com/p/has-google-quietly-solved-two-of

AIが18世紀の「謎の帳簿」を瞬時に解読！Googleの新モデルがブラインドテストで話題に

短いURLをシェア