新智元レポート
編集:犀牛
【新智元概要】学術ウェブサイトは知識の宝庫であるはずが、AIクローラーによる狂気的な略奪によって機能不全に陥っています。DiscoverLifeからBMJに至るまで、数百万回もの異常なアクセスがサーバーに過負荷をかけ、オープンアクセス研究の生命線を脅かしています。この「デジタルイナゴの襲来」はいったい何が原因で、学術界はどのように対処すべきでしょうか?
もし、普段静かな図書館に、突然大勢の招かれざる客が押し寄せ、彼らが本を読んだり、思索にふけったりせず、ただひたすらすべての本のすべてのページを狂ったようにコピーし続けるとしたらどうでしょう。
この騒がしい光景は、書物に没頭し、集中して読書している人々を邪魔せずにはいられないでしょう?
今日、学術ウェブサイトは同様の「デジタル侵入」に直面しています。
最近、Natureはこれらの行為を詳細に暴く記事を掲載しました。
記事URL:https://www.nature.com/articles/d41586-025-01661-4
デジタル「イナゴの襲来」が学術界を席巻
DiscoverLifeは、約300万枚の貴重な種の写真を収蔵するオンライン画像ライブラリであり、多くの生物学者にとって研究の生命線です。
しかし、今年2月以降、このウェブサイトは毎日数百万回もの異常なアクセスに悩まされ、ページの読み込みが遅くなったり、完全に機能停止したりしています。
あなたが珍しい昆虫の画像を開こうとしても、「サーバーが混雑しています」というメッセージに直面するだけかもしれません。
犯人は誰でしょう?
ハッカーでも、ウイルスでもありません。静かにデータを「食い荒らし」、生成AIに「餌を与えている」AIクローラーの群れです。
これらの大量にデータを取得するクローラーは、学術出版社や研究者、特に学術雑誌の論文、データベース、その他のリソースウェブサイトを運営する人々を悩ませています。
「今の状況はまるで西部開拓時代のようなものです」と、学術コミュニケーション界に検証済みのグローバルIPアドレスデータベースを提供する英国オックスフォードのPSI社のCEO、Andrew Pitts氏は述べています。
「最大の問題は、アクセス量が単純に多すぎて、システムに巨大な負荷をかけていることです。これは資金を浪費するだけでなく、真のユーザーの邪魔にもなります。」
影響を受けているウェブサイトは、これらのクローラーボットを阻止し、引き起こされる干渉を減らすためにあらゆる手段を講じています。
しかし、これは決して簡単なことではありません。特にリソースが限られている小規模な機関にとっては。
「これらの問題が解決されなければ、一部の小規模な機関は完全に消滅するかもしれません」と、ドイツのシュトゥットガルト国立自然史博物館の動物学者Michael Orr氏は述べています。
クローラープログラムの氾濫
インターネットクローラーは新しいものではありません。
何十年もの間、Googleのような検索エンジンのクローラーはウェブページをスキャンし、情報検索を助けてきました。
しかし、生成AIの台頭が「悪意のあるクローラー」の洪水を引き起こしました。
今年、ロンドンに拠点を置く医学雑誌出版社BMJは、自社のウェブサイトのクローラーボットのトラフィックが、実際のユーザーのトラフィックを超えていることを発見しました。
BMJの最高技術責任者Ian Mulvany氏は、これらのボットの攻撃的な行動がサーバーの過負荷を引き起こし、その結果、通常の顧客サービスが中断したと述べています。
BMJだけでなく、学術出版専門のインターネットホスティングサービスプロバイダーであるHighwire PressのサービスデリバリーディレクターJes Kainth氏は、「悪意のあるクローラーのトラフィックが急増しているのを観察しており、これは深刻な問題になっています」と率直に述べています。
オープンアクセス知識リポジトリ連合(COAR)は4月の報告書で、調査対象の66の会員のうち、90%以上がAIクローラーによるコンテンツの取得に遭遇したと指摘しました。
そのうち約3分の2の会員が、その結果としてサービス中断を経験しました。
COARのエグゼクティブディレクターKathleen Shearer氏は、「私たちの知識リポジトリはオープンアクセスなので、ある意味でコンテンツの再利用を歓迎します。しかし、一部のクローラーはあまりにも積極的で、ダウンタイムなどの深刻な運用上の問題を引き起こしています」と述べています。
なぜ学術ウェブサイトを狙うのか?
データは新しい石油です。
この言葉はAI時代において如実に示されています。
LLMや画像生成器といったAIツールは、大量の高品質データを用いた学習に依存しており、学術ウェブサイト(学術論文、データベース、オープン知識リポジトリ)は「金鉱」となっています。
これらのウェブサイトのコンテンツは権威があり、新鮮で、しばしば構造化されているからです。
ネットワークサービスプロバイダーCloudflareのバイスプレジデントであるWill Allen氏が述べたように、「あなたのコンテンツが新奇であるか、関連性が高い場合、AIチャットボットを構築する開発者にとってそれはかけがえのない宝物です。」
これらのクローラーは匿名IPアドレスを通じて活動し、有料ウォールを迂回したり、ウェブサイトが設定したrobots.txtファイル(クローラーの動作を規制するためのもの)を無視したりすることがよくあります。
Wiley出版社の上級副社長Josh Jarrett氏は、クローラーが購読コンテンツを取得しようとしていることを発見したと述べています。4月には、Wileyも未承認の違法なスクレイピングは容認できないことを強調する声明を発表しました。
しかし、巧妙な悪意のあるクローラーは有料ウォールを回避するのが非常に得意です。
危機下での奮闘
クローラーの洪水に直面し、学術ウェブサイトは自力で解決策を見出そうと奮闘しています。
しかし、多くの場合、通常のユーザーに影響を与えることなくボットのアクセスを制限することは非常に困難です。
一般的な方法としては、ボットに許可または禁止される行動を伝えるファイルを統合することです。
しかし、悪意のあるクローラーはしばしば規則を無視します。
別の方法は、すべてのクローラー類似の行動を全面的に禁止することですが、このような一律の禁止は合法的なユーザーに誤って影響を与える可能性があります。
Mulvany氏は、学者が代理サーバーを介してジャーナルにアクセスすることが多い(これは、多数のリクエストが同じIPアドレスから来る可能性があることを意味する)ため、このアクセス方法はボットの行動に非常に似ていると説明しました。
「私たちは、トラフィックの急増によってウェブサイトがダウンするのを防ぎつつ、ユーザーがこれらのリソースに正常にアクセスするのを妨げないというバランスを見つけなければなりません」とMulvany氏は述べています。
「これは本当に厄介な問題で、これらのリスクを軽減するために多くの労力を費やす必要があります。」
これらのウェブサイトは特定のクローラープログラムをブロックすることもできますが、そのためにはまず善意のクローラーと悪意のあるクローラーを区別する必要があります。
CloudflareとPSI社は悪意のあるクローラーの特定に努めていますが、新しいタイプのAIクローラーが次々と出現し、完全に阻止することは困難です。
「私たちは、AIの公平な利用と、これらのリソースを尊重することに関する国際的な合意を緊急に必要としています」とOrr氏は述べています。
「そうでなければ、長期的には、これらのツールは利用可能な学習リソースを見つけることができなくなるでしょう。」
参考文献:
https://www.nature.com/articles/d41586-025-01661-4
https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impa cted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/