新智元報導
編輯:犀牛
【新智元導讀】學術網站本是知識的寶庫,卻因AI爬蟲的瘋狂掠奪而陷入癱瘓。從DiscoverLife到BMJ,數百萬次異常訪問讓伺服器不堪重負,威脅著開放取用的科研命脈。這場「數位蝗災」究竟因何而起?學術界又該如何應對?
假如一個平日裡寧靜的圖書館,突然湧入一大群不速之客,他們不閱覽、不沉思,只是一味地瘋狂影印每一本書的每一頁。
這喧囂吵鬧的場面,怎能不打擾那些正埋首書海、專心閱讀的人們呢?
如今,學術網站正遭遇類似的「數位入侵」。
就在近日,Nature發表文章詳細揭露了這些行為。
文章地址:https://www.nature.com/articles/d41586-025-01661-4
數位「蝗災」席捲學術界
DiscoverLife是一個線上圖像庫,擁有近300萬張珍貴的物種照片,是很多生物學家的科研生命線。
然而,從今年2月開始,該網站每天都被數百萬次異常訪問淹沒,頁面載入緩慢,甚至徹底癱瘓。
當你試圖打開一張稀有昆蟲的圖片時,卻只能面對「伺服器繁忙」的提示。
罪魁禍首是誰?
不是駭客,也不是病毒,而是一群悄無聲息的AI爬蟲,正在瘋狂「啃食」資料,為生成式人工智慧「餵食」。
這些大量抓取資料的爬蟲,正困擾學術出版商與研究人員,尤其是營運期刊論文、資料庫和其他資源網站的人。
「現在的情況就像是西部大荒野,」PSI公司的執行長Andrew Pitts說。該公司為學術交流界提供經過驗證的全球IP位址庫,位於英國牛津。
「最大的問題是訪問量實在是太大了,給系統帶來了巨大的壓力。這不僅耗費資金,還干擾了真正的使用者。」
那些營運受到影響的網站正在想方設法阻止這些爬蟲機器人,減少它們造成的干擾。
但這絕非易事。特別是對資源有限的小機構來說。
「如果這些問題得不到解決,一些小型機構可能會徹底消失。」德國斯圖加特國家自然歷史博物館的動物學家Michael Orr表示。
爬蟲程式氾濫
網際網路爬蟲並非新生事物。
幾十年來,Google等搜尋引擎的爬蟲一直在掃描網頁,助力資訊檢索。
然而,生成式AI的崛起引發了「壞爬蟲」的洪流。
今年,位於倫敦的醫學期刊出版商BMJ發現,其網站上的爬蟲機器人流量已經超過了真實使用者的流量。
BMJ的技術長Ian Mulvany表示,這些機器人激進的行為導致伺服器超載,正常客戶的服務也因此中斷。
不只BMJ,Highwire Press(專攻學術出版的網際網路託管服務提供商)的服務交付總監Jes Kainth直言:「我們觀察到壞爬蟲的流量激增,這已成為嚴重的問題。」
開放取用知識庫聯合會(COAR)在四月份的報告中指出,在其調查的66個成員中,超過90%的成員表示曾遭遇AI爬蟲抓取內容。
其中大約三分之二的成員因此經歷了服務中斷。
COAR執行主任Kathleen Shearer表示:「我們的知識庫是開放取用的,所以某種程度上我們歡迎內容被再利用。但有些爬蟲過於激進,正造成當機等嚴重營運問題。」
為何盯上學術網站?
資料是新石油。
這句話在AI時代被演繹得淋漓盡致。
大型語言模型(LLM)、圖像生成器這些AI工具依賴海量高品質資料進行訓練,而學術網站(期刊論文、資料庫、開放知識庫)成了「金礦」。
因為這些網站內容權威、新鮮,且往往結構化良好。
正如網路服務提供商Cloudflare副總裁Will Allen所言:「如果你的內容新穎或相關度高,對建構AI聊天機器人的開發者來說就是無價之寶。」
這些爬蟲往往透過匿名IP位址行動,繞過付費牆,甚至無視網站設定的robots.txt檔案(用於規範爬蟲行為)。
Wiley出版社的高級副總裁Josh Jarrett表示,他們發現爬蟲試圖獲取訂閱內容。4月,Wiley還發布聲明,強調未經授權的非法爬取不可接受。
但精明的壞爬蟲非常擅長繞過付費牆。
危機下的掙扎
面對爬蟲洪流,學術網站在奮力自救。
但在許多情況下,限制機器人訪問而不影響正常使用者十分困難。
一種常見的方法是整合一個檔案,告知機器人哪些行為被允許或禁止。
但壞爬蟲往往無視規則。
另一種方法是全面封禁所有爬蟲類似的行為,但這種一刀切的行為又可能誤傷合法使用者。
Mulvany解釋說,學者常透過代理伺服器訪問期刊(這意味著大量請求可能來自同一個IP位址),這種訪問方式很像是機器人行為。
「我們得找到一個平衡點,既要保護網站不被流量激增搞崩,又不能影響使用者正常訪問這些資源。」Mulvany表示。
「這事真挺煩人的,得花不少精力來減少這些風險。」
這些網站也可以屏蔽掉特定的爬蟲程式,但需要首先區分善意和惡意爬蟲。
Cloudflare和PSI公司正努力識別壞爬蟲,但新型AI爬蟲層出不窮,難以完全遏制。
「我們急需國際上達成關於AI公平使用和尊重這類資源的協議。」Orr表示。
「否則,長遠來看,這些工具將找不到可用的訓練資源。」
參考資料:
https://www.nature.com/articles/d41586-025-01661-4
https://coar-repositories.org/news-updates/open-repositories-are-being-profoundly-impa cted-by-ai-bots-and-other-crawlers-results-of-a-coar-survey/