天天看點

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

衡宇 發自 凹非寺

量子位 | 公衆号 QbitAI

Claude團隊這次惹了衆怒!

原因:24小時内通路某公司伺服器100萬次,以不付費形式,爬蟲抓取網站内容。

不僅明目張膽無視了“禁止爬取”的公告,還強行占用了伺服器資源。

這家“受害者”公司其實盡力防禦了,但阻止失敗,内容資料還是被Claude抓走了。

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

公司負責人氣得吹胡子瞪眼,在x上激情開麥:

嘿,Anthropic,我知道您渴望資料。Claude真的很聰明!

但你造嗎,這一點也不!酷!哦!

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

許多網友為此憤憤不平,有個搞文案工作的網友留言稱:

“我建議用‘偷’,而不是‘不付費’來描述Anthropic的這種行為。”

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

一時之間,群情激憤!

支援聲讨的,要求Claude付費的,評論區簡直亂成一鍋粥了。

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

這是怎麼回事

強烈譴責Anthropic的這家公司叫做iFixit,是一家美國電子商務和操作指南網站。

iFixit的業務的一部分,是為消費電子産品和小工具提供類維基百科的免費線上維修指南。

網站内有數百萬個頁面,包括修理指南、指南的修訂曆史、部落格、新聞文章和研究、論壇、社群貢獻的修理指南和問答部分等。

但,iFixit突然發現,Claude的爬蟲程式ClaudeBot在幾個小時内,每分鐘都有數千次請求通路。

這約等于一天内通路其網站近百萬次。

據統計,它一天内通路了10 TB的檔案,整個5月份總計通路了73 TB。

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

為此,iFixit的CEO老K(Kyle Wiens)丢下一句話:

未經許可,ClaudeBot偷走我們所有的資料,還把我們的伺服器占滿了……Fine,這也沒什麼大不了。

不知道它有沒有爬到我們的許可說明??

對你沒看錯,「未經許可」。

iFixit其實有寫聲明——

未經iFixit明确事先書面許可,嚴禁因為任何其他目的(包括訓練機器學習或人工智能模型)複制、複制或分發本網站上的任何内容、材料或設計元素。

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

然并卵。

Claude不僅視若無睹地繼續瘋狂通路-抓取,還躲避了iFixit的防禦。

iFixit其實成功阻止了兩個Anthropic的AI抓取機器人,分别名為“ANTHROPIC-AI”和“CLAUDE-WEB”。

但這倆AI抓取機器人似乎已經是過去式了,目前的主力爬蟲正是沒被阻止成功的“ClaudeBot”。

逼不得已,老K表示,iFixit本周修改了robots.txt檔案,專門用來阻止Anthropic的爬蟲機器人。

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

那,Anthropic那邊有啥反應不?

它們倒是沒有閉麥,對媒體回應道:

ANTHROPIC-AI 和 CLAUDE-WEB 這倆确實是公司使用過的舊爬蟲,但現在已經停止使用了。

當然了,Anthropic回避了現在活躍的ClaudeBot是否尊重防爬蟲robots.txt阻止被爬取的問題。

AI公司不是第一次幹這事兒了

翻看Anthropic的官方網站可以發現,早就挂着一篇名為《Anthropic是否從網絡上抓取資料?網站所有者如何阻止抓取工具?》的文章。

裡面提到:

根據行業标準,Anthropic使用各種資料源進行模型開發,例如通過網絡爬蟲收集的來自網際網路的公開資料。

我們的爬取不應具有侵入性或破壞性。

我們的目标是通過考慮爬取相同域的速度,并在适當的情況下尊重爬行延遲來将幹擾降到最低。

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

但一片輿論聲中不難發現,Anthropic顯然不是這麼做的。

它,未經允許爬取别人資料,老慣犯了。

就說今年4月的時候,Linux Mint論壇就慘遭被爬。

在幾個小時中,ClaudeBot多次通路論壇爬取資料,導緻論壇在幾個小時内處于超低速or崩潰狀态,最終完全崩掉。

有人表示,在同一時間内,ClaudeBot占用的流量獨占鳌頭,是第二名的20倍、第三名的40倍。

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

在4月事件和本次事件的讨論貼中,都有人建議:

既然放禁爬取公告沒有用,那不放在網站中搞一些帶有可追蹤or獨特資訊的虛假資訊,以便檢測是誰偷走了資料。

iFixit确實也這麼做了。

而且真的有用——發現自家網站的資訊不僅被Claude爬個底朝天,還被OpenAI也爬走了……

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

講道理,有什麼辦法呢?真的一點辦法也沒有。

因為除了Claude和GPT以外,這樣強行偷家的AI挺不少的。

前幾天就有一家名為Tollbit的機器人檢測初創公司聲稱Perplexity、Claude、OpenAI會忽略爬取網站上的robots.txt設定——當時有人跑去問了OpenAI的态度,OpenAI不予置評。

Claude團隊引衆怒,為爬資料不擇手段,給爬蟲改名字無視禁止規則

再往前看,上個月也鬧過一次。

《福布斯》譴責AI搜尋産品Perplexity涉嫌抄襲其新聞文章;一石激起千層浪,更多媒體站出來,指責Perplexity的爬蟲機器人PerplexityBot非法抓取自家網站資訊。

而Perplexity一直的态度都是:

尊重出版商不抓取内容的要求,并且在合理使用版權法的範圍内營運。

理論上講,不管是ClaudeBot還是PerplexityBot,在遇到标明“禁止抓取”“禁止robot.txt”的檔案時,都應該遵從協定,規避爬取聲明方網站的内容。

既然聲明無效,就有人呼籲創作者把内容盡可能轉移到付費區域,來防止無限制的抓取。

你覺得這樣的辦法會有效嗎?

參考連結:

[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/

[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/

[3]https://twitter.com/kwiens/status/1816128302542905620

[4]https://x.com/Carnage4Life/status/1804316030665396356

[5]https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler?ref=404media.co

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀