衡宇 發自 凹非寺
量子位 | 公衆号 QbitAI
Claude團隊這次惹了衆怒!
原因:24小時内通路某公司伺服器100萬次,以不付費形式,爬蟲抓取網站内容。
不僅明目張膽無視了“禁止爬取”的公告,還強行占用了伺服器資源。
這家“受害者”公司其實盡力防禦了,但阻止失敗,内容資料還是被Claude抓走了。
公司負責人氣得吹胡子瞪眼,在x上激情開麥:
嘿,Anthropic,我知道您渴望資料。Claude真的很聰明!
但你造嗎,這一點也不!酷!哦!
許多網友為此憤憤不平,有個搞文案工作的網友留言稱:
“我建議用‘偷’,而不是‘不付費’來描述Anthropic的這種行為。”
一時之間,群情激憤!
支援聲讨的,要求Claude付費的,評論區簡直亂成一鍋粥了。
這是怎麼回事
強烈譴責Anthropic的這家公司叫做iFixit,是一家美國電子商務和操作指南網站。
iFixit的業務的一部分,是為消費電子産品和小工具提供類維基百科的免費線上維修指南。
網站内有數百萬個頁面,包括修理指南、指南的修訂曆史、部落格、新聞文章和研究、論壇、社群貢獻的修理指南和問答部分等。
但,iFixit突然發現,Claude的爬蟲程式ClaudeBot在幾個小時内,每分鐘都有數千次請求通路。
這約等于一天内通路其網站近百萬次。
據統計,它一天内通路了10 TB的檔案,整個5月份總計通路了73 TB。
為此,iFixit的CEO老K(Kyle Wiens)丢下一句話:
未經許可,ClaudeBot偷走我們所有的資料,還把我們的伺服器占滿了……Fine,這也沒什麼大不了。
不知道它有沒有爬到我們的許可說明??
對你沒看錯,「未經許可」。
iFixit其實有寫聲明——
未經iFixit明确事先書面許可,嚴禁因為任何其他目的(包括訓練機器學習或人工智能模型)複制、複制或分發本網站上的任何内容、材料或設計元素。
然并卵。
Claude不僅視若無睹地繼續瘋狂通路-抓取,還躲避了iFixit的防禦。
iFixit其實成功阻止了兩個Anthropic的AI抓取機器人,分别名為“ANTHROPIC-AI”和“CLAUDE-WEB”。
但這倆AI抓取機器人似乎已經是過去式了,目前的主力爬蟲正是沒被阻止成功的“ClaudeBot”。
逼不得已,老K表示,iFixit本周修改了robots.txt檔案,專門用來阻止Anthropic的爬蟲機器人。
那,Anthropic那邊有啥反應不?
它們倒是沒有閉麥,對媒體回應道:
ANTHROPIC-AI 和 CLAUDE-WEB 這倆确實是公司使用過的舊爬蟲,但現在已經停止使用了。
當然了,Anthropic回避了現在活躍的ClaudeBot是否尊重防爬蟲robots.txt阻止被爬取的問題。
AI公司不是第一次幹這事兒了
翻看Anthropic的官方網站可以發現,早就挂着一篇名為《Anthropic是否從網絡上抓取資料?網站所有者如何阻止抓取工具?》的文章。
裡面提到:
根據行業标準,Anthropic使用各種資料源進行模型開發,例如通過網絡爬蟲收集的來自網際網路的公開資料。
我們的爬取不應具有侵入性或破壞性。
我們的目标是通過考慮爬取相同域的速度,并在适當的情況下尊重爬行延遲來将幹擾降到最低。
但一片輿論聲中不難發現,Anthropic顯然不是這麼做的。
它,未經允許爬取别人資料,老慣犯了。
就說今年4月的時候,Linux Mint論壇就慘遭被爬。
在幾個小時中,ClaudeBot多次通路論壇爬取資料,導緻論壇在幾個小時内處于超低速or崩潰狀态,最終完全崩掉。
有人表示,在同一時間内,ClaudeBot占用的流量獨占鳌頭,是第二名的20倍、第三名的40倍。
在4月事件和本次事件的讨論貼中,都有人建議:
既然放禁爬取公告沒有用,那不放在網站中搞一些帶有可追蹤or獨特資訊的虛假資訊,以便檢測是誰偷走了資料。
iFixit确實也這麼做了。
而且真的有用——發現自家網站的資訊不僅被Claude爬個底朝天,還被OpenAI也爬走了……
講道理,有什麼辦法呢?真的一點辦法也沒有。
因為除了Claude和GPT以外,這樣強行偷家的AI挺不少的。
前幾天就有一家名為Tollbit的機器人檢測初創公司聲稱Perplexity、Claude、OpenAI會忽略爬取網站上的robots.txt設定——當時有人跑去問了OpenAI的态度,OpenAI不予置評。
再往前看,上個月也鬧過一次。
《福布斯》譴責AI搜尋産品Perplexity涉嫌抄襲其新聞文章;一石激起千層浪,更多媒體站出來,指責Perplexity的爬蟲機器人PerplexityBot非法抓取自家網站資訊。
而Perplexity一直的态度都是:
尊重出版商不抓取内容的要求,并且在合理使用版權法的範圍内營運。
理論上講,不管是ClaudeBot還是PerplexityBot,在遇到标明“禁止抓取”“禁止robot.txt”的檔案時,都應該遵從協定,規避爬取聲明方網站的内容。
既然聲明無效,就有人呼籲創作者把内容盡可能轉移到付費區域,來防止無限制的抓取。
你覺得這樣的辦法會有效嗎?
參考連結:
[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/
[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/
[3]https://twitter.com/kwiens/status/1816128302542905620
[4]https://x.com/Carnage4Life/status/1804316030665396356
[5]https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler?ref=404media.co
— 完 —
量子位 QbitAI · 頭條号簽約
關注我們,第一時間獲知前沿科技動态