衡宇發自凹非寺

量子位 | 公衆号 QbitAI

Claude團隊這次惹了衆怒！

原因：24小時内通路某公司伺服器100萬次，以不付費形式，爬蟲抓取網站内容。

不僅明目張膽無視了“禁止爬取”的公告，還強行占用了伺服器資源。

這家“受害者”公司其實盡力防禦了，但阻止失敗，内容資料還是被Claude抓走了。

公司負責人氣得吹胡子瞪眼，在x上激情開麥：

嘿，Anthropic，我知道您渴望資料。Claude真的很聰明！

但你造嗎，這一點也不！酷！哦！

許多網友為此憤憤不平，有個搞文案工作的網友留言稱：

“我建議用‘偷’，而不是‘不付費’來描述Anthropic的這種行為。”

一時之間，群情激憤！

支援聲讨的，要求Claude付費的，評論區簡直亂成一鍋粥了。

這是怎麼回事

強烈譴責Anthropic的這家公司叫做iFixit，是一家美國電子商務和操作指南網站。

iFixit的業務的一部分，是為消費電子産品和小工具提供類維基百科的免費線上維修指南。

網站内有數百萬個頁面，包括修理指南、指南的修訂曆史、部落格、新聞文章和研究、論壇、社群貢獻的修理指南和問答部分等。

但，iFixit突然發現，Claude的爬蟲程式ClaudeBot在幾個小時内，每分鐘都有數千次請求通路。

這約等于一天内通路其網站近百萬次。

據統計，它一天内通路了10 TB的檔案，整個5月份總計通路了73 TB。

為此，iFixit的CEO老K（Kyle Wiens）丢下一句話：

未經許可，ClaudeBot偷走我們所有的資料，還把我們的伺服器占滿了……Fine，這也沒什麼大不了。

不知道它有沒有爬到我們的許可說明？？

對你沒看錯，「未經許可」。

iFixit其實有寫聲明——

未經iFixit明确事先書面許可，嚴禁因為任何其他目的（包括訓練機器學習或人工智能模型）複制、複制或分發本網站上的任何内容、材料或設計元素。

然并卵。

Claude不僅視若無睹地繼續瘋狂通路-抓取，還躲避了iFixit的防禦。

iFixit其實成功阻止了兩個Anthropic的AI抓取機器人，分别名為“ANTHROPIC-AI”和“CLAUDE-WEB”。

但這倆AI抓取機器人似乎已經是過去式了，目前的主力爬蟲正是沒被阻止成功的“ClaudeBot”。

逼不得已，老K表示，iFixit本周修改了robots.txt檔案，專門用來阻止Anthropic的爬蟲機器人。

那，Anthropic那邊有啥反應不？

它們倒是沒有閉麥，對媒體回應道：

ANTHROPIC-AI 和 CLAUDE-WEB 這倆确實是公司使用過的舊爬蟲，但現在已經停止使用了。

當然了，Anthropic回避了現在活躍的ClaudeBot是否尊重防爬蟲robots.txt阻止被爬取的問題。

AI公司不是第一次幹這事兒了

翻看Anthropic的官方網站可以發現，早就挂着一篇名為《Anthropic是否從網絡上抓取資料？網站所有者如何阻止抓取工具？》的文章。

裡面提到：

根據行業标準，Anthropic使用各種資料源進行模型開發，例如通過網絡爬蟲收集的來自網際網路的公開資料。

我們的爬取不應具有侵入性或破壞性。

我們的目标是通過考慮爬取相同域的速度，并在适當的情況下尊重爬行延遲來将幹擾降到最低。

但一片輿論聲中不難發現，Anthropic顯然不是這麼做的。

它，未經允許爬取别人資料，老慣犯了。

就說今年4月的時候，Linux Mint論壇就慘遭被爬。

在幾個小時中，ClaudeBot多次通路論壇爬取資料，導緻論壇在幾個小時内處于超低速or崩潰狀态，最終完全崩掉。

有人表示，在同一時間内，ClaudeBot占用的流量獨占鳌頭，是第二名的20倍、第三名的40倍。

在4月事件和本次事件的讨論貼中，都有人建議：

既然放禁爬取公告沒有用，那不放在網站中搞一些帶有可追蹤or獨特資訊的虛假資訊，以便檢測是誰偷走了資料。

iFixit确實也這麼做了。

而且真的有用——發現自家網站的資訊不僅被Claude爬個底朝天，還被OpenAI也爬走了……

講道理，有什麼辦法呢？真的一點辦法也沒有。

因為除了Claude和GPT以外，這樣強行偷家的AI挺不少的。

前幾天就有一家名為Tollbit的機器人檢測初創公司聲稱Perplexity、Claude、OpenAI會忽略爬取網站上的robots.txt設定——當時有人跑去問了OpenAI的态度，OpenAI不予置評。

再往前看，上個月也鬧過一次。

《福布斯》譴責AI搜尋産品Perplexity涉嫌抄襲其新聞文章；一石激起千層浪，更多媒體站出來，指責Perplexity的爬蟲機器人PerplexityBot非法抓取自家網站資訊。

而Perplexity一直的态度都是：

尊重出版商不抓取内容的要求，并且在合理使用版權法的範圍内營運。

理論上講，不管是ClaudeBot還是PerplexityBot，在遇到标明“禁止抓取”“禁止robot.txt”的檔案時，都應該遵從協定，規避爬取聲明方網站的内容。

既然聲明無效，就有人呼籲創作者把内容盡可能轉移到付費區域，來防止無限制的抓取。

你覺得這樣的辦法會有效嗎？

參考連結：

[1]https://www.404media.co/websites-are-blocking-the-wrong-ai-scrapers-because-ai-companies-keep-making-new-ones/

[2]https://www.404media.co/anthropic-ai-scraper-hits-ifixits-website-a-million-times-in-a-day/

[3]https://twitter.com/kwiens/status/1816128302542905620

[4]https://x.com/Carnage4Life/status/1804316030665396356

[5]https://support.anthropic.com/en/articles/8896518-does-anthropic-crawl-data-from-the-web-and-how-can-site-owners-block-the-crawler?ref=404media.co

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們，第一時間獲知前沿科技動态

Claude團隊引衆怒，為爬資料不擇手段，給爬蟲改名字無視禁止規則

這是怎麼回事

AI公司不是第一次幹這事兒了

繼續閱讀

php爬蟲：網絡安全工程師揭秘神奇分析技術

拒絕網絡爬蟲，保護網站安全，PHP解決方案來了

Vue虛拟DOM：單頁應用程式的爬蟲抓取問題解析

推薦6款yyds的開源項目本周GitHub熱門項目包括：Dub是一個用于生成短連結的工具，可以跟蹤和分析使用者使用情況；G

Python爬蟲庫Requests作者因狂躁症失業：線上求資助、找工作

《寄生蟲》照進現實，原來他才是那條被無辜栽贓的爬蟲，太痛心！

爬蟲采集大量資料需要具備哪些條件和技巧？

Java,SpringBoot,Vue,Python爬蟲,Hadoop大資料旅遊推薦管理系統

Python高效爬蟲——scrapy介紹與使用

Python簡單爬蟲案例

末世之戰追蹤者爬蟲

每周 GitHub 探索｜生成式 AI、背景架構、網絡爬蟲、測試工具齊聚

網絡爬蟲開發：JavaScript與Python特性的小差異

警惕！你的資料快被AI爬蟲爬完了！

社交平台頻頻成“瓜田”，多家公司出手：員工管好自己的社交媒體！有公募人士稱“公司能用爬蟲程式提取資訊”