大语言模型

Cloudflare 给 AI 爬虫画了三条线:搜索、Agent、训练,各走各的

2026年7月4日0 次阅读
Cloudflare 给 AI 爬虫画了三条线:搜索、Agent、训练,各走各的

Cloudflare 给 AI 爬虫画了三条线:搜索、Agent、训练,各走各的

基于已整理草稿生成的网页版文章,适合先稳定落地,再做局部润色与发布检查。

2026年7月1日,Cloudflare 在第二个"Content Independence Day"上宣布了一项影响全球数百万网站的政策更新:把 AI 爬虫从"一刀切封杀"升级为三分法精细管控——搜索(Search)、代理(Agent)、训练(Training)三类行为,网站主可以分别管理。更关键的是,9月15日起,展示广告的页面将默认拦截训练和代理类爬虫,而多用途爬虫(比如 Googlebot 同时做搜索和训练)按最严规则执行。

去年的一键封 AI,解决了什么又没解决什么

2025年7月,Cloudflare 推出了"Block AI Bots"一键开关,同时上线 Pay-Per-Crawl 按次付费市场。逻辑很简单:AI 公司白拿内容训练模型,不给流量也不给钱,那网站主就一键封掉。

但一刀切的问题很快暴露。小网站的困境最典型:封了 AI 爬虫,搜索引擎也找不到你;不封,内容被拿去训练模型一分钱也拿不到。这本质上是个"浮士德式交易"——要么出现在搜索结果里但被白嫖,要么锁死内容但没人能发现你。

更大的问题是,很多爬虫同时干好几件事。Google 的爬虫既建搜索索引又拿数据训练模型,你没法只允许一个不让另一个。这让"封还是不封"变成了一个没有好答案的选择题。

三分法:爬虫到底来干什么?

Cloudflare 的解决方案是换个问题。不再问"你是不是 AI",而是问"你来干什么":

  • Search(搜索):收集和索引内容,以后用来回答用户查询。关键特征是主动建数据库,网站主期望获得引荐流量作为回报。
  • Agent(代理):代替人实时操作,比如 ChatGPT-User 抓取网页、Gemini 或 Claude 驱动浏览器完成任务。关键特征是有人在那头等着结果。
  • Training(训练):拿内容训练或微调模型。关键特征是数据被永久吸收进模型架构。

Cloudflare 要求爬虫运营商标注自己的所有用途。如果一个爬虫同时做搜索和训练,那就必须两个标签都标上,不能只写"搜索"来钻空子。

9月15日:广告页面默认拦截

这是新政策里最有杀伤力的部分。9月15日起,所有新接入 Cloudflare 的域名,广告页面将默认拦截 Training 和 Agent 类爬虫,只允许 Search。

逻辑很直接:页面有广告,说明网站主期望真人在这里看内容、点广告。让训练爬虫来拿走内容,或者让 Agent 爬虫替用户"看完"页面,都是在截走本该属于网站主的注意力和收入。

对多用途爬虫的影响最大。Googlebot 同时做搜索和训练,在选择了拦截 Training 的网站面前,它会被一起拦掉——除非 Google 把搜索爬虫和训练爬虫拆成两个。这正是 Cloudflare 想要的效果:逼迫 AI 公司把不同用途的爬虫分开,给网站主真正的选择权。

已有的 Cloudflare 用户不会自动生效,但会收到通知。如果网站主不做任何操作,9月15日之后新默认规则也不会强制覆盖老站点——但 Cloudflare 明确鼓励所有用户采用新分类体系。网站主可以随时在 Security 设置中调整或 opt-out。

为什么这件事影响大

Cloudflare 代理全球超过 20% 的网站流量。它改规则,不是发个建议,而是直接改变数百万站点的默认行为。

对 AI 公司来说,这意味着"用一个爬虫干所有事"的时代要结束了。Google 需要想清楚要不要拆分 Googlebot,OpenAI、Anthropic 的 Agent 爬虫被单独分类后也需要重新考虑合规策略。

对内容创作者和小网站来说,终于不用在"被搜到"和"被白嫖"之间二选一了。你可以允许搜索爬虫来建索引,同时把训练爬虫挡在门外——这才是合理的权益分配。

对整个行业来说,Agent 类爬虫被单独拎出来,标志着 AI Agent 流量已经被视为一个独立问题。Agent 不只是在"读"你的网站,它在"用"你的网站——替用户完成操作、获取结果,过程中可能完全绕过网站原本的交互设计。

对中文读者意味着什么

国内网站如果使用 Cloudflare,9月15日起广告页面将自动受新默认规则影响。百度等国内搜索引擎的爬虫如果同时用于模型训练,同样会被多用途规则卡住——除非它们也选择拆分。

Pay-Per-Crawl 模式更值得关注。这可能是内容付费的另一种路径:不是向读者收费,而是向 AI 公司收费,按爬取次数计费。如果这个模式跑通,内容创作者的商业模式可能从"流量+广告"转向"流量+广告+AI 许可费"三条腿走路。

---

*基于 Cloudflare 官方博客及 The Verge 等多家媒体转述整理。*

参考来源

说明:该页面由基础模板稳定生成,后续可继续局部润色样式或补充模块,再进入发布检查。