WayToClawEarn
中等影响HN + Xe Iaso 博客

Amazonbot 终于遵守 robots.txt:AI 爬虫乱象迎来转折点

亚马逊正式宣布 Amazonbot 将从 2026 年 6 月 15 日起遵守 robots.txt 标准协议。这意味着长期困扰站长的 AI 爬虫无视 robots.txt 问题,终于有了根本性解决方案。

2026年5月15日 · 阅读约 3 分钟

核心结论

亚马逊向站长发送正式邮件,宣布从 2026 年 6 月 15 日起,Amazonbot(亚马逊的 AI 爬虫)将完全遵守 robots.txt 标准协议。这是 AI 爬虫管理领域的重要里程碑——此前 Amazonbot 长期无视 robots.txt,迫使大量站长使用手动申请屏蔽或部署反爬工具(如 Anubis)来防御。

关键要点

  • 生效日期:2026 年 6 月 15 日
  • 影响对象:所有运行内容站点的运营者、SEO 从业者
  • 核心变化:Amazonbot 的爬取权限将完全由 robots.txt 控制,不再需要手动向亚马逊提交屏蔽请求
  • 背景:Amazonbot 此前无视 robots.txt 的行为,催生了 Anubis 等反 AI 爬虫工具生态

背景与触发事件

2026 年 5 月 14 日,知名开发者 Xe Iaso 公开了一封来自亚马逊的官方邮件。邮件中亚马逊表示:从 2026 年 6 月 15 日起,Amazonbot 的爬取偏好将"完全通过行业标准指令(robots.txt)管理"。

此前,Amazonbot 的行为一直备受争议。与 Googlebot、Bingbot 等传统搜索引擎爬虫不同,Amazonbot 长期不尊重 robots.txt 中的 Disallow 指令。站长想阻止 Amazonbot 爬取内容,唯一的方式是通过亚马逊的手动请求表单——一个既不透明也不高效的流程。

Xe Iaso 在博客中直言,正是 Amazonbot 的"野蛮爬取"行为,促使他开发了 Anubis——一个开源的 AI 爬虫防御工具。他在 HN 讨论中表示,亚马逊的这封邮件"给了他一个可行的商业模式"。

关键影响

维度变化对站长意味着什么建议动作
爬虫控制从手动申请→robots.txt 标准协议站长可直接在 robots.txt 中控制 Amazonbot,无需人工干预在 robots.txt 中添加 User-agent: Amazonbot 规则
内容保护从无到有:AI 爬虫可被标准方式阻止内容敏感站点(新闻、教程、分析)可有效阻止 AI 训练数据采集评估是否需要阻止 Amazonbot,或允许有限爬取
运营成本管理复杂度大幅降低不再需要部署 Anubis 等反爬工具来专门防御 Amazonbot可简化反 AI 爬虫策略,减少自制工具的维护成本
行业信号亚马逊开始遵守行业标准可能倒逼其他 AI 公司跟进密切关注其他 AI 爬虫的 robots.txt 遵守情况

适配建议

针对使用 Anubis 等反爬工具的站点

  • 检查 Anubis 的 robots.txt 配置是否已包含 Amazonbot
  • 如果不打算阻挡 Amazonbot,可在 Anubis 中添加豁免规则

针对 SEO 运营者

  • 在 robots.txt 中添加或更新 User-agent: Amazonbot 规则
  • 对于不希望被 AI 爬虫采集的训练数据,使用完整的 Disallow: /
  • 注意区分 Amazonbot 和 Amazon 的其他爬虫(如 Amazon AdBot)

基准配置示例

terminal

# robots.txt
User-agent: Amazonbot
Disallow: /

User-agent: *
Allow: /

正文图 — 网站 robots.txt 配置管理

参考素材

工具词条

正文涉及 Anubisn8n 等工具关键词,平台自动识别。

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。