Amazon 关闭内部 AI 排行榜 Kirorank:员工刷分推高成本,企业 AI 开支进入急刹车时代
Amazon 关闭内部 AI 排行榜 Kirorank 事件揭示了企业 AI 成本失控的深层问题——员工"Tokenmaxxing"(刷 Token 消耗量)推高算力账单,同时美国企业界开始"配给"AI 使用量。本文分析两股趋势对 AI 自动化从业者的实际影响。
2026年5月30日 · 阅读约 7 分钟
核心结论
2026年5月最后一周,两条看似独立的消息同时指向同一个结论——企业AI开支的"狂欢期"正式结束,进入成本精细化管控阶段。一边是亚马逊关闭了内部AI使用排行榜Kirorank,因为员工刷分("Tokenmaxxing")导致算力成本失控;另一边是《华尔街日报》报道美国企业开始"配给"AI使用量,高管们正紧急评估大规模AI投入是否带来了应有的回报。
对自动化从业者和AI Agent使用者而言,这意味着:用AI降本增效的逻辑依然成立,但"无脑用AI"的时代已经过去了。未来胜出的,是那些能精确衡量AI投入产出比(ROI)的团队和个人。
关键要点
- 事件时间:2026年5月29-30日
- 核心事件:Amazon 关闭 KiroRank AI 排行榜 + WSJ/Axios 报道企业AI配给
- 影响对象:所有依赖AI工具的内容生产者、自动化团队、AI Agent开发者
- 核心变化:企业级AI投入从"越多越好"转向"ROI优先"
背景:同一周的两个信号
信号一:Amazon Kirorank 事件
Amazon 内部有一个名为 "KiroRank" 的排行榜,用来追踪员工对内部AI工具(基于 Amazon Kiro 开发者平台)的使用情况。初衷是激励员工拥抱AI工具,提高开发效率。然而在一些业务部门,员工开始大规模"刷分"——让AI做大量不必要的小任务来增加Token消耗量,以便在排行榜上获得更好的名次。这种被称为 "Tokenmaxxing" 的行为直接推高了Amazon的云计算成本。
据报道(Ars Technica, Business Insider, CNET),Amazon 最终在5月29日关闭了KiroRank排行榜。一位Amazon高级副总裁承认,排行榜"初衷是好的",但它产生的计算成本已经高到不可接受。
来源:Ars Technica "Amazon employees are tokenmaxxing due to pressure to use AI tools"(HN 251 pts,359条评论)
信号二:企业开始配给AI用量
同一天,《华尔街日报》报道,美国企业正在"配额化"AI使用量——包括 Uber、Salesforce、DoorDash 在内的多家公司已经开始限制员工无限制使用AI工具。高管们发现,AI的"计算账单"正在以不可持续的速度膨胀,而可衡量的生产力提升却并不匹配。
Axios 在5月28日的报道中也指出,CFO和CIO们正在大规模质疑AI投资的ROI:"企业界争先恐后拥抱AI之后,现在正面临膨胀的IT成本、不确定的生产力提升,以及日益增长的员工怀疑。"
来源:WSJ "Corporate America Is Starting to Ration AI as Cost Skyrockets"; Axios "AI sticker shock hits corporate America"
关键影响:两个维度,同一方向
| 维度 | 变化 | 对我们意味着什么 | 建议动作 |
|---|---|---|---|
| 成本思维 | 从"越多越好"到"ROI优先" | 个人和团队都需要记录每笔AI花费的实际产出 | 建立AI成本记录表:每个工具按"花费→产出→ROI"追踪 |
| 工具选择 | 高性能API vs 本地模型的经济账更受关注 | 本地模型(LM Studio、DeepSeek等)的相对优势增大 | 评估高频任务能否切换到本地或低成本模型 |
| 自动化策略 | "刷AI使用量"不再是好策略 | 用AI做"看起来很多"的工作不等于创造价值 | 聚焦高价值环节,减少AI的"表演性使用" |
| 行业趋势 | Tokenmaxxing 成为2026年标志性负面名词 | 类似Amazon的监管将蔓延到中小企业 | 提前建立AI使用规范,避免被突然限制 |
什么是 Tokenmaxxing?为什么它会成为2026年的关键词?
Tokenmaxxing 这个词在2026年初开始流行,指开发者把"Token消耗量"当作生产力指标来优化的行为。其背后逻辑是:既然公司鼓励使用AI,那谁的Token用得多谁就更"积极"。但实际上,大量Token消耗并不等于高质量产出——让AI写出10种不同风格的"你好,世界"并不会提高产品质量,但会显著增加API账单。
TechCrunch 在4月份的一篇分析文章中指出:"Tokenmaxxing正在让开发者比他们以为的更不高效。" 这个问题在Amazon达到顶峰——当一个排行榜激励员工刷分而不是真正解决问题时,整个系统就产生了反向激励。
值得注意的是,Amazon 的 Kirorank 系统并非个例。早在5月中旬,Uber COO 就曾在采访中表示"越来越难证明Token上的高投入是合理的",直接印证了Tokenmaxxing已经成为整个行业的共识性问题。
适配建议
面对企业AI成本管控的新常态,自动化团队可以立即采取以下措施:
- 做ROI审计:回顾过去30天的AI工具支出,算出每1美元API费带来了多少实际产出
- 分层模型策略:对高频率低复杂度任务使用本地/低成本模型(DeepSeek V4、Hy3),仅在关键推理环节用前沿模型(Claude Opus、GPT-5.5)
- 建立个人"AI使用规范":像项目管理一样管理AI工具的使用——每个API调用都应有明确的目的和预期产出
- 关注开源替代:Liquid AI 8B MoE、Zig等高效模型正在缩小与前沿模型的差距,边际成本趋近于零
任务清单
- 统计30天内各AI工具的API花费
- 按高频/低频、高价值/低价值四象限分类当前AI工作流
- 为高频低价值场景寻找本地模型替代
- 复查内容生产管线中的"隐性Tokenmaxxing"(不必要的消耗)
社区反应
在Hacker News上,Amazon Kirorank 事件引发了超过350条评论。大部分社区声音集中在几个方向:
- 排行榜的激励扭曲:"当公司用AI使用量来衡量员工,员工就会'玩'这个系统——这不是员工的问题,是衡量标准的问题。"
- Tokenmaxxing 是管理问题,不是技术问题:"Amazon的问题不是AI太贵,而是他们发明了一个错误的KPI。用Token使用量衡量生产力,就像用代码行数衡量工程师产出一样荒谬。"
- 对独立开发者/小团队的启示:"好消息是,大公司被自己的官僚主义拖累,小团队可以更灵活地选择真正有效的AI策略,不需要为排行榜刷分。"
延伸阅读与内链
- 想学方法?看:AI 自动化质量门:从输出到可信赖结果的实操指南
- 真实案例:他靠 AI 代码审查+规范驱动开发月入过万:自由开发者的实战复盘
- 先看教程:AI 编程 Agent 技术选型指南:语言、模型、成本三维决策框架
相关来源
- Ars Technica: Amazon employees are "tokenmaxxing" due to pressure to use AI tools (HN 251 pts, 350+ comments)
- WSJ: Corporate America Is Starting to Ration AI as Cost Skyrockets
- Axios: AI sticker shock hits corporate America
- TechCrunch: Tokenmaxxing is making developers less productive than they think
- Business Insider: Amazon shuts down AI leaderboard after employee tokenmaxxing