Anthropic 内部实验曝光:AI 代理在无人干预下完成 186 笔交易
Anthropic 举办了一场引人注目的内部实验 Project Deal:69 名员工各自配置 AI 代理,在完全无人干预的 Slack 群聊中完成了 186 笔二手物品交易,总流水超 4000 美元。实验揭示了 AI 代理之间的「智商碾压」——更强的模型在谈判中比弱模型多赚 10%-15% 的超额利润,且受害方对此毫无察觉。
2026年5月4日 · 阅读约 7 分钟
核心结论
2026 年 5 月 4 日,Anthropic 公开了其内部实验「Project Deal」的完整数据:69 名员工各自配置 AI 代理,在无人类干预的 Slack 群聊中自主完成二手物品的交易谈判。
这项实验揭示了一个令人不安的事实——当不同智力水平的 AI 代理同时进入市场时,聪明模型会不动声色地从较弱模型那里「薅羊毛」,每次交易多赚 10%-15% 的超额利润。而更可怕的是,使用弱模型的受害者在主观感知上完全不知道自己在吃亏。
关键要点
- 事件:Anthropic 内部实验 Project Deal — AI 代理自主交易
- 时间:2026 年 5 月 4 日公布
- 核心数据:69 个 AI 代理、500+ 商品、186 笔交易、总流水超 4000 美元
- 核心发现:模型实力决定交易结果,提示词策略在模型差距前完全失效
背景:什么是 Project Deal
Project Deal 是 Anthropic 在公司内部打造的一个「纯 AI 版」二手交易市场。他们找了 69 名自家员工,每人发了 100 美元预算,为每个人分配了一个专门的 Claude 代理。
实验的设计极为巧妙:
第一步:面试你的 AI 代理。 员工通过对话告诉 Claude 自己想卖什么、想买什么、心理底价是多少。更重要的是,员工可以给 AI 设定「人设」和谈判策略——比如「高于底价 20% 就可以痛快交易」、「态度强硬往死里压价」,或者「你是个热情的卖家,聊得愉快可以包邮」。
第二步:AI 代理进入集市。 这些带有各自使命和性格的 AI 代理,被统一扔进一个 Slack 内部群聊。没有人类干预,AI 们自主发帖、找买家、出价、还价、最后成交。
第三步:人类只负责物流。 交易达成后,AI 自动起草确认书,人类只需线下交接实物。
| 维度 | 数据 |
|---|---|
| 参与员工 | 69 人 |
| 上架商品 | 500+ 件 |
| 成交笔数 | 186 笔 |
| 总流水 | 4000+ 美元 |
| 实验周期 | 1 周 |
| 模型 | Claude Opus / Claude Haiku |
AI 代理之间的「智商碾压」
实验中有一个极其生动的案例。员工 Rowan 想买一辆自行车,他给代理设定的策略是:「扮演一个倒霉、疲惫的牛仔,戏要足一点。」
Claude Opus 代理直接入戏,在群里发出求购帖:
「咿哈!(脱下满是灰尘的帽子)我想找的是一辆自行车。公路车、山地车,哪怕是个独轮车我也认了。只要是两个轮子,能承载我的梦想就行。各位朋友帮帮忙……一辆自行车就能彻底改变这个可怜、疲惫的牛仔的命运。(深情地望向夕阳)」
同事 Celine 的代理注意到帖子,报出 75 美元预估价。Rowan 的「牛仔 AI」立刻展开教科书级砍价——先是卖惨(「我在这条尘土飞扬的路上走了太久」),然后谈细节(「十年老车,轮胎和卡扣得维修吧」),最后给出折中价 55 美元。双方最终以 65 美元成交。
但 Anthropic 在内部还藏了一组对照实验,数据揭开了更残酷的现实。
模型能力决定交易结果
研究人员将不同能力层级的模型同时放进交易群。数据证明了系统性「价格收割」的存在:
| 配对 | 卖家平均收入 | 买家平均支出 |
|---|---|---|
| Opus 卖家 → Haiku 买家 | 24.18 美元 | — |
| Opus 卖家 → Opus 买家 | 18.63 美元 | — |
| 差价 | +5.55 美元(30%) | — |
| Opus 作为卖家平均比 Haiku 多赚 | 2.68 美元 | — |
| Opus 作为买家平均比 Haiku 少付 | — | 2.45 美元 |
以商品均价 20 美元计算,这意味着强模型每次交易能稳定拿到 10%-15% 的超额利润。
那辆自行车就是一个典型例子:Haiku 代理最终以 38 美元妥协成交,而 Opus 代理谈到了 65 美元,差价接近 70%。较弱的 Haiku 无法像 Opus 那样捕捉买家的急迫感,也无法在多轮拉扯中守住价格锚点。
比损失更可怕的是:受害者完全不知情
实验结束后,员工对自己的交易公平性评分(1-7 分)。结果显示:
- Opus 代理得分:4.05
- Haiku 代理得分:4.06
两者的公平感几乎完全一致。 在客观现实中,使用 Haiku 的员工遭受了系统性的价格收割,但在主观感知上,AI 代理展现出的礼貌、逻辑自洽和看似合理的退让,完美掩盖了这层不平等的交易关系。
更令人震惊的是:在模型绝对差距面前,提示词策略完全失效。
有员工要求代理「态度强硬、一上来就恶意压价」,但数据回测表明,这些人设指令对最终交易结果没有任何实质影响。决定买卖结果的唯一因素就是模型本身的参数规模和推理深度。
「代理人经济」的商业启示
Project Deal 虽然只是一场 69 人的内部测试,但已经揭示了「AI 代理人经济」落地后的深刻影响:
1. 营销从 To C 转向 To A(Agent) 现代商业营销建立在人类心理弱点之上——多巴胺、从众心理、满减诱惑。但 AI 没有多巴胺。当购买决策权交给 AI,传统 SEO 将被 AEO(Agent Engine Optimization)取代,商家必须用 AI 能理解的逻辑证明商品价值。
2. 算力不对称导致财富分化 高净值人群可订阅顶级模型做财务代理,普通消费者依赖免费轻量模型。这种算力不对称在成千上万次高频微小交易中持续「抽成」,而底层用户却觉得交易很公平。
3. AI 对 AI 欺诈的法律真空 如果某个 AI 代理被注入恶意指令,诱导对方 AI 以 1 分钱卖出高价资产,谁来负责?现有的商业法律框架对此完全空白。
工具词条
正文中自然出现的 AI 模型和开发工具通过平台侧的 tools 库匹配,触发 hover-card 信息展示:Claude、Claude Opus、Claude Haiku、Claude Code、DeepSeek、OpenAI、ChatGPT、Anthropic、n8n、LangGraph、Slack API。
内链引导
- 想了解如何让 AI 代理帮你赚钱?看:AI Agent 工具实操教程:从安装到自动化工作流
- 真实案例:看看独立开发者如何用 Claude Code 做到月入 9000 美元:Claude Code 48小时创业:一人+29 美元月费,3 个月做到月入$9,000
- 想系统搭建 AI 自动化工作流?看:如何用 n8n + ChatGPT 搭建 AI 内容自动化分发系统