神秘 Hy3 LLM 登顶 OpenRouter 排行榜:腾讯开源模型为何超越 Claude?
Max Woolf 的最新分析揭示,腾讯开源的 Hy3 模型在 OpenRouter 平台上以惊人速度攀升至排行榜首位,超越 Claude Opus 和 DeepSeek V4 Flash。本文深入拆解数据背后的 LLM 经济账——缓存定价、有效成本、以及 98% 输入 token 占比的现实。
2026年5月29日 · 阅读约 6 分钟
核心结论
2026 年 5 月,一个名为 Hy3 的神秘模型悄然登顶 OpenRouter AI Model Rankings,在 token 消耗量上超越 Claude Opus 4.7 和 DeepSeek V4 Flash。更令人意外的是,Hy3 来自腾讯的开源仓库,基准测试成绩并不出众,但付费用户的使用量持续增长已超三周。
三个关键发现:
- 98% 的 token 消耗是输入 token:LLM API 调用的实际成本中,输出 token 占比已微乎其微,提示缓存成为定价核心
- DeepSeek V4 Flash 的有效成本仅 $0.018/1M tokens——比 Hy3 的 $0.034 还便宜近一半,前提是选择正确的服务商
- Hy3 背后可能是一个单一的大应用:数据显示不是多个散客在用,而是一个未公开的数据处理应用将其作为主力模型
事件背景:Hy3 是谁?
2026 年 5 月 26 日,BuzzFeed 高级数据科学家 Max Woolf 发表了一篇深度分析文章,揭示了一个奇怪的现象:OpenRouter 排行榜上,两个之前毫无存在感的模型——Hy3 preview 和 DeepSeek Flash V4——正以超过 50% 的差距击败 Claude Opus。
Hy3 是腾讯开源的大语言模型,发布于 Hugging Face。但奇怪的是:
- 它的基准测试成绩并不好看,甚至低于其他中国开源模型
- 谷歌搜索它的唯一结果是腾讯自己的发布公告
- 在 HN 上搜索 Hy3,只返回了一条不相关的帖子
- 在 Reddit 上,讨论更多是关于"开源权重发布"而非实际使用体验
但数据不会说谎——从 5 月 8 日上线付费版本以来,Hy3 在 OpenRouter 上的使用量持续增长,至今已稳定运行三周。
LLM 经济学:99% 的人忽略的真实成本
Max Woolf 的分析中,最值钱的部分不是关于 Hy3 本身,而是他对 LLM API 经济学的透彻拆解。
关键数字:
| 维度 | 传统认知 | 实际数据 |
|---|---|---|
| 输入 vs 输出 token 占比 | 各占一半 | 98% 输入,2% 输出 |
| 缓存命中后的有效成本 | 标价的 50-80% | 可低至标价的 2% |
| DeepSeek V4 Flash 缓存读取成本 | 20-50%(第三方商) | 2%(DeepSeek 直连) |
| DeepSeek V4 Pro 缓存读取成本 | -- | 0.83%(直连) |
| Hy3 缓存读取成本(SiliconFlow) | -- | 44% |
这意味着什么?LLM 的"标价"已经严重失真。
实际运营中,由于 98% 的调用是输入 token,而输入 token 又高度可缓存,DeepSeek V4 Flash 从 DeepSeek 直连的有效价格仅为 $0.018/1M tokens——比 Hy3 的 $0.034/1M 便宜 47%。
Hy3 为什么这么火?数据给出的线索
Woolf 排除了几种可能性:
不是 App/SDK 自动切换:排名前 5 的应用加起来不到 Hy3 总用量的 1% 不是免费策略:付费版本从 5 月 8 日上线,数据是持续的自愿付费行为 不是质量战胜大厂:Woolf 的实测确认 Hy3 质量与其他中国模型相当,远不及 Claude Opus 4.7
唯一的线索是:Hy3 只有一个服务商——新加坡的 SiliconFlow。SiliconFlow 在 Hy3 上线前几乎没什么使用量。Woolf 的猜测是:一个大型数据处理应用(非编码 Agent 类)正以 Hy3 作为后端模型,但该应用未公开这一选择。
"OpenRouter 的优势在于切换模型和服务商非常低门槛。我一点不意外 DeepSeek V4 Flash 会在几周后登顶——一旦大家算清这笔账。"
对 AI 从业者的实操启示
1. 不要只看标价,要看有效价格
当你在 Cursor、Codex、Claude Code 中选择模型时,订阅费和标价都不等于真实支出。DeepSeek V4 Flash 从 DeepSeek 直连的有效成本(2% 缓存读取)意味着你的实际 token 花费可能只有标价的十分之一。
2. 缓存策略改变一切
98% 的输入 token 占比 + 超低的缓存读取成本 = 越来越多的 AI 工作流会在上下文中重复调用同一模型,而非频繁切换。这对你的 Agent 架构设计有直接影响——优先选择缓存友好的工作流模式。
3. 中国模型 vs 数据合规
Woolf 坦诚地指出:DeepSeek 是中国公司,有些人可能不愿意将支付信息或 LLM 输入数据交给一家将 prompt training 设为 true 的中国公司。对于有合规要求的场景,SiliconFlow 的新加坡节点可能是个折中方案。
为什么这件事值得关注
Hy3 登顶 OpenRouter 排行榜,表面看是一个神秘的腾讯模型意外走红,实质上是 LLM 经济学的转折信号:
- 模型同质化正在加速——当用户用脚投票,价格(尤其是有效价格)成了决定性因素,而非质量差异
- 缓存优化是下一轮竞争焦点——DeepSeek 在 KV 缓存上的创新让它能以极低成本提供服务,其他厂商必须跟进
- OpenRouter 的竞争模型正在变成定价游戏——哪个模型能提供最低的有效成本,哪个就能获得最多的 token 消耗量
下一步行动建议
- 如果你在用 Claude Code 或 Codex,尝试切换部分工作到 DeepSeek V4 Flash(直连 DeepSeek API),对比有效成本和输出质量
- 设置缓存命中率监控:如果你的工作流缓存命中率低于 60%,说明架构可能需要调整
- 关注 LLM 的有效定价而非标价——Woolf 的文章证明,标价在缓存面前已经失真
工具词条
正文中自然涉及 OpenRouter、DeepSeek、Claude、Gemini、ChatGPT、Claude Code、Codex 等工具品牌名。
参考来源
- Max Woolf: The mysterious Hy3 LLM is topping OpenRouter Model Rankings
- HN 讨论:84 分,61 条评论
- OpenRouter AI Model Rankings