神秘 Hy3 LLM 登顶 OpenRouter 排行榜：腾讯开源模型为何超越 Claude？

Max Woolf 的最新分析揭示，腾讯开源的 Hy3 模型在 OpenRouter 平台上以惊人速度攀升至排行榜首位，超越 Claude Opus 和 DeepSeek V4 Flash。本文深入拆解数据背后的 LLM 经济账——缓存定价、有效成本、以及 98% 输入 token 占比的现实。

核心结论

2026 年 5 月，一个名为 Hy3 的神秘模型悄然登顶 OpenRouter AI Model Rankings，在 token 消耗量上超越 Claude Opus 4.7 和 DeepSeek V4 Flash。更令人意外的是，Hy3 来自腾讯的开源仓库，基准测试成绩并不出众，但付费用户的使用量持续增长已超三周。

三个关键发现：

98% 的 token 消耗是输入 token：LLM API 调用的实际成本中，输出 token 占比已微乎其微，提示缓存成为定价核心
DeepSeek V4 Flash 的有效成本仅 $0.018/1M tokens——比 Hy3 的 $0.034 还便宜近一半，前提是选择正确的服务商
Hy3 背后可能是一个单一的大应用：数据显示不是多个散客在用，而是一个未公开的数据处理应用将其作为主力模型

事件背景：Hy3 是谁？

2026 年 5 月 26 日，BuzzFeed 高级数据科学家 Max Woolf 发表了一篇深度分析文章，揭示了一个奇怪的现象：OpenRouter 排行榜上，两个之前毫无存在感的模型——Hy3 preview 和 DeepSeek Flash V4——正以超过 50% 的差距击败 Claude Opus。

Hy3 是腾讯开源的大语言模型，发布于 Hugging Face。但奇怪的是：

它的基准测试成绩并不好看，甚至低于其他中国开源模型
谷歌搜索它的唯一结果是腾讯自己的发布公告
在 HN 上搜索 Hy3，只返回了一条不相关的帖子
在 Reddit 上，讨论更多是关于"开源权重发布"而非实际使用体验

但数据不会说谎——从 5 月 8 日上线付费版本以来，Hy3 在 OpenRouter 上的使用量持续增长，至今已稳定运行三周。

LLM 经济学：99% 的人忽略的真实成本

Max Woolf 的分析中，最值钱的部分不是关于 Hy3 本身，而是他对 LLM API 经济学的透彻拆解。

关键数字：

维度	传统认知	实际数据
输入 vs 输出 token 占比	各占一半	98% 输入，2% 输出
缓存命中后的有效成本	标价的 50-80%	可低至标价的 2%
DeepSeek V4 Flash 缓存读取成本	20-50%（第三方商）	2%（DeepSeek 直连）
DeepSeek V4 Pro 缓存读取成本	--	0.83%（直连）
Hy3 缓存读取成本（SiliconFlow）	--	44%

这意味着什么？LLM 的"标价"已经严重失真。

实际运营中，由于 98% 的调用是输入 token，而输入 token 又高度可缓存，DeepSeek V4 Flash 从 DeepSeek 直连的有效价格仅为 $0.018/1M tokens——比 Hy3 的 $0.034/1M 便宜 47%。

Hy3 为什么这么火？数据给出的线索

Woolf 排除了几种可能性：

不是 App/SDK 自动切换：排名前 5 的应用加起来不到 Hy3 总用量的 1% 不是免费策略：付费版本从 5 月 8 日上线，数据是持续的自愿付费行为 不是质量战胜大厂：Woolf 的实测确认 Hy3 质量与其他中国模型相当，远不及 Claude Opus 4.7

唯一的线索是：Hy3 只有一个服务商——新加坡的 SiliconFlow。SiliconFlow 在 Hy3 上线前几乎没什么使用量。Woolf 的猜测是：一个大型数据处理应用（非编码 Agent 类）正以 Hy3 作为后端模型，但该应用未公开这一选择。

"OpenRouter 的优势在于切换模型和服务商非常低门槛。我一点不意外 DeepSeek V4 Flash 会在几周后登顶——一旦大家算清这笔账。"

对 AI 从业者的实操启示

1. 不要只看标价，要看有效价格

当你在 Cursor、Codex、Claude Code 中选择模型时，订阅费和标价都不等于真实支出。DeepSeek V4 Flash 从 DeepSeek 直连的有效成本（2% 缓存读取）意味着你的实际 token 花费可能只有标价的十分之一。

2. 缓存策略改变一切

98% 的输入 token 占比 + 超低的缓存读取成本 = 越来越多的 AI 工作流会在上下文中重复调用同一模型，而非频繁切换。这对你的 Agent 架构设计有直接影响——优先选择缓存友好的工作流模式。

3. 中国模型 vs 数据合规

Woolf 坦诚地指出：DeepSeek 是中国公司，有些人可能不愿意将支付信息或 LLM 输入数据交给一家将 prompt training 设为 true 的中国公司。对于有合规要求的场景，SiliconFlow 的新加坡节点可能是个折中方案。

LLM 定价对比 — 缓存读取成本差异

为什么这件事值得关注

Hy3 登顶 OpenRouter 排行榜，表面看是一个神秘的腾讯模型意外走红，实质上是 LLM 经济学的转折信号：

模型同质化正在加速——当用户用脚投票，价格（尤其是有效价格）成了决定性因素，而非质量差异
缓存优化是下一轮竞争焦点——DeepSeek 在 KV 缓存上的创新让它能以极低成本提供服务，其他厂商必须跟进
OpenRouter 的竞争模型正在变成定价游戏——哪个模型能提供最低的有效成本，哪个就能获得最多的 token 消耗量

下一步行动建议

如果你在用 Claude Code 或 Codex，尝试切换部分工作到 DeepSeek V4 Flash（直连 DeepSeek API），对比有效成本和输出质量
设置缓存命中率监控：如果你的工作流缓存命中率低于 60%，说明架构可能需要调整
关注 LLM 的有效定价而非标价——Woolf 的文章证明，标价在缓存面前已经失真

工具词条

正文中自然涉及 OpenRouter、DeepSeek、Claude、Gemini、ChatGPT、Claude Code、Codex 等工具品牌名。

参考来源

内链引导

想系统了解模型选型？看：AI 编程 Agent 技术选型：语言、模型、成本三维决策框架
实战效果：用 DeepSeek V4 + Claude Code 搭微 SaaS 矩阵，月入 $8,500
省钱方案：如何用 DeepSeek V4 替代 Anthropic 跑 Claude Code：5 分钟省 90% API 费用