小米 MiMo-V2.5 API 最高降价 99%：AI 定价战火蔓延，Agent 开发者迎来超低成本时代

小米 MiMo-V2.5 全线 API 永久降价最高 99%，Token Plan 配额提升 5-8 倍。mimo-v2.5-pro 海外输出仅 $0.87/M tokens，缓存命中场景输入低至 ¥0.025/M。中美 AI 定价战再升级，Agent 开发者的 API 成本正在断崖式下降。

核心结论

2026 年 5 月 27 日，小米 MiMo 开放平台宣布 MiMo-V2.5 系列 API 永久降价，最高降幅达 99%。这是继 DeepSeek V4 Pro 永久降价 75% 之后，中国 AI 模型厂商再次发起的价格冲击。

搭配 Token Plan 套餐用量提升至 5-8 倍，现有有效期用户配额全额重置，MiMo-V2.5-pro 的海外输出价格降至 $0.87/M tokens（约 ¥6.00/M），缓存命中场景下输入仅 ¥0.025/M——这个价位正在将 AI API 调用从「成本考量」变为「随便用」。

小米于 2025 年下半年发布 MiMo-V2.5 系列大模型，包括 mimo-v2.5-pro 旗舰版和 mimo-v2.5 标准版。经过「MiMo Orbit」万亿 Token 创作者激励计划等活动的积累，小米技术团队称已优化底层推理系统，才敢做「更彻底的定价调整」。

模型	场景	原价 ($/M tokens)	新价 ($/M tokens)	降幅
mimo-v2.5-pro	输出	~$3.00 (v2-pro)	$0.87	~71%
mimo-v2.5-pro	输入 (缓存未命中)	~$1.00	$0.435	~57%
mimo-v2.5-pro	输入 (缓存命中)	~$0.20	$0.0036	~98%
mimo-v2.5	输出	—	$0.28	首发价
mimo-v2.5	输入	—	$0.14	首发价

对于 AI Agent 使用者，缓存命中场景下的极致低价意味着：高频调用相同 prompt 前缀的工具（如 Claude Code 的 system prompt）成本几乎可以忽略。

MiMo 定价与 Opus 对比分析

小米在公告中披露了背后的技术路线：

SWA（Sliding Window Attention）：基于 SGLang HiCache 的滑动窗口注意力机制，将 KV Cache 在多级存储间的数据传输量降至优化前的约 1/7
缓存容量：可缓存 Token 数量提升至优化前的近 5 倍
集群吞吐：优化专家并行策略和输入长度分桶策略，持续降低单 Token 服务成本

这些优化让小米在保证服务质量的同时大幅降低了推理成本，为价格战提供了技术基础。

Hacker News 上该话题获得 97 分、101 条评论（相关讨论 60 分、36 条评论），社区反应热烈：

性能对比：HN 用户 irthomasthomas 指出 MiMo 在 Artificial Analysis 基准上仅比 Opus 低 3 分，而成本相差百倍——旧价下 MiMo 约 $400/月，Opus 约 $5,000/月
地缘竞争：多位评论者将 MiMo 降价置于中美 AI 竞争背景下，认为中国厂商策略性地以低价抢占市场
OpenRouter 中间商问题：h4kunamata 提到第三方提供商价格未同步下调，质疑中间商是否吞噬了降价红利
超大规模 Token Plan：用户 passive 分享说自己的 Token Plan 从 7 亿 tokens 直接升级到 380 亿 tokens /月

对于 WayToClawEarn 的读者——AI Agent 使用者、自动化运营者——这个降价意味着什么：

Agent 成本断崖式下降：如果使用 MiMo 作为编程 Agent 的后端模型，高频调用场景下成本可降低 70-90%，与之前报道的 DeepSeek V4 Pro 策略类似
缓存策略价值凸显：MiMo 的 SWA 优化在 Agent 场景（固定 system prompt + 工具定义）下效果尤其显著
多模型混用更经济：MiMo 适合「轻量级 Agent 任务」，搭配 Opus/Claude 处理复杂任务，可大幅降低整体 API 成本
第三方集成就绪：小米开放平台已支持 Claude Code、OpenClaw、Hermes Agent、OpenCode 等工具的配置集成

正文中自然出现的工具名：DeepSeek、OpenAI、Claude、Claude Code、Hermes Agent、OpenClaw、OpenCode

本文基于 2026 年 5 月 27 日小米 MiMo 开放平台公告及 Hacker News 社区讨论编写。定价信息以小米官方最新公告为准。