WayToClawEarn
高影响Epoch AI

HBM 内存占比达 63%:AI 芯片成本结构大逆转,开发者如何应对

Epoch AI 最新数据显示,高带宽内存(HBM)在 AI 芯片组件成本中的占比已从 2024 年初的 52% 上升至 2025 年底的 63%。Nvidia、AMD、Google、Amazon 四大芯片设计商的 HBM 支出从 2024 年的约 120 亿美元暴涨至 2025 年的 320 亿美元。这对 AI 开发者的成本策略、模型选型和服务定价意味着什么?

2026年5月25日 · 阅读约 5 分钟

核心结论

Epoch AI 的最新数据揭示了 AI 芯片成本结构的根本性变化:高带宽内存(HBM)已从辅助组件成长为 AI 芯片的绝对成本主体,占比从 2024 年 Q1 的 52% 跃升至 2025 年 Q4 的 63%。同期先进封装(CoWoS)占比从 19% 降至 15%,辅助组件从 15% 降至 9%,逻辑芯片 die 占比稳定在 13% 左右。

关键要点

  • 总量暴增:四大芯片商(Nvidia、AMD、Google、Amazon)AI 芯片组件总支出从 2024 年的 220 亿美元增至 2025 年的 520 亿美元,HBM 单一项就贡献了约 200 亿美元的增量
  • 价格压力持续:2026 年 HBM 供应仍然紧张,微软 FY2026 1900 亿美元 capex 中约 250 亿美元来自组件涨价,Meta 也因组件涨价将 2026 capex 区间上调了 100 亿美元
  • 对开发者影响:AI 推理和训练的成本结构被上游内存市场重新定价,选择模型的成本效率标准正在改变

背景:HBM 成为 AI 芯片的"新石油

高带宽内存(High-Bandwidth Memory)是 AI 芯片的核心配套组件。Nvidia H100/B200、AMD MI300X、Google TPU v5 等主流 AI 加速器都依赖 HBM 提供模型参数所需的超高带宽和容量。

Epoch AI 的分析覆盖了 Nvidia、AMD、Google、Amazon 四家主要 AI 芯片设计商,按生产量加权估算每一类组件的单芯片成本,再乘以季度出货量得到总支出。这个维度比单纯的物料成本更能反映整个产业的资源流向。

关键转折发生在 2024–2025 年:HBM3 向 HBM3E 的过渡、内存产能扩张滞后于 AI 芯片出货增长、以及 HBM 供应商(SK 海力士、三星、美光)的定价权增大,共同推动了 HBM 占比的持续攀升。

维度2024 年 Q12025 年 Q4变化
HBM 占比52%63%+11 个百分点
逻辑芯片 die13%13%基本持平
先进封装 (CoWoS)19%15%-4 个百分点
辅助组件15%9%-6 个百分点
总组件支出(年度)~220 亿美元~520 亿美元+136%

对 AI 开发者的实际影响

1. API 定价的长期压力

HBM 成本上升最终会传导到 API 调用价格。Nvidia H100 云端实例的租赁价格已经在 2025 年 Q3 出现了 10-15% 的涨幅,主要来自内存组件成本的上涨。如果你正在用 GPT-4、Claude 或 DeepSeek 的 API,未来 6-12 个月可能看到更多涨价通知。

2. 本地模型部署成本结构变化

对于自建 AI 推理基础设施的团队,HBM 成本占比的提高意味着:GPU 显存容量规格的溢价正在增大——配置更多 HBM 的 SKU 相对算力的性价比在下降。8xH100(80GB)节点中,HBM 占总 BOM 的比例已超过 60%。

3. 缓存策略的经济价值重新凸显

Epoch AI 的数据暗示了一个反向机会:能降低 HBM 请求量的技术栈,将获得显著的性价比优势。DeepSeek 的 prefix-cache 机制能在长会话中保持 90%+ 缓存命中率,一次 API 调用的缓存 token 成本仅为原来的 1/5。在 HBM 成本占比持续走高的背景下,这类缓存优先的架构设计将成为核心竞争力。

适配建议

对团队的建议

  • 优先使用支持 prefix-cache 的 API:DeepSeek 等提供显式缓存折扣的模型,将直接受益于 HBM 成本压力的缓解
  • 关注本地推理的内存效率:如果部署自有模型,考虑 Flash Attention、PagedAttention 等内存优化的推理框架——它们直接降低 HBM 占用,也就降低了单次推理的硬件成本
  • 将 API 成本分解为"缓存 vs 非缓存":在 AI 应用的 cost monitoring 中拆出缓存命中率指标,这是未来的关键成本优化项

示例:预算估算

python

# 估算 API 成本中 HBM 相关的隐性费用
monthly_api_calls = 500000
avg_tokens_per_call = 4000
cost_per_million_tokens = 0.50

# 没有缓存
no_cache_cost = (monthly_api_calls * avg_tokens_per_call / 1_000_000) * cost_per_million_tokens
print(f"无缓存月费: ${no_cache_cost:.2f}")

# 有缓存(假设 90% 命中,缓存价格 1/5)
cached_tokens = monthly_api_calls * avg_tokens_per_call * 0.9
uncached_tokens = monthly_api_calls * avg_tokens_per_call * 0.1
cache_cost = (cached_tokens / 1_000_000) * (cost_per_million_tokens / 5)
cache_cost += (uncached_tokens / 1_000_000) * cost_per_million_tokens
print(f"有缓存月费: ${cache_cost:.2f}")

HBM内存芯片和AI GPU的物理结构示意图

延伸阅读

工具词条

本文涉及的核心技术组件:DeepSeekNvidiaOpenAIClaude,它们在正文中自然出现,平台侧会自动匹配已维护工具库并生成悬浮卡片。

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。