WayToClawEarn
高影响Kog AI

Kog AI 发布 3000 tok/s 推理引擎:AI 编码 Agent 的实时推理时代来了

Kog AI 发布推理引擎 KIE,在 8 卡 AMD MI300X 节点上实现 3,000 tok/s 的实时推理速度。DTP 架构和 monokernel 技术将编码 Agent 的迭代周期从 5 分钟压缩到 10 秒以内。

2026年5月30日 · 阅读约 5 分钟

核心结论

Kog AI 今天发布技术预览版推理引擎 Kog Inference Engine (KIE),在标准数据中心 GPU(8 卡 AMD MI300X 节点)上实现了每请求 3,000 tokens/秒 的生成速度——比 ChatGPT 等通用 API 快约 30 倍。核心突破在于其创新的 Delayed Tensor Parallelism (DTP) 架构和单核 continuous decode kernel(monokernel),从架构层面解决了 LLM 推理的通信瓶颈。

关键要点

  • 事件发生时间:2026-05-29
  • 核心指标:2B 参数量编码模型,batch size 1,无需量化或投机解码
  • 技术突破点:DTP 架构将 All-Reduce 通信延迟藏在计算流水线中,效率接近通信延迟为零的理想模型
  • 对 Agent 开发者:编码 Agent 每次迭代从 5 分钟缩减到 10 秒

背景与触发事件

Kog AI 是一家专注于 AMD GPU 推理优化的初创公司。昨日(5 月 29 日),该公司在官方博客同时发布了三篇文章,全面披露其推理引擎的技术细节:

  1. 成果预览:8 卡 AMD MI300X 节点,小批量推理达到 3,000 tok/s
  2. 架构论文:DTP(Delayed Tensor Parallelism),一种将通信延迟隐藏在计算流程中的新架构
  3. 工程深潜:AMD MI300X 上的 monokernel 构建过程

三篇文章在 Hacker News 上获得 203 分和 91 条评论,社区反响热烈。该引擎仅支持 AMD GPU,目前通过 kog.ai 提供技术预览版访问。

技术突破:DTP 架构如何工作

传统 LLM 推理的瓶颈在于 tensor parallelism 的通信开销。每层 Transformer 都需要同步 All-Reduce,GPU 之间的通信成本随集群扩大而线性增长。

Kog 的 DTP 架构采用了一种反直觉的设计:推迟 All-Reduce 同步。核心思路是让每个设备先独立计算本地的中间结果,将通信操作打包为异步后台任务,然后再在下一个 Transformer 层开始时合并。通过这种方式,通信延迟被"埋"在计算流水线的间隙中,不再成为停滞因素。

维度传统 TP 推理Kog DTP
通信方式每层同步 All-Reduce延迟异步通信
通信耗时显式停顿等待隐藏在计算流水线中
batch size 1 效率极低(GPU 利用率 < 10%)接近理想值
扩展性通信开销随节点数线性增长通信开销被计算流水线消化

单核连续解码(Monokernel)

除了 DTP 之外,Kog 还将整个 LLM decode pass 实现为 单个 persistent kernel。这意味着:

  • 不需要在 GPU 上反复启动/销毁内核
  • 权重流直接从 HBM 到计算单元,中间环节极少
  • 所有中间结果保持在 GPU SRAM 中,减少显存访问

在 AMD MI300X 上,monokernel + DTP 的组合使得 2B 模型能在 batch size 1 时达到 3,000+ tok/s。

对 AI Agent 开发者的影响

实时推理不仅仅是更快的响应,而是新的交互范式。

对于 AI 编码 Agent(如 Claude Code、Cursor、Copilot),当前最痛苦的是每次修改→反馈的迭代周期通常在 1-5 分钟。Kog 的推理引擎将这个周期压缩到 10 秒以内

code
传统推理: 写代码 (10s) → 等待推理生成 (60-300s) → 检查结果 → 继续
Kog 推理: 写代码 (10s) → 等待推理生成 (~3s) → 检查结果 → 继续

3,000 tok/s 意味着一个 200 token 的函数生成只需 67ms,一个 1,000 token 的完整文件重构只需 333ms。编码 Agent 不再需要"写一次,等一分钟"——接近实时交互。

正文示例图 — Agent inference iteration comparison

社区反应

HN 评论区对这项技术表现出既兴奋又克制的态度:

  • 技术认可:多位评论者肯定了 monokernel 在 AMD GPU 上的工程挑战,认为单是消除内核启动开销就足以提升 2-3 倍
  • 公平性质疑:部分评论指出 2B 模型与 ChatGPT 等前沿模型(数百倍参数规模)的直接对比不够公平,3,000 tok/s 在 2B 模型上可行,但扩展到 70B+ 级别时仍有巨大挑战
  • 硬件局限:目前仅支持 AMD MI300X,对占主流的 NVIDIA H100/B200 用户来说尚不可用

适配建议

对于正在搭建 AI 编码工作流的开发者:

  1. 关注 MoE 模型路线:Kog 指出,MoE 架构(只激活部分参数)在 batch size 1 推理中比同等大小 dense 模型更具优势。如果 Kog 后续支持 MoE,可能在 4B active params 级别达到类似速度
  2. AMD 生态值得关注:MI300X 的推理性价比正在追赶 NVIDIA,在 AMD 硬件上构建推理管线可能成为 2026 下半年的差异化竞争力
  3. 实时推理场景预研:3,000 tok/s 的延迟级别意味着你可以将 LLM 融入高频循环(如实时编辑建议、逐行代码审查),而非仅限于离线批处理
  4. 测试 Kog 技术预览:访问 kog.ai 申请预览,验证对自有工作负载的实际加速比

相关延伸资料

相关工具词条

本文涉及以下工具,可在站内查看对应介绍:AMD MI300XClaude CodeChatGPTCursor

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。