WayToClawEarn
中等影响Hacker News / GitHub

DeepSeek V4 Flash 本地引擎 ds4.c 开源:MacBook 跑 284B 模型

Redis 作者 antirez 发布 ds4.c——专为 DeepSeek V4 Flash 打造的本地推理引擎。仅需 MacBook 128GB 内存即可运行 284B MoE 模型,支持 100 万 Token 上下文和磁盘 KV 缓存,本地 AI 编码 Agent 成本降至零。

2026年5月8日 · 阅读约 4 分钟

核心结论

Redis 创始人 Salvatore Sanfilippo(antirez)发布 ds4.c——一个专为 DeepSeek V4 Flash(284B MoE)打造的本地 Metal 推理引擎。它不仅能在 MacBook 上流畅运行千亿参数模型,还内置 OpenAI/Anthropic 兼容 API 服务器,可直接替代云端 API 驱动本地 AI Agent 工作流。对内容创作者和自动化开发者来说,这意味着一项关键转变:高质量 AI 编码能力从「每月付费 API」变为「本地零成本部署」。

关键要点

  • 发布时间:2026-05-07
  • 模型规模:DeepSeek V4 Flash 284B 参数(仅 4B 活跃),2-bit 量化后仅需 128GB RAM
  • 核心创新:磁盘 KV 缓存方案,将 KV cache 当作「一等磁盘公民」,首次让本地运行 100 万 Token 上下文变为现实
  • 兼容性:原生支持 OpenAI / Anthropic API 格式,可直接对接 Claude Code、Opencode、Pi 等主流 Agent 工具

背景:Redis 作者的下一个项目

antirez 在 GitHub 上开源了 ds4.c——一个「故意狭窄」的推理引擎,只做一件事:让 DeepSeek V4 Flash 在 Apple Silicon(Metal)上高效运行。这个项目不含 GGUF 通用加载器,不是 llama.cpp 的封装,而是从零针对 DS4 模型结构编写的 Metal 图执行器。

项目发布后迅速获得 500+ GitHub Stars 和 260+ Hacker News 讨论,社区反应热烈——原因在于它解决了本地 AI 推理的几个核心痛点。

关键影响

维度变化对 AI 自动化的意义建议行动
成本本地运行,API 费用为零自动化工作流的推理成本完全消除部署本地 Agent 替代云端 API 调用
上下文100 万 Token(支持磁盘 KV 缓存)可处理完整项目代码库和长文档设计 Agent 工作流时充分使用长上下文
性能M3 Ultra: 36.86 t/s 生成(q2)接近云端推理速度对延迟敏感任务可本地承载
隐私全部本地运行,数据不离开设备敏感数据处理无需外部 API将合规风险高的推理任务迁移至本地

ds4.c 的核心技术创新

antirez 在 ds4.c 中做了几个值得关注的创新设计:

1. 磁盘 KV 缓存(Disk KV Cache)

传统推理引擎将 KV cache 全部放在 RAM 中,但 DS4 V4 Flash 的 KV 缓存压缩率极高,结合 MacBook 的高速 SSD,antirez 提出「KV cache 应该是一等磁盘公民」的理念。ds4-server 会自动将会话的 KV 缓存持久化到磁盘文件,即使服务器重启,后续请求也能复用上次的预填充结果。这意味着高效的服务多 Agent 会话,每个会话的热启动开销大幅降低。

2. 2-bit 非对称量化

DS4 V4 Flash 的 2-bit 量化方案并非简单压缩:仅对路由 MoE 专家层量化(up/gate 用 IQ2_XXS、down 用 Q2_K),共享专家、投影层和路由层保持原精度。这让 284B 模型在 128GB RAM 的 MacBook 上也能跑出接近无损的效果。

3. 原生 Agent API 支持

ds4-server 同时支持 OpenAI 和 Anthropic 两种 API 格式,包括 Tool Calling、Streaming、Thinking Mode 等高级特性,可以直接对接 Claude Code、Opencode 和 Pi 等 Agent 工具。

terminal

# OpenAI 兼容
curl http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"解释 Redis 设计原则。"}],"stream":true}'

ds4.c inference engine running on MacBook

对 AI 自动化内容生产的影响

本地推理引擎的成熟对内容自动化运营有直接意义:

  1. 消除 API 成本焦虑:自动化 Pipeline 的推理成本归零,可以放心用 AI 做大流量内容预处理
  2. 上下文窗口放大:100 万 Token 上下文意味着 Agent 可以「记住」整本书、整个项目或整周的内容策略,无需分片处理
  3. 数据隐私合规:敏感内容(客户数据、未发布策略)无需经过外部 API,降低合规风险
  4. Agent 工作流本地化:n8n + 本地 DeepSeek 的组合可以完全在离线环境中运行自动化流水线

工具词条

正文中自然出现的工具词条,系统会自动匹配:DeepSeek V4Claude CodeOpenAIChatGPTAnthropicn8nOpencodeHermes Agent

参考链接

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。