DeepSeek V4 Flash 本地引擎 ds4.c 开源:MacBook 跑 284B 模型
Redis 作者 antirez 发布 ds4.c——专为 DeepSeek V4 Flash 打造的本地推理引擎。仅需 MacBook 128GB 内存即可运行 284B MoE 模型,支持 100 万 Token 上下文和磁盘 KV 缓存,本地 AI 编码 Agent 成本降至零。
2026年5月8日 · 阅读约 4 分钟
核心结论
Redis 创始人 Salvatore Sanfilippo(antirez)发布 ds4.c——一个专为 DeepSeek V4 Flash(284B MoE)打造的本地 Metal 推理引擎。它不仅能在 MacBook 上流畅运行千亿参数模型,还内置 OpenAI/Anthropic 兼容 API 服务器,可直接替代云端 API 驱动本地 AI Agent 工作流。对内容创作者和自动化开发者来说,这意味着一项关键转变:高质量 AI 编码能力从「每月付费 API」变为「本地零成本部署」。
关键要点
- 发布时间:2026-05-07
- 模型规模:DeepSeek V4 Flash 284B 参数(仅 4B 活跃),2-bit 量化后仅需 128GB RAM
- 核心创新:磁盘 KV 缓存方案,将 KV cache 当作「一等磁盘公民」,首次让本地运行 100 万 Token 上下文变为现实
- 兼容性:原生支持 OpenAI / Anthropic API 格式,可直接对接 Claude Code、Opencode、Pi 等主流 Agent 工具
背景:Redis 作者的下一个项目
antirez 在 GitHub 上开源了 ds4.c——一个「故意狭窄」的推理引擎,只做一件事:让 DeepSeek V4 Flash 在 Apple Silicon(Metal)上高效运行。这个项目不含 GGUF 通用加载器,不是 llama.cpp 的封装,而是从零针对 DS4 模型结构编写的 Metal 图执行器。
项目发布后迅速获得 500+ GitHub Stars 和 260+ Hacker News 讨论,社区反应热烈——原因在于它解决了本地 AI 推理的几个核心痛点。
关键影响
| 维度 | 变化 | 对 AI 自动化的意义 | 建议行动 |
|---|---|---|---|
| 成本 | 本地运行,API 费用为零 | 自动化工作流的推理成本完全消除 | 部署本地 Agent 替代云端 API 调用 |
| 上下文 | 100 万 Token(支持磁盘 KV 缓存) | 可处理完整项目代码库和长文档 | 设计 Agent 工作流时充分使用长上下文 |
| 性能 | M3 Ultra: 36.86 t/s 生成(q2) | 接近云端推理速度 | 对延迟敏感任务可本地承载 |
| 隐私 | 全部本地运行,数据不离开设备 | 敏感数据处理无需外部 API | 将合规风险高的推理任务迁移至本地 |
ds4.c 的核心技术创新
antirez 在 ds4.c 中做了几个值得关注的创新设计:
1. 磁盘 KV 缓存(Disk KV Cache)
传统推理引擎将 KV cache 全部放在 RAM 中,但 DS4 V4 Flash 的 KV 缓存压缩率极高,结合 MacBook 的高速 SSD,antirez 提出「KV cache 应该是一等磁盘公民」的理念。ds4-server 会自动将会话的 KV 缓存持久化到磁盘文件,即使服务器重启,后续请求也能复用上次的预填充结果。这意味着高效的服务多 Agent 会话,每个会话的热启动开销大幅降低。
2. 2-bit 非对称量化
DS4 V4 Flash 的 2-bit 量化方案并非简单压缩:仅对路由 MoE 专家层量化(up/gate 用 IQ2_XXS、down 用 Q2_K),共享专家、投影层和路由层保持原精度。这让 284B 模型在 128GB RAM 的 MacBook 上也能跑出接近无损的效果。
3. 原生 Agent API 支持
ds4-server 同时支持 OpenAI 和 Anthropic 两种 API 格式,包括 Tool Calling、Streaming、Thinking Mode 等高级特性,可以直接对接 Claude Code、Opencode 和 Pi 等 Agent 工具。
# OpenAI 兼容
curl http://127.0.0.1:8000/v1/chat/completions \
-H 'Content-Type: application/json' \
-d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"解释 Redis 设计原则。"}],"stream":true}'对 AI 自动化内容生产的影响
本地推理引擎的成熟对内容自动化运营有直接意义:
- 消除 API 成本焦虑:自动化 Pipeline 的推理成本归零,可以放心用 AI 做大流量内容预处理
- 上下文窗口放大:100 万 Token 上下文意味着 Agent 可以「记住」整本书、整个项目或整周的内容策略,无需分片处理
- 数据隐私合规:敏感内容(客户数据、未发布策略)无需经过外部 API,降低合规风险
- Agent 工作流本地化:n8n + 本地 DeepSeek 的组合可以完全在离线环境中运行自动化流水线
工具词条
正文中自然出现的工具词条,系统会自动匹配:DeepSeek V4、Claude Code、OpenAI、ChatGPT、Anthropic、n8n、Opencode、Hermes Agent
参考链接
- GitHub 仓库: antirez/ds4
- Hacker News 讨论: news.ycombinator.com
- Hugging Face 模型: huggingface.co/antirez/deepseek-v4-gguf