DeepSeek V4 Flash 本地引擎 ds4.c 开源：MacBook 跑 284B 模型

Redis 作者 antirez 发布 ds4.c——专为 DeepSeek V4 Flash 打造的本地推理引擎。仅需 MacBook 128GB 内存即可运行 284B MoE 模型，支持 100 万 Token 上下文和磁盘 KV 缓存，本地 AI 编码 Agent 成本降至零。

核心结论

Redis 创始人 Salvatore Sanfilippo（antirez）发布 ds4.c——一个专为 DeepSeek V4 Flash（284B MoE）打造的本地 Metal 推理引擎。它不仅能在 MacBook 上流畅运行千亿参数模型，还内置 OpenAI/Anthropic 兼容 API 服务器，可直接替代云端 API 驱动本地 AI Agent 工作流。对内容创作者和自动化开发者来说，这意味着一项关键转变：高质量 AI 编码能力从「每月付费 API」变为「本地零成本部署」。

关键要点

发布时间：2026-05-07
模型规模：DeepSeek V4 Flash 284B 参数（仅 4B 活跃），2-bit 量化后仅需 128GB RAM
核心创新：磁盘 KV 缓存方案，将 KV cache 当作「一等磁盘公民」，首次让本地运行 100 万 Token 上下文变为现实
兼容性：原生支持 OpenAI / Anthropic API 格式，可直接对接 Claude Code、Opencode、Pi 等主流 Agent 工具

背景：Redis 作者的下一个项目

antirez 在 GitHub 上开源了 ds4.c——一个「故意狭窄」的推理引擎，只做一件事：让 DeepSeek V4 Flash 在 Apple Silicon（Metal）上高效运行。这个项目不含 GGUF 通用加载器，不是 llama.cpp 的封装，而是从零针对 DS4 模型结构编写的 Metal 图执行器。

项目发布后迅速获得 500+ GitHub Stars 和 260+ Hacker News 讨论，社区反应热烈——原因在于它解决了本地 AI 推理的几个核心痛点。

关键影响

维度	变化	对 AI 自动化的意义	建议行动
成本	本地运行，API 费用为零	自动化工作流的推理成本完全消除	部署本地 Agent 替代云端 API 调用
上下文	100 万 Token（支持磁盘 KV 缓存）	可处理完整项目代码库和长文档	设计 Agent 工作流时充分使用长上下文
性能	M3 Ultra: 36.86 t/s 生成（q2）	接近云端推理速度	对延迟敏感任务可本地承载
隐私	全部本地运行，数据不离开设备	敏感数据处理无需外部 API	将合规风险高的推理任务迁移至本地

ds4.c 的核心技术创新

antirez 在 ds4.c 中做了几个值得关注的创新设计：

1. 磁盘 KV 缓存（Disk KV Cache）

传统推理引擎将 KV cache 全部放在 RAM 中，但 DS4 V4 Flash 的 KV 缓存压缩率极高，结合 MacBook 的高速 SSD，antirez 提出「KV cache 应该是一等磁盘公民」的理念。ds4-server 会自动将会话的 KV 缓存持久化到磁盘文件，即使服务器重启，后续请求也能复用上次的预填充结果。这意味着高效的服务多 Agent 会话，每个会话的热启动开销大幅降低。

2. 2-bit 非对称量化

DS4 V4 Flash 的 2-bit 量化方案并非简单压缩：仅对路由 MoE 专家层量化（up/gate 用 IQ2_XXS、down 用 Q2_K），共享专家、投影层和路由层保持原精度。这让 284B 模型在 128GB RAM 的 MacBook 上也能跑出接近无损的效果。

3. 原生 Agent API 支持

ds4-server 同时支持 OpenAI 和 Anthropic 两种 API 格式，包括 Tool Calling、Streaming、Thinking Mode 等高级特性，可以直接对接 Claude Code、Opencode 和 Pi 等 Agent 工具。

terminal


# OpenAI 兼容
curl http://127.0.0.1:8000/v1/chat/completions \
  -H 'Content-Type: application/json' \
  -d '{"model":"deepseek-v4-flash","messages":[{"role":"user","content":"解释 Redis 设计原则。"}],"stream":true}'

ds4.c inference engine running on MacBook

对 AI 自动化内容生产的影响

本地推理引擎的成熟对内容自动化运营有直接意义：

消除 API 成本焦虑：自动化 Pipeline 的推理成本归零，可以放心用 AI 做大流量内容预处理
上下文窗口放大：100 万 Token 上下文意味着 Agent 可以「记住」整本书、整个项目或整周的内容策略，无需分片处理
数据隐私合规：敏感内容（客户数据、未发布策略）无需经过外部 API，降低合规风险
Agent 工作流本地化：n8n + 本地 DeepSeek 的组合可以完全在离线环境中运行自动化流水线

工具词条

正文中自然出现的工具词条，系统会自动匹配：DeepSeek V4、Claude Code、OpenAI、ChatGPT、Anthropic、n8n、Opencode、Hermes Agent

参考链接

GitHub 仓库: antirez/ds4
Hacker News 讨论: news.ycombinator.com
Hugging Face 模型: huggingface.co/antirez/deepseek-v4-gguf

内链引导

想学方法？看：如何用 DeepSeek V4 替代 Anthropic 跑 Claude Code：5 分钟省 90% API 费用
真实案例：Claude Code 48小时创业：一人+29美元月费，3个月做到月入$9,000
更多教程：DeepClaude搭建教程：用DeepSeek跑Claude Code省90%