WayToClawEarn
中等影响Hacker News

M4 MacBook 本地跑 AI 模型的实战指南:24GB 内存也能流畅运行 128K 上下文

一位开发者分享了在 M4 MacBook Pro(24GB 内存)上运行本地 AI 模型的完整经验:Qwen 3.5-9B Q4 量化模型可实现 40 tokens/s 的推理速度,支持 128K 上下文窗口和工具调用,搭配 LM Studio 和 OpenCode 即可搭建实用的本地 AI 开发环境。

2026年5月11日 · 阅读约 4 分钟

核心结论

本地 AI 模型不再是玩具。2026 年 5 月,一位开发者(Johanna Larsson)在 M4 MacBook Pro(24GB 内存)上成功运行了 Qwen 3.5-9B Q4 量化模型,实现了 40 tokens/s 推理速度128K 上下文窗口 和可用的 工具调用(Tool Use) 能力。这一实践表明,拥有一台中配 MacBook 就足以搭建一个不依赖云服务的 AI 开发助手。

关键要点

  • 事件来源:Hacker News 热帖(229 点赞),Johanna Larsson 发表于 jola.dev
  • 核心发现:Qwen 3.5-9B Q4_K_S 量化为唯一能在 24GB M4 MacBook 上同时满足速度、上下文宽度和工具可用的模型
  • 适用人群:内容创作者、独立开发者、小团队,需要本地 AI 辅助但不想为云 API 付费
  • 成本对比:一次性硬件投入(M4 MacBook ≈ ¥12,000),后续零 API 费用

背景:本地 AI 的「不可能三角」

长期以来,本地运行 AI 模型面临一个「不可能三角」:

维度云 API(如 GPT-5.5)本地模型(Qwen 3.5-9B)现实影响
推理质量✅ SOTA 级⚠️ 需分步引导复杂任务云 API 更强,常规任务本地足够
上下文窗口✅ 128K+✅ 128K(实测可用)长文档处理能力差距不大
成本❌ GPT-5.5 涨价 100%✅ 零运行成本高频使用场景本地模型优势巨大
隐私❌ 数据发送第三方✅ 完全本地敏感数据场景本地唯一选择
响应速度⚠️ 网络延迟 1-5s✅ 40 tokens/s持续交互场景本地更流畅
设置复杂度✅ 开箱即用⚠️ 需配置量化/推理框架有一定技术门槛

实测最佳方案:Qwen 3.5-9B + LM Studio

经过多次尝试(Qwen 3.6 Q3、GPT-OSS 20B、Devstral Small 24B、Gemma 4B),作者最终确认 Qwen 3.5-9B Q4_K_S 是当前在 24GB M4 MacBook 上最平衡的选择。

推荐配置

json
// LM Studio 配置参数
temperature: 0.6
top_p: 0.95
top_k: 20
min_p: 0.0
presence_penalty: 0.0
repetition_penalty: 1.0

// 启用 Thinking 模式
// 模型配置 → 推理标签页底部 → Prompt Template 添加:
// {% raw %}{% set enable_thinking = true %}{% endraw %}

Pi 代理配置

json
{
  "providers": {
    "lmstudio": {
      "baseUrl": "http://localhost:1234/v1",
      "api": "openai-completions",
      "apiKey": "lm-studio",
      "models": [
        {
          "id": "qwen3.5-9b@q4_k_s",
          "reasoning": true,
          "compat": {
            "thinkingFormat": "qwen-chat-template"
          }
        }
      ]
    }
  }
}

OpenCode 配置

json
{
  "provider": {
    "lmstudio": {
      "npm": "@ai-sdk/openai-compatible",
      "name": "LM Studio (local)",
      "options": {
        "baseURL": "http://127.0.0.1:1234/v1"
      },
      "models": {
        "qwen3.5-9b@q4_k_s": {
          "name": "Qwen 3.5 9B Q4_K_S",
          "tools": true,
          "context_length": 131072,
          "max_tokens": 32768
        }
      }
    }
  },
  "model": "lmstudio/qwen3.5-9b@q4_k_s"
}

本地 AI 配置界面截图

本地模型 vs SOTA:各有所长

作者坦诚地指出了本地模型的局限性:不适合一次性构建完整应用需要分步引导容易分心和陷入循环

但她也发现了一个意想不到的优势:被迫更加投入

「使用 SOTA 模型的缺点是,即使你刻意避免,它也太容易让你卸载所有认知劳动。而使用本地模型,我被迫承担更多思考工作——这反而让我对代码的理解更深。」

这个观察与最近 Hacker News 上另一篇热帖「Task Paralysis and AI」(221 点赞)形成呼应:AI 工具过度简化反而可能削弱我们的主动思维能力。

实操建议

适用场景

  • 日常编码辅助:代码补全、简单重构、文档生成
  • 内容创作辅助:文章提纲、摘要生成、多语言翻译
  • 学习和研究:代码解释、技术概念速查、实验性探索

不适用场景

  • 完整应用从零构建
  • 需要深度领域知识的复杂任务
  • 高精度的事实性判断

搭建步骤

  1. 下载安装 LM Studio
  2. 从 Hugging Face 下载 Qwen 3.5-9B Q4_K_S 模型
  3. 加载模型,配置 Thinking 模式
  4. 启动本地 API 服务(LM Studio 内置)
  5. 配置 AI 代理(Pi 或 OpenCode)连接本地端点

未来展望

随着 Apple Silicon 的持续迭代(M4 Ultra / M5)和模型量化技术的进步(GGUF Q3/Q2),本地模型的能力正在快速逼近可用门槛。对于独立开发者和中小团队而言,「本地模型处理 80% 日常任务 + 云 API 处理 20% 高难度任务」的混合策略,可能是当前最具性价比的选择。

工具词条

正文中自然出现的工具和平台:LM StudioOpenCodeQwenHugging FaceClaudeChatGPTOllamallama.cpp

内链引导

参考素材

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。