如何用 LM Studio 在 M4 Mac 上运行本地 AI 模型:30 分钟完整教程
从零开始,在 M4 MacBook 上安装 LM Studio 并运行 Qwen 本地模型
入门 · 30 分钟 · 2026年5月11日
<
教程目标
在 30 分钟内,用 LM Studio 在 M4 Mac 上跑通本地 AI 模型,实现日常编程辅助和基础任务处理,无需依赖云端 API。本文是完整的 step-by-step 教学。
你将获得什么
- 本地推理环境:在 M4 MacBook 上跑通 Qwen 3.5-9B 模型,达到约 40 tokens/秒的实用速度
- 完整的工具链:LM Studio + 本地模型 + 实用工具(Pi / OpenCode)
- 成本意识:一次性硬件投入(如果你已有 Mac),后续无 API 费用,且数据完全本地
准备清单
- M4 Mac(24GB 内存是最佳配置,16GB 也能跑小模型)
- macOS 14+(Sonoma 或 Sequoia)
- 约 8GB 空闲磁盘空间
- LM Studio(免费,从官网下载)
- 可选:Pi 或 OpenCode(命令行 AI 工具)
总体架构
本地 AI 的工作流拆解为 3 个步骤,按顺序操作即可。
| 模块 | 输入 | 输出 | 预估时间 |
|---|---|---|---|
| 安装 LM Studio 与模型 | M4 Mac + 网络 | 运行中的本地模型 | 15 分钟 |
| 配置推理参数 | 已加载的模型 | 优化后的推理设置 | 10 分钟 |
| 接入命令行工具 | 本地 API + Pi/OpenCode | 完整的开发环境 | 5 分钟 |
第 1 步:安装 LM Studio 并下载模型
从 LM Studio 官网 下载 macOS 版本安装(Apple Silicon 原生版)。安装完成后,在搜索栏中查找 Qwen 3.5-9B 模型,选择 q4_k_s 量化版本。
为什么要选 Qwen 3.5-9B?经过多方实测(包括 HN 社区),这是目前在 M4 24GB 内存上综合表现最好的选择:
- 约 40 tokens/秒,日常使用完全流畅
- 支持 128K 上下文窗口,足以处理大型代码库
- 工具调用能力良好,能配合命令行工具使用
- 支持思考模式(thinking mode),适合复杂推理任务
# 模型信息(参考)
# 名称: Qwen3.5-9B @ q4_k_s
# 大小: ~5.6GB
# 上下文: 128K tokens
# 速度: ~40 tok/s (M4 24GB)
# HuggingFace: Qwen/Qwen3.5-9B-GGUF提示:如果内存只有 16GB,可以尝试 Qwen 3-4B 或 Gemma 4B,速度会更快但推理能力弱一些。如果内存达到 32GB 以上,可以考虑 Qwen 3.6 Q3 或 Devstral Small 24B。
第 2 步:配置推理参数
LM Studio 的默认参数效果一般,要获得最佳效果需要手动调整。以下是经过验证的推荐配置:
| 参数 | 推荐值 | 说明 |
|---|---|---|
| temperature | 0.6 | 编码任务偏确定性,创意任务可调至 0.8 |
| top_p | 0.95 | 保持词汇多样性 |
| top_k | 20 | 限制候选词范围 |
| min_p | 0.0 | 不设最低概率门槛 |
| presence_penalty | 0.0 | 不惩罚重复词汇 |
| repetition_penalty | 1.0 | 不额外惩罚重复 |
启用思考模式(Thinking Mode):
这一步很关键但容易忽略。在 LM Studio 中加载模型后,进入 Configuration → Inference 标签页,滚动到底部的 Prompt Template 区域,在模板中追加:
{%- set enable_thinking = true %}
保存后重新加载模型,即可在思考模式下运行。Qwen 3.5-9B 的思考模式能显著提升复杂编程任务的准确率。
第 3 步:接入命令行工具
本地模型的最大价值在于融入你的日常开发流程。目前有两个主流命令行工具支持连接 LM Studio:
OpenCode — 轻量级 AI 编码助手,支持自定义模型提供者。装上后配置 LM Studio 的本地 API 地址(默认 http://localhost:1234/v1),就能在终端中直接用本地模型写代码。
Pi — 功能更丰富的 AI 终端工具,支持多模型切换和自定义工作流。LM Studio 会在本地启动一个兼容 OpenAI 格式的 API 服务,Pi 直接配置即可使用。
推荐使用 OpenCode 来开发,用 Claude Code 或 ChatGPT 处理复杂推理——这种混合使用方式,既能保护代码隐私,又能在需要时获得顶级模型的推理能力。
推荐在 OpenCode 中使用 Claude Code 来处理那些本地模型搞不定的复杂重构任务,这样既省钱又高效。
常见问题排查(FAQ)
Q1:加载模型后系统变卡怎么办?
关闭不必要的浏览器标签页和应用。LM Studio 中的 Context Length 设置降低到 32K 或 64K,减少内存占用。如果还卡,换用更小的模型(如 Qwen 3-4B)。
Q2:速度只有不到 10 tokens/秒?
检查是否用了非 Apple Silicon 原生版本。在 LM Studio 设置中确保选择 Metal(GPU 加速)而不是 CPU Only。Q4_K_S 量化是速度和质量的平衡点,GGUF 格式比 EXL2 格式更省内存。
Q3:模型输出质量太差?
确认已启用 thinking mode。检查 temperature 是否过高(编码任务建议 0.6),尝试降低 top_p 到 0.85。如果还是不满意,换用更大的量化版或关闭 128K 上下文窗口跑更短的上下文。
工具词条
正文中自然使用的工具名,平台侧会根据已维护的工具库自动匹配生成 hover-card:
LM Studio、OpenAI、ChatGPT、Claude、Claude Code、Qwen、Pi、OpenCode、HuggingFace
参考素材
内链引导
- 有人实践成功:Claude Code 48小时创业:一人+29美元月费,3个月做到月入$9,000
- 推荐工具:LM Studio