教程目标

在 30 分钟内，用 LM Studio 在 M4 Mac 上跑通本地 AI 模型，实现日常编程辅助和基础任务处理，无需依赖云端 API。本文是完整的 step-by-step 教学。

你将获得什么

本地推理环境：在 M4 MacBook 上跑通 Qwen 3.5-9B 模型，达到约 40 tokens/秒的实用速度
完整的工具链：LM Studio + 本地模型 + 实用工具（Pi / OpenCode）
成本意识：一次性硬件投入（如果你已有 Mac），后续无 API 费用，且数据完全本地

准备清单

M4 Mac（24GB 内存是最佳配置，16GB 也能跑小模型）
macOS 14+（Sonoma 或 Sequoia）
约 8GB 空闲磁盘空间
LM Studio（免费，从官网下载）
可选：Pi 或 OpenCode（命令行 AI 工具）

总体架构

本地 AI 的工作流拆解为 3 个步骤，按顺序操作即可。

模块	输入	输出	预估时间
安装 LM Studio 与模型	M4 Mac + 网络	运行中的本地模型	15 分钟
配置推理参数	已加载的模型	优化后的推理设置	10 分钟
接入命令行工具	本地 API + Pi/OpenCode	完整的开发环境	5 分钟

LM Studio interface setup

第 1 步：安装 LM Studio 并下载模型

从 LM Studio 官网下载 macOS 版本安装（Apple Silicon 原生版）。安装完成后，在搜索栏中查找 Qwen 3.5-9B 模型，选择 q4_k_s 量化版本。

为什么要选 Qwen 3.5-9B？经过多方实测（包括 HN 社区），这是目前在 M4 24GB 内存上综合表现最好的选择：

约 40 tokens/秒，日常使用完全流畅
支持 128K 上下文窗口，足以处理大型代码库
工具调用能力良好，能配合命令行工具使用
支持思考模式（thinking mode），适合复杂推理任务

terminal


# 模型信息（参考）

# 名称: Qwen3.5-9B @ q4_k_s

# 大小: ~5.6GB

# 上下文: 128K tokens

# 速度: ~40 tok/s (M4 24GB)

# HuggingFace: Qwen/Qwen3.5-9B-GGUF

提示：如果内存只有 16GB，可以尝试 Qwen 3-4B 或 Gemma 4B，速度会更快但推理能力弱一些。如果内存达到 32GB 以上，可以考虑 Qwen 3.6 Q3 或 Devstral Small 24B。

第 2 步：配置推理参数

LM Studio 的默认参数效果一般，要获得最佳效果需要手动调整。以下是经过验证的推荐配置：

参数	推荐值	说明
temperature	0.6	编码任务偏确定性，创意任务可调至 0.8
top_p	0.95	保持词汇多样性
top_k	20	限制候选词范围
min_p	0.0	不设最低概率门槛
presence_penalty	0.0	不惩罚重复词汇
repetition_penalty	1.0	不额外惩罚重复

启用思考模式（Thinking Mode）：

这一步很关键但容易忽略。在 LM Studio 中加载模型后，进入 Configuration → Inference 标签页，滚动到底部的 Prompt Template 区域，在模板中追加：

{%- set enable_thinking = true %}

保存后重新加载模型，即可在思考模式下运行。Qwen 3.5-9B 的思考模式能显著提升复杂编程任务的准确率。

Qwen 3.5 thinking mode configuration

第 3 步：接入命令行工具

本地模型的最大价值在于融入你的日常开发流程。目前有两个主流命令行工具支持连接 LM Studio：

OpenCode — 轻量级 AI 编码助手，支持自定义模型提供者。装上后配置 LM Studio 的本地 API 地址（默认 http://localhost:1234/v1），就能在终端中直接用本地模型写代码。

Pi — 功能更丰富的 AI 终端工具，支持多模型切换和自定义工作流。LM Studio 会在本地启动一个兼容 OpenAI 格式的 API 服务，Pi 直接配置即可使用。

推荐使用 OpenCode 来开发，用 Claude Code 或 ChatGPT 处理复杂推理——这种混合使用方式，既能保护代码隐私，又能在需要时获得顶级模型的推理能力。

推荐在 OpenCode 中使用 Claude Code 来处理那些本地模型搞不定的复杂重构任务，这样既省钱又高效。

常见问题排查（FAQ）

Q1：加载模型后系统变卡怎么办？

关闭不必要的浏览器标签页和应用。LM Studio 中的 Context Length 设置降低到 32K 或 64K，减少内存占用。如果还卡，换用更小的模型（如 Qwen 3-4B）。

Q2：速度只有不到 10 tokens/秒？

检查是否用了非 Apple Silicon 原生版本。在 LM Studio 设置中确保选择 Metal（GPU 加速）而不是 CPU Only。Q4_K_S 量化是速度和质量的平衡点，GGUF 格式比 EXL2 格式更省内存。

Q3：模型输出质量太差？

确认已启用 thinking mode。检查 temperature 是否过高（编码任务建议 0.6），尝试降低 top_p 到 0.85。如果还是不满意，换用更大的量化版或关闭 128K 上下文窗口跑更短的上下文。

工具词条

正文中自然使用的工具名，平台侧会根据已维护的工具库自动匹配生成 hover-card：

LM Studio、OpenAI、ChatGPT、Claude、Claude Code、Qwen、Pi、OpenCode、HuggingFace

参考素材

内链引导

有人实践成功：Claude Code 48小时创业：一人+29美元月费，3个月做到月入$9,000
推荐工具：LM Studio

如何用 LM Studio 在 M4 Mac 上运行本地 AI 模型：30 分钟完整教程