WayToClawEarn
入门30 分钟2026年5月11日

如何用 LM Studio 在 M4 Mac 上运行本地 AI 模型:30 分钟完整教程

从零开始,在 M4 MacBook 上安装 LM Studio 并运行 Qwen 本地模型

入门 · 30 分钟 · 2026年5月11日

<

教程目标

在 30 分钟内,用 LM Studio 在 M4 Mac 上跑通本地 AI 模型,实现日常编程辅助和基础任务处理,无需依赖云端 API。本文是完整的 step-by-step 教学。

你将获得什么

  • 本地推理环境:在 M4 MacBook 上跑通 Qwen 3.5-9B 模型,达到约 40 tokens/秒的实用速度
  • 完整的工具链:LM Studio + 本地模型 + 实用工具(Pi / OpenCode)
  • 成本意识:一次性硬件投入(如果你已有 Mac),后续无 API 费用,且数据完全本地

准备清单

  • M4 Mac(24GB 内存是最佳配置,16GB 也能跑小模型)
  • macOS 14+(Sonoma 或 Sequoia)
  • 约 8GB 空闲磁盘空间
  • LM Studio(免费,从官网下载)
  • 可选:Pi 或 OpenCode(命令行 AI 工具)

总体架构

本地 AI 的工作流拆解为 3 个步骤,按顺序操作即可。

模块输入输出预估时间
安装 LM Studio 与模型M4 Mac + 网络运行中的本地模型15 分钟
配置推理参数已加载的模型优化后的推理设置10 分钟
接入命令行工具本地 API + Pi/OpenCode完整的开发环境5 分钟

LM Studio interface setup

第 1 步:安装 LM Studio 并下载模型

LM Studio 官网 下载 macOS 版本安装(Apple Silicon 原生版)。安装完成后,在搜索栏中查找 Qwen 3.5-9B 模型,选择 q4_k_s 量化版本。

为什么要选 Qwen 3.5-9B?经过多方实测(包括 HN 社区),这是目前在 M4 24GB 内存上综合表现最好的选择

  • 约 40 tokens/秒,日常使用完全流畅
  • 支持 128K 上下文窗口,足以处理大型代码库
  • 工具调用能力良好,能配合命令行工具使用
  • 支持思考模式(thinking mode),适合复杂推理任务
terminal

# 模型信息(参考)

# 名称: Qwen3.5-9B @ q4_k_s

# 大小: ~5.6GB

# 上下文: 128K tokens

# 速度: ~40 tok/s (M4 24GB)

# HuggingFace: Qwen/Qwen3.5-9B-GGUF

提示:如果内存只有 16GB,可以尝试 Qwen 3-4B 或 Gemma 4B,速度会更快但推理能力弱一些。如果内存达到 32GB 以上,可以考虑 Qwen 3.6 Q3 或 Devstral Small 24B。

第 2 步:配置推理参数

LM Studio 的默认参数效果一般,要获得最佳效果需要手动调整。以下是经过验证的推荐配置:

参数推荐值说明
temperature0.6编码任务偏确定性,创意任务可调至 0.8
top_p0.95保持词汇多样性
top_k20限制候选词范围
min_p0.0不设最低概率门槛
presence_penalty0.0不惩罚重复词汇
repetition_penalty1.0不额外惩罚重复

启用思考模式(Thinking Mode)

这一步很关键但容易忽略。在 LM Studio 中加载模型后,进入 Configuration → Inference 标签页,滚动到底部的 Prompt Template 区域,在模板中追加:

{%- set enable_thinking = true %}

保存后重新加载模型,即可在思考模式下运行。Qwen 3.5-9B 的思考模式能显著提升复杂编程任务的准确率。

Qwen 3.5 thinking mode configuration

第 3 步:接入命令行工具

本地模型的最大价值在于融入你的日常开发流程。目前有两个主流命令行工具支持连接 LM Studio:

OpenCode — 轻量级 AI 编码助手,支持自定义模型提供者。装上后配置 LM Studio 的本地 API 地址(默认 http://localhost:1234/v1),就能在终端中直接用本地模型写代码。

Pi — 功能更丰富的 AI 终端工具,支持多模型切换和自定义工作流。LM Studio 会在本地启动一个兼容 OpenAI 格式的 API 服务,Pi 直接配置即可使用。

推荐使用 OpenCode 来开发,用 Claude Code 或 ChatGPT 处理复杂推理——这种混合使用方式,既能保护代码隐私,又能在需要时获得顶级模型的推理能力。

推荐在 OpenCode 中使用 Claude Code 来处理那些本地模型搞不定的复杂重构任务,这样既省钱又高效。

常见问题排查(FAQ)

Q1:加载模型后系统变卡怎么办?

关闭不必要的浏览器标签页和应用。LM Studio 中的 Context Length 设置降低到 32K 或 64K,减少内存占用。如果还卡,换用更小的模型(如 Qwen 3-4B)。

Q2:速度只有不到 10 tokens/秒?

检查是否用了非 Apple Silicon 原生版本。在 LM Studio 设置中确保选择 Metal(GPU 加速)而不是 CPU Only。Q4_K_S 量化是速度和质量的平衡点,GGUF 格式比 EXL2 格式更省内存。

Q3:模型输出质量太差?

确认已启用 thinking mode。检查 temperature 是否过高(编码任务建议 0.6),尝试降低 top_p 到 0.85。如果还是不满意,换用更大的量化版或关闭 128K 上下文窗口跑更短的上下文。

工具词条

正文中自然使用的工具名,平台侧会根据已维护的工具库自动匹配生成 hover-card:

LM StudioOpenAIChatGPTClaudeClaude CodeQwenPiOpenCodeHuggingFace

参考素材

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。

相关推荐

如何用 LM Studio 在 M4 Mac 上运行本地 AI 模型:30 分钟完整教程 · WayToClawEarn