WhichLLM 发布：开源免费一键找到最适合本地硬件的 AI 模型

HN 热度 120+ 的开源免费工具 WhichLLM 正式发布，可自动检测本地 GPU/CPU/RAM，基于真实基准评分推荐最适合的本地大模型。覆盖 RTX 4090 到 M4 Mac，一键运行、代码片段生成，目前已有 5000+ Star。

核心结论

又一个本地 AI 实用工具破圈了。WhichLLM 是一个命令行工具：输入你的显卡型号，它会自动从 HuggingFace 拉取数据，结合 LiveBench、Aider、Chatbot Arena 等真实基准评分，按"硬件适配 × 模型质量"双维度给你排名。

这条新闻对经常运行本地模型的 WayToClawEarn 用户很实用：选择大模型不再是拍脑袋猜，而是有数据支撑的决策。

关键要点

发布时间：2026-05-15
发布形式：GitHub 开源（MIT 协议），PyPI / Homebrew 安装
安装方式：pipx install whichllm 或 brew install whichllm
核心功能：自动检测硬件 → 按 VRAM 筛模型 → 按基准评分排名 → 一键运行
当前 Star 数：GitHub 5000+

背景：本地模型选择的真实痛点

自 DeepSeek V4、Qwen3、Llama 4 等开源模型密集发布以来，越来越多开发者和内容创作者选择在本地运行 LLM。但一个核心问题始终存在：这么多模型，哪个最适合我的机器？

传统的做法是用 Ollama 手动一个个下载试，或者根据模型参数量粗略估算。但这两种方式都有明显缺陷——模型参数量大不等于推理质量好，而逐一尝试的时间成本很高。

WhichLLM 的创始人 Andyyyy64 在 HN 上分享了这个项目：它不是又一个"什么能跑"的简单工具，而是"什么值得跑"的评分引擎。

SEO：本地大模型选择、WhichLLM、GGUF 模型排名、RTX 4090 最佳模型 GEO：TL;DR 式开头，精确数字加分

核心功能拆解

功能维度	具体能力	对用户的意义
硬件自动检测	NVIDIA/AMD/Apple Silicon/CPU 全支持	免配置，一条命令输出结果
智能排名	整合 LiveBench/Aider/ELO 等 6 个基准源	不是凭感觉推荐，而是数据驱动
证据分级	direct/variant/base/interpolated/self-reported	评分透明度高，不信任不可靠数据
一键运行	`whichllm run` → 自动下载 + 启动聊天	省去手动配置环境步骤
代码片段	`whichllm snippet` 输出复制即用的 Python 代码	开发者友好，直接整合进项目
GPU 模拟	`whichllm --gpu "RTX 5090"` 模拟未拥有的硬件	买显卡前先做功课
反向查询	`whichllm plan "llama 3 70b"` 推荐显卡	规划硬件采购

WhichLLM 给出的真实推荐

按显卡推荐

硬件	VRAM	推荐模型	评分	推理速度
RTX 5090	32 GB	Qwen3.6-27B · Q6_K	94.7	~40 t/s
RTX 4090 / 3090	24 GB	Qwen3.6-27B · Q5_K_M	92.8	~27 t/s
RTX 4060	8 GB	Qwen3-14B · Q3_K_M	71.0	~22 t/s
Apple M3 Max	36 GB	Qwen3.6-27B · Q5_K_M	89.4	~9 t/s
CPU only	—	gpt-oss-20b (MoE) · Q4_K_M	45.2	~6 t/s

MoE 模型的特殊价值

值得特别提到的是，WhichLLM 对 MoE（混合专家）模型做了专门优化。比如 Qwen3-30B-A3B，总分 82.7 但推理速度高达 102 t/s——因为每次推理只激活 3B 参数，却在质量上接近 30B 模型。这使得拥有 8GB VRAM 的 RTX 4060 用户也能跑出不错的效果。

WhichLLM 排名展示 — 带评分的模型推荐列表

对 AI 内容创作者的实用价值

WhichLLM 的最佳使用场景包括：

选购显卡前做功课：用 whichllm --gpu "RTX 5090" 模拟未来配置，避免盲目购买
降低 API 成本：本地运行 Qwen3.6-27B 级别的模型，月均成本约为云 API 的 10-20%
离线工作流：配合本地 Agent 框架（如 OpenClaw、n8n），可在无网络环境下完成内容生成
量化选择：--quant Q4_K_M 参数帮助你在速度和精度间做权衡

安装与使用

terminal


# 安装
pipx install whichllm

# 自动检测硬件并推荐模型
whichllm

# 假设你在选购 RTX 5090
whichllm --gpu "RTX 5090"

# 一键运行推荐模型
whichllm run

# 输出 Python 代码片段
whichllm snippet "qwen 7b"

工具词条

WhichLLM 支持的模型引擎底层用到了 llama.cpp（GGUF 推理），transformers（AWQ/GPTQ 推理），nvidia-ml-py（GPU 检测）。本地 LLM 推理领域，GGUF 格式是目前最主流的选择。OpenClaw 等 AI Agent 框架也常结合本地模型一起使用。

内链引导

想学本地模型？看：如何用 LM Studio 在 M4 Mac 上运行本地 AI 模型：30 分钟完整教程
真实案例：他用 Claude + n8n 搭建 AI 自动化系统，6 个月从 $4,000 到 $12,000/月
DeepClaude 省成本：DeepClaude 搭建教程：用 DeepSeek 跑 Claude Code 省 90%