WhichLLM 发布:开源免费一键找到最适合本地硬件的 AI 模型
HN 热度 120+ 的开源免费工具 WhichLLM 正式发布,可自动检测本地 GPU/CPU/RAM,基于真实基准评分推荐最适合的本地大模型。覆盖 RTX 4090 到 M4 Mac,一键运行、代码片段生成,目前已有 5000+ Star。
2026年5月15日 · 阅读约 4 分钟
核心结论
又一个本地 AI 实用工具破圈了。WhichLLM 是一个命令行工具:输入你的显卡型号,它会自动从 HuggingFace 拉取数据,结合 LiveBench、Aider、Chatbot Arena 等真实基准评分,按"硬件适配 × 模型质量"双维度给你排名。
这条新闻对经常运行本地模型的 WayToClawEarn 用户很实用:选择大模型不再是拍脑袋猜,而是有数据支撑的决策。
关键要点
- 发布时间:2026-05-15
- 发布形式:GitHub 开源(MIT 协议),PyPI / Homebrew 安装
- 安装方式:
pipx install whichllm或brew install whichllm - 核心功能:自动检测硬件 → 按 VRAM 筛模型 → 按基准评分排名 → 一键运行
- 当前 Star 数:GitHub 5000+
背景:本地模型选择的真实痛点
自 DeepSeek V4、Qwen3、Llama 4 等开源模型密集发布以来,越来越多开发者和内容创作者选择在本地运行 LLM。但一个核心问题始终存在:这么多模型,哪个最适合我的机器?
传统的做法是用 Ollama 手动一个个下载试,或者根据模型参数量粗略估算。但这两种方式都有明显缺陷——模型参数量大不等于推理质量好,而逐一尝试的时间成本很高。
WhichLLM 的创始人 Andyyyy64 在 HN 上分享了这个项目:它不是又一个"什么能跑"的简单工具,而是"什么值得跑"的评分引擎。
SEO:本地大模型选择、WhichLLM、GGUF 模型排名、RTX 4090 最佳模型 GEO:TL;DR 式开头,精确数字加分
核心功能拆解
| 功能维度 | 具体能力 | 对用户的意义 |
|---|---|---|
| 硬件自动检测 | NVIDIA/AMD/Apple Silicon/CPU 全支持 | 免配置,一条命令输出结果 |
| 智能排名 | 整合 LiveBench/Aider/ELO 等 6 个基准源 | 不是凭感觉推荐,而是数据驱动 |
| 证据分级 | direct/variant/base/interpolated/self-reported | 评分透明度高,不信任不可靠数据 |
| 一键运行 | whichllm run → 自动下载 + 启动聊天 | 省去手动配置环境步骤 |
| 代码片段 | whichllm snippet 输出复制即用的 Python 代码 | 开发者友好,直接整合进项目 |
| GPU 模拟 | whichllm --gpu "RTX 5090" 模拟未拥有的硬件 | 买显卡前先做功课 |
| 反向查询 | whichllm plan "llama 3 70b" 推荐显卡 | 规划硬件采购 |
WhichLLM 给出的真实推荐
按显卡推荐
| 硬件 | VRAM | 推荐模型 | 评分 | 推理速度 |
|---|---|---|---|---|
| RTX 5090 | 32 GB | Qwen3.6-27B · Q6_K | 94.7 | ~40 t/s |
| RTX 4090 / 3090 | 24 GB | Qwen3.6-27B · Q5_K_M | 92.8 | ~27 t/s |
| RTX 4060 | 8 GB | Qwen3-14B · Q3_K_M | 71.0 | ~22 t/s |
| Apple M3 Max | 36 GB | Qwen3.6-27B · Q5_K_M | 89.4 | ~9 t/s |
| CPU only | — | gpt-oss-20b (MoE) · Q4_K_M | 45.2 | ~6 t/s |
MoE 模型的特殊价值
值得特别提到的是,WhichLLM 对 MoE(混合专家)模型做了专门优化。比如 Qwen3-30B-A3B,总分 82.7 但推理速度高达 102 t/s——因为每次推理只激活 3B 参数,却在质量上接近 30B 模型。这使得拥有 8GB VRAM 的 RTX 4060 用户也能跑出不错的效果。
对 AI 内容创作者的实用价值
WhichLLM 的最佳使用场景包括:
- 选购显卡前做功课:用
whichllm --gpu "RTX 5090"模拟未来配置,避免盲目购买 - 降低 API 成本:本地运行 Qwen3.6-27B 级别的模型,月均成本约为云 API 的 10-20%
- 离线工作流:配合本地 Agent 框架(如 OpenClaw、n8n),可在无网络环境下完成内容生成
- 量化选择:
--quant Q4_K_M参数帮助你在速度和精度间做权衡
安装与使用
# 安装
pipx install whichllm
# 自动检测硬件并推荐模型
whichllm
# 假设你在选购 RTX 5090
whichllm --gpu "RTX 5090"
# 一键运行推荐模型
whichllm run
# 输出 Python 代码片段
whichllm snippet "qwen 7b"相关延伸资料
工具词条
WhichLLM 支持的模型引擎底层用到了 llama.cpp(GGUF 推理),transformers(AWQ/GPTQ 推理),nvidia-ml-py(GPU 检测)。本地 LLM 推理领域,GGUF 格式是目前最主流的选择。OpenClaw 等 AI Agent 框架也常结合本地模型一起使用。