WayToClawEarn
中等影响Hacker News / GitHub

WhichLLM 发布:开源免费一键找到最适合本地硬件的 AI 模型

HN 热度 120+ 的开源免费工具 WhichLLM 正式发布,可自动检测本地 GPU/CPU/RAM,基于真实基准评分推荐最适合的本地大模型。覆盖 RTX 4090 到 M4 Mac,一键运行、代码片段生成,目前已有 5000+ Star。

2026年5月15日 · 阅读约 4 分钟

核心结论

又一个本地 AI 实用工具破圈了。WhichLLM 是一个命令行工具:输入你的显卡型号,它会自动从 HuggingFace 拉取数据,结合 LiveBench、Aider、Chatbot Arena 等真实基准评分,按"硬件适配 × 模型质量"双维度给你排名。

这条新闻对经常运行本地模型的 WayToClawEarn 用户很实用:选择大模型不再是拍脑袋猜,而是有数据支撑的决策。

关键要点

  • 发布时间:2026-05-15
  • 发布形式:GitHub 开源(MIT 协议),PyPI / Homebrew 安装
  • 安装方式pipx install whichllmbrew install whichllm
  • 核心功能:自动检测硬件 → 按 VRAM 筛模型 → 按基准评分排名 → 一键运行
  • 当前 Star 数:GitHub 5000+

背景:本地模型选择的真实痛点

自 DeepSeek V4、Qwen3、Llama 4 等开源模型密集发布以来,越来越多开发者和内容创作者选择在本地运行 LLM。但一个核心问题始终存在:这么多模型,哪个最适合我的机器?

传统的做法是用 Ollama 手动一个个下载试,或者根据模型参数量粗略估算。但这两种方式都有明显缺陷——模型参数量大不等于推理质量好,而逐一尝试的时间成本很高。

WhichLLM 的创始人 Andyyyy64 在 HN 上分享了这个项目:它不是又一个"什么能跑"的简单工具,而是"什么值得跑"的评分引擎。

SEO:本地大模型选择、WhichLLM、GGUF 模型排名、RTX 4090 最佳模型 GEO:TL;DR 式开头,精确数字加分

核心功能拆解

功能维度具体能力对用户的意义
硬件自动检测NVIDIA/AMD/Apple Silicon/CPU 全支持免配置,一条命令输出结果
智能排名整合 LiveBench/Aider/ELO 等 6 个基准源不是凭感觉推荐,而是数据驱动
证据分级direct/variant/base/interpolated/self-reported评分透明度高,不信任不可靠数据
一键运行whichllm run → 自动下载 + 启动聊天省去手动配置环境步骤
代码片段whichllm snippet 输出复制即用的 Python 代码开发者友好,直接整合进项目
GPU 模拟whichllm --gpu "RTX 5090" 模拟未拥有的硬件买显卡前先做功课
反向查询whichllm plan "llama 3 70b" 推荐显卡规划硬件采购

WhichLLM 给出的真实推荐

按显卡推荐

硬件VRAM推荐模型评分推理速度
RTX 509032 GBQwen3.6-27B · Q6_K94.7~40 t/s
RTX 4090 / 309024 GBQwen3.6-27B · Q5_K_M92.8~27 t/s
RTX 40608 GBQwen3-14B · Q3_K_M71.0~22 t/s
Apple M3 Max36 GBQwen3.6-27B · Q5_K_M89.4~9 t/s
CPU onlygpt-oss-20b (MoE) · Q4_K_M45.2~6 t/s

MoE 模型的特殊价值

值得特别提到的是,WhichLLM 对 MoE(混合专家)模型做了专门优化。比如 Qwen3-30B-A3B,总分 82.7 但推理速度高达 102 t/s——因为每次推理只激活 3B 参数,却在质量上接近 30B 模型。这使得拥有 8GB VRAM 的 RTX 4060 用户也能跑出不错的效果。

WhichLLM 排名展示 — 带评分的模型推荐列表

对 AI 内容创作者的实用价值

WhichLLM 的最佳使用场景包括:

  1. 选购显卡前做功课:用 whichllm --gpu "RTX 5090" 模拟未来配置,避免盲目购买
  2. 降低 API 成本:本地运行 Qwen3.6-27B 级别的模型,月均成本约为云 API 的 10-20%
  3. 离线工作流:配合本地 Agent 框架(如 OpenClaw、n8n),可在无网络环境下完成内容生成
  4. 量化选择--quant Q4_K_M 参数帮助你在速度和精度间做权衡

安装与使用

terminal

# 安装
pipx install whichllm

# 自动检测硬件并推荐模型
whichllm

# 假设你在选购 RTX 5090
whichllm --gpu "RTX 5090"

# 一键运行推荐模型
whichllm run

# 输出 Python 代码片段
whichllm snippet "qwen 7b"

相关延伸资料

工具词条

WhichLLM 支持的模型引擎底层用到了 llama.cpp(GGUF 推理),transformers(AWQ/GPTQ 推理),nvidia-ml-py(GPU 检测)。本地 LLM 推理领域,GGUF 格式是目前最主流的选择。OpenClaw 等 AI Agent 框架也常结合本地模型一起使用。

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。