「Train Your Own LLM from Scratch」开源项目登顶 HN:笔记本电脑就能训练 GPT
一个名为「Train Your Own LLM from Scratch」的开源项目在 Hacker News 上爆火。该项目让你从零编写完整的 GPT 训练流程——分词器、Transformer 架构、训练循环——全部在笔记本电脑上完成,无需 GPU 集群,每步都有配套文档解释原理。
2026年5月5日 · 阅读约 4 分钟
核心结论
2026 年 5 月 5 日,GitHub 开源项目「Train Your Own LLM from Scratch」登顶 Hacker News 首页。该项目由 Angelos P. 创建,灵感来源于 Andrej Karpathy 的 nanoGPT,但做了大胆精简——目标不是复现 GPT-2(124M 参数),而是构建一个约 10M 参数的迷你 GPT 模型,在普通笔记本电脑上用不到 1 小时即可完成训练。
关键要点
- 发布时间:2026-05-05(登顶 HN 首页)
- 核心卖点:无需 GPU 集群,MacBook 即可训练
- 技术栈:PyTorch + 纯 Python,无黑盒库
- 目标用户:想理解 LLM 底层原理的开发者/内容创作者
- 项目体量:新项目,正快速获得社区关注
背景
Hacker News 社区对 LLM 的好奇心一直在增长,但过去学习 Transformer 的路径要么太浅(调 API),要么太深(读论文)。Karpathy 的 nanoGPT 是第一个让「自己动手训练 LLM」变得可操作的资源,但 124M 参数的 GPT-2 复现仍需要 GPU。
这个新项目选择了一条更务实的路径:把模型缩小到 10M 参数,用莎士比亚文本作为训练语料,让一台普通笔记本就能在 60 分钟内跑完完整的训练流程。
项目核心内容
| 模块 | 你写什么 | 学到什么 |
|---|---|---|
| Part 1: 分词器 | 字符级 Tokenizer | 字符编码、词表大小、BPE 在小数据上的局限 |
| Part 2: Transformer | 完整 GPT 模型架构 | Embedding、Self-Attention、Layer Norm、MLP |
| Part 3: 训练循环 | 前向/反向/优化器 | Loss、Backprop、学习率调度 |
| Part 4: 生成 | 从训练好的模型采样 | Temperature、Top-K 采样策略 |
项目采用 step-by-step 文档驱动学习。每个模块都有配套的 docs/ 目录下的 Markdown 说明,带你边写代码边理解原理。
为什么这很重要
对于 WayToClawEarn 的读者来说,理解 LLM 底层原理的价值体现在三个方面:
1. 内容生产更高效 当你理解 Tokenizer 如何切割文本、Self-Attention 如何理解上下文,你就能设计出更有效的 Prompt 模板,减少不必要的 Token 消耗。OpenAI 和 DeepSeek 的计费是按 Token 的,理解底层能直接省钱。
2. 自动化工作流更可靠 AI Agent(如 Claude Code、Hermes Agent、n8n)的底层都是 LLM。了解训练过程有助于理解为什么 AI Agent 有时会「胡言乱语」(hallucination),以及如何在工作流中设置合理的验证点。
3. 职业护城河 当「人人都会调 AI API」时,真正理解底层原理的开发者会有质的优势。这个项目恰好提供了从「调用者」到「理解者」的桥梁。
快速上手
项目安装极其简单,仅需 Python 3.12+ 和 uv 包管理器:
# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# 克隆并初始化
git clone https://github.com/angelos-p/llm-from-scratch
cd llm-from-scratch
uv sync
mkdir scratchpad && cd scratchpad
# 开始学习
# 按 docs/ 目录顺序阅读,从 Part 1 的 Tokenizer 开始也可以直接在 Google Colab 上运行,无需本地环境。
工具词条(触发工具悬浮卡)
如果你想在自己的自动化工作流中集成 LLM 能力,n8n 和 LangGraph 提供了低代码方案。Claude Code 和 Hermes Agent 则是更高级的 AI Agent 框架。OpenAI 和 DeepSeek 的 API 是训练后的模型调用入口。
内链引导
- 想进阶学习 AI Agent 自动化?看:AI Agent 工具实操教程:从安装到自动化工作流
- 了解如何用 Claude Code 实现内容生产自动化:如何用 Claude Code 实现自动化内容生产:30 分钟从零搭建 AI 写作工作流
- 真实案例:独立开发者如何用 AI 工具月入 5000 美元:独立开发者用n8n+OpenClaw搭建自动化工作流,月入5000美元的实战案例