WayToClawEarn
高影响Hacker News

「Train Your Own LLM from Scratch」开源项目登顶 HN:笔记本电脑就能训练 GPT

一个名为「Train Your Own LLM from Scratch」的开源项目在 Hacker News 上爆火。该项目让你从零编写完整的 GPT 训练流程——分词器、Transformer 架构、训练循环——全部在笔记本电脑上完成,无需 GPU 集群,每步都有配套文档解释原理。

2026年5月5日 · 阅读约 4 分钟

核心结论

2026 年 5 月 5 日,GitHub 开源项目「Train Your Own LLM from Scratch」登顶 Hacker News 首页。该项目由 Angelos P. 创建,灵感来源于 Andrej Karpathy 的 nanoGPT,但做了大胆精简——目标不是复现 GPT-2(124M 参数),而是构建一个约 10M 参数的迷你 GPT 模型,在普通笔记本电脑上用不到 1 小时即可完成训练。

关键要点

  • 发布时间:2026-05-05(登顶 HN 首页)
  • 核心卖点:无需 GPU 集群,MacBook 即可训练
  • 技术栈:PyTorch + 纯 Python,无黑盒库
  • 目标用户:想理解 LLM 底层原理的开发者/内容创作者
  • 项目体量:新项目,正快速获得社区关注

背景

Hacker News 社区对 LLM 的好奇心一直在增长,但过去学习 Transformer 的路径要么太浅(调 API),要么太深(读论文)。Karpathy 的 nanoGPT 是第一个让「自己动手训练 LLM」变得可操作的资源,但 124M 参数的 GPT-2 复现仍需要 GPU。

这个新项目选择了一条更务实的路径:把模型缩小到 10M 参数,用莎士比亚文本作为训练语料,让一台普通笔记本就能在 60 分钟内跑完完整的训练流程。

项目核心内容

模块你写什么学到什么
Part 1: 分词器字符级 Tokenizer字符编码、词表大小、BPE 在小数据上的局限
Part 2: Transformer完整 GPT 模型架构Embedding、Self-Attention、Layer Norm、MLP
Part 3: 训练循环前向/反向/优化器Loss、Backprop、学习率调度
Part 4: 生成从训练好的模型采样Temperature、Top-K 采样策略

项目采用 step-by-step 文档驱动学习。每个模块都有配套的 docs/ 目录下的 Markdown 说明,带你边写代码边理解原理。

Transformer 模型架构示意图

为什么这很重要

对于 WayToClawEarn 的读者来说,理解 LLM 底层原理的价值体现在三个方面:

1. 内容生产更高效 当你理解 Tokenizer 如何切割文本、Self-Attention 如何理解上下文,你就能设计出更有效的 Prompt 模板,减少不必要的 Token 消耗。OpenAI 和 DeepSeek 的计费是按 Token 的,理解底层能直接省钱。

2. 自动化工作流更可靠 AI Agent(如 Claude Code、Hermes Agent、n8n)的底层都是 LLM。了解训练过程有助于理解为什么 AI Agent 有时会「胡言乱语」(hallucination),以及如何在工作流中设置合理的验证点。

3. 职业护城河 当「人人都会调 AI API」时,真正理解底层原理的开发者会有质的优势。这个项目恰好提供了从「调用者」到「理解者」的桥梁。

快速上手

项目安装极其简单,仅需 Python 3.12+ 和 uv 包管理器:

terminal

# 安装 uv
curl -LsSf https://astral.sh/uv/install.sh | sh

# 克隆并初始化
git clone https://github.com/angelos-p/llm-from-scratch
cd llm-from-scratch
uv sync
mkdir scratchpad && cd scratchpad

# 开始学习

# 按 docs/ 目录顺序阅读,从 Part 1 的 Tokenizer 开始

也可以直接在 Google Colab 上运行,无需本地环境。

工具词条(触发工具悬浮卡)

如果你想在自己的自动化工作流中集成 LLM 能力,n8n 和 LangGraph 提供了低代码方案。Claude Code 和 Hermes Agent 则是更高级的 AI Agent 框架。OpenAI 和 DeepSeek 的 API 是训练后的模型调用入口。

内链引导

免责声明:本站案例均为知识分享内容,仅供灵感与参考,不构成收益承诺;由此进行的外部执行与结果请自行判断并承担相应责任。