Karpathy 开源的 autoresearch：用 AI Agent 自动做 LLM 训练研究，睡一觉收获 100 个实验结果-壹联网络

今天的开源项目有些特别——来自 AI 领域传奇人物 Andrej Karpathy。autoresearch 是一个让 AI Agent 自动运行 LLM 训练实验的项目。它的理念是：给 AI 一个小型但真实的 LLM 训练环境，让它通宵自主实验，早上你醒来时，实验日志和（ hopefully）一个更好的模型就在那里等着你。

项目地址：https://github.com/karpathy/autoresearch

项目背景

Karpathy 在 2026 年 3 月的播客中提到，他自 2025 年 12 月以来几乎没写过代码。这句话震惊了整个 AI 社区。autoresearch 就是他分享的「秘密」——用 AI Agent 来自动做 AI 研究。你不需要手动调参、优化训练代码；你只需要写 Markdown 指令文档（program.md），让 Agent 按照指令去修改训练代码、运行实验、评估结果、决定下一步。

工作原理

这个仓库设计得非常克制，只有三个核心文件：

prepare.py——固定的常量、一次性数据准备（下载训练数据、训练 BPE 分词器）和运行时工具（数据加载器、评估）。这个文件不需要修改。

train.py——Agent 编辑的单个文件。包含完整的 GPT 模型、Muon + AdamW 优化器和训练循环。架构、超参数、优化器、批量大小等一切都可以改动。这个文件是 Agent 迭代修改的对象。

program.md——Agent 的基线指令。这是 Agent 的「技能文件」，也是人类迭代修改的对象。

设计亮点

固定时间预算：训练总是精确运行 5 分钟（不含启动/编译时间），无论你的硬件配置如何。这意味着每小时约 12 个实验，睡一觉就能积累近百个实验结果。这个设计的好处是：不同实验可以直接比较（因为时间相同）；autoresearch 能在固定时间预算内找到你这个平台上最优的模型配置。

单一修改文件：Agent 只修改 train.py，保持范围可控，diff 也便于人类审查。

Val PB 指标：验证集每字节比特数（越低越好），与词汇量大小无关，便于公平比较架构变更。

安装和使用

第一步，安装 uv 项目管理器（如果没有）：

curl -LsSf https://astral.sh/uv/install.sh | sh