Karpathy 开源的 autoresearch:用 AI Agent 自动做 LLM 训练研究,睡一觉收获 100 个实验结果

今天的开源项目有些特别——来自 AI 领域传奇人物 Andrej Karpathy。autoresearch 是一个让 AI Agent 自动运行 LLM 训练实验的项目。它的理念是:给 AI 一个小型但真实的 LLM 训练环境,让它通宵自主实验,早上你醒来时,实验日志和( hopefully)一个更好的模型就在那里等着你。

项目地址:https://github.com/karpathy/autoresearch

项目背景

Karpathy 在 2026 年 3 月的播客中提到,他自 2025 年 12 月以来几乎没写过代码。这句话震惊了整个 AI 社区。autoresearch 就是他分享的「秘密」——用 AI Agent 来自动做 AI 研究。你不需要手动调参、优化训练代码;你只需要写 Markdown 指令文档(program.md),让 Agent 按照指令去修改训练代码、运行实验、评估结果、决定下一步。

工作原理

这个仓库设计得非常克制,只有三个核心文件:

prepare.py——固定的常量、一次性数据准备(下载训练数据、训练 BPE 分词器)和运行时工具(数据加载器、评估)。这个文件不需要修改。

train.py——Agent 编辑的单个文件。包含完整的 GPT 模型、Muon + AdamW 优化器和训练循环。架构、超参数、优化器、批量大小等一切都可以改动。这个文件是 Agent 迭代修改的对象。

program.md——Agent 的基线指令。这是 Agent 的「技能文件」,也是人类迭代修改的对象。

设计亮点

固定时间预算:训练总是精确运行 5 分钟(不含启动/编译时间),无论你的硬件配置如何。这意味着每小时约 12 个实验,睡一觉就能积累近百个实验结果。这个设计的好处是:不同实验可以直接比较(因为时间相同);autoresearch 能在固定时间预算内找到你这个平台上最优的模型配置。

单一修改文件:Agent 只修改 train.py,保持范围可控,diff 也便于人类审查。

Val PB 指标:验证集每字节比特数(越低越好),与词汇量大小无关,便于公平比较架构变更。

安装和使用

第一步,安装 uv 项目管理器(如果没有):

curl -LsSf https://astral.sh/uv/install.sh | sh

第二步,安装依赖:

uv sync

第三步,一次性数据准备(约 2 分钟):

uv run prepare.py

第四步,手动运行一次训练实验(约 5 分钟):

uv run train.py

如果以上都正常运行,你就可以进入自主研究模式了——在仓库中启动 Claude/Codex(禁用所有权限),然后发送:

「Hi have a look at program.md and let’s kick off a new experiment!」

运行自主研究 Agent

program.md 文件本质上是一个超轻量级的「技能文件」。你只需要在 program.md 中描述你的研究目标,然后让 Agent 按照指令执行即可。Agent 会自动修改 train.py、运行训练、评估结果、决定下一步尝试什么。

支持的平台

当前代码需要单块 NVIDIA GPU(已在 H100 上测试)。社区也出现了一些第三方 fork:

miolini/autoresearch-macos(macOS)
trevin-creator/autoresearch-mlx(macOS MLX)
jsegov/autoresearch-win-rtx(Windows)
andyluo7/autoresearch(AMD)

开源协议:MIT 协议。


服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。

© 版权声明
THE END
喜欢就支持一下吧
点赞5 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容