Andrej Karpathy的AI科研自动化实验：让AI在单GPU上自主训练模型-壹联网络

## Andrej Karpathy的AI科研自动化实验：让AI在单GPU上自主训练模型

AI大牛Andrej Karpathy又出手了，这次他把AI科研的过程本身也自动化了——**autoresearch**，一个让AI agent在单GPU上自主训练语言模型的框架。你给它一个基线训练代码和一套研究指令，睡一觉醒来，AI已经做了成百上千次实验，并给你汇报哪个改动让模型效果变好了。

### 这个项目是什么？

autoresearch的核心思路非常优雅：不要人类去修改Python训练代码，而是让AI agent去编辑Markdown格式的”研究指令”（program.md）。人类只需要定义研究目标和约束，具体的实验设计、代码修改、结果分析，全部交给AI完成。

项目的设计哲学是：5分钟固定时间预算，不管你的GPU多强或者多弱，每次实验都跑5分钟，然后用验证集上的”bits per byte”（BPB）指标来衡量效果——这个指标与词汇表大小无关，便于公平比较不同架构的改进。

### 核心设计：三个关键文件

整个仓库其实只有三个真正重要的文件：

– **`prepare.py`**：固定的一次性准备工作——下载训练数据、训练BPE分词器。这个文件AI不修改。
– **`train.py`**：这是AI唯一会去编辑的文件。包含完整的GPT模型、Muon+AdamW优化器和训练循环。模型架构、超参数、批量大小……全都可以改。
– **`program.md`**：这是人类编辑的文件。包含给AI agent的研究指令。不同的program.md会产生完全不同风格的”研究团队”。

也就是说：人类编程的是”研究文化”，AI编程的是”模型代码”。

### 安装方法

**前提条件：** 一块NVIDIA GPU（项目在H100上测试）

“`bash
git clone https://github.com/karpathy/autoresearch.git
cd autoresearch
“`

### 快速开始

“`bash
# 先做数据准备（一次性）
python prepare.py

# 开始自主研究
python train.py
“`

训练会自动运行，每次5分钟实验后会输出val_bpb结果，并自动决定是保留还是丢弃这次改动。所有实验记录都会保存到日志里。

### 高级玩法：自定义研究团队

项目支持多个AI agent协同研究，编辑`program.md`文件即可定制agent的”性格”和”职责”。例如可以设置：

– 一个agent负责架构探索
– 一个agent负责优化器实验
– 一个agent负责数据增强

多个agent并行探索，最后汇总最优方案。