MiniMind：用3块钱成本从零训练一个大模型，从GPT原理到RLHF全解析-壹联网络

一、项目简介

MiniMind（github.com/jingyaogong/minimind）是一个极具教育意义的大模型训练开源项目——完全从0开始，仅用约3块钱的GPU成本和2小时训练时间，就能训练出一个约64M参数规模的超小型语言模型。GitHub星标数超过46000颗。

项目最大的特点是「极简主义」：所有核心代码均从零使用PyTorch原生实现，不依赖transformers、trl、peft等高层封装库。旨在让每个普通人都能真正理解大语言模型的内部工作原理，而不是仅仅调用别人封装好的API。

二、特色功能

全链路开源：覆盖预训练、SFT微调、LoRA、DPO/PPO/GRPO强化学习完整流程
MoE专家混合：实现了Mixture of Experts稀疏激活架构
数据清洗：提供完整的数据预处理和清洗流程
多模态扩展：提供视觉多模态版本MiniMind-V
扩散语言模型：实现了MiniMind-dLM扩散语言模型
工具使用：支持Tool Use和Agentic RL功能
极低成本：最小版本约GPT-3的1/2700，单卡3090即可训练
中文优化：主要针对中文语料进行了优化

三、项目结构

minimind/
├── models/              # 模型结构定义
│   ├── transformer.py  # Transformer核心实现
│   ├── moe.py          # MoE专家混合
│   └── mm.py           # 多模态模型
├── data/               # 数据处理
│   ├── preprocess.py   # 数据清洗
│   └── dataset.py      # 数据集加载
├── train/              # 训练脚本
│   ├── pretrain.py     # 预训练
│   ├── sft.py          # 监督微调
│   └── rl/             # 强化学习训练
│       ├── ppo.py
│       ├── dpo.py
│       └── grpo.py
├── inference/           # 推理脚本
└── README.md

四、安装步骤

环境要求

Python 3.8+
PyTorch 2.0+
NVIDIA GPU（建议8GB+显存，3090单卡即可）
CUDA 11.8 或更高版本

克隆项目

git clone https://github.com/jingyaogong/minimind.git
cd minimind
pip install torch numpy tqdm peft  # 最小依赖

下载预训练数据

项目提供清洗好的中文预训练数据集，可以从Hugging Face下载：

pip install huggingface_hub
huggingface-cli download --repo-type dataset gongjy/MiniMind-data

五、训练自己的MiniMind

第一步：预训练

python train/pretrain.py \
    --model_size 64M \
    --context_length 512 \
    --batch_size 32 \
    --epochs 10 \
    --data_path ./data/pretrain.jsonl

第二步：监督微调（SFT）

python train/sft.py \
    --pretrained_path ./checkpoints/pretrain.pt \
    --data_path ./data/sft.jsonl \
    --epochs 3

第三步：强化学习（可选）

# DPO训练
python train/rl/dpo.py \
    --sft_model ./checkpoints/sft.pt \
    --data_path ./data/preference.jsonl

# GRPO训练
python train/rl/grpo.py \
    --sft_model ./checkpoints/sft.pt

推理使用

from models.transformer import Transformer
from inference.chat import generate

model = Transformer.load_pretrained("./checkpoints/sft.pt")
response = generate(model, "你好，请介绍一下自己")
print(response)