今天给大家推荐一个在AI圈非常火爆的训练工具——ostris/ai-toolkit。这是一个开源的扩散模型(Diffusion Model)训练套件,专门用于在消费级显卡上微调和训练各类主流AI图像/视频生成模型。
GitHub: https://github.com/ostris/ai-toolkit
支持哪些模型
ai-toolkit支持非常多的主流模型,包括:
图像生成模型:FLUX.1-dev、FLUX.2、FLUX.1-Kontext、SDXL、Stable Diffusion 1.5、Qwen-Image、HiDream-I1、OmniGen2、Lumina2等数十种。
视频生成模型:Wan 2.1全系列(文生视频、图生视频)、LTX-Video等。
音频模型:Ace-Step系列音频生成模型。
基本上涵盖了目前市面上最主流的扩散模型生态。
核心特色
ai-toolkit最大的亮点是支持消费级硬件训练。很多开源训练工具要求专业级GPU,而ai-toolkit在设计上就考虑了普通用户的需求,能在显存不太大的显卡上运行。
它同时支持GUI图形界面和CLI命令行两种使用方式。对于不熟悉代码的用户,可以直接用图形界面配置训练参数;对于高级用户,则可以写配置文件批量自动化训练。
内置了LoRA、LoCon、QLoRA等多种微调算法,可以根据需求和硬件条件选择最合适的方式。
安装步骤
# 克隆仓库
git clone https://github.com/ostris/ai-toolkit
cd ai-toolkit
# 创建虚拟环境
python -m venv venv
source venv/bin/activate # Windows用 venv\Scripts\activate
# 安装依赖
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
# 启动GUI
python run_gui.py
使用方法
1. 准备数据集:将训练图片放在一个文件夹,建议10-100张高质量图片,命名规范
2. 创建配置文件:复制config文件,填写模型名称、数据路径、训练参数
3. 启动训练:运行训练命令,等待模型收敛
4. 导出模型:训练完成后导出为可用的模型文件,配合ComfyUI或diffusers使用
适用场景
适合AI爱好者、设计师、艺术家训练自己的风格化模型。比如训练一个特定艺术风格的LoRA、定制化的角色模型,或者针对特定物体的高质量生成器。对于需要垂直领域定制模型的企业也有很高价值。
开源协议
采用MIT开源协议,可以自由使用、修改和商业化。
服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。









暂无评论内容