ostris/ai-toolkit:开源AI扩散模型训练套件,一站式微调FLUX、SDXL、Lumina等主流模型

今天给大家推荐一个在AI圈非常火爆的训练工具——ostris/ai-toolkit。这是一个开源的扩散模型(Diffusion Model)训练套件,专门用于在消费级显卡上微调和训练各类主流AI图像/视频生成模型。

GitHub: https://github.com/ostris/ai-toolkit

支持哪些模型

ai-toolkit支持非常多的主流模型,包括:

图像生成模型:FLUX.1-dev、FLUX.2、FLUX.1-Kontext、SDXL、Stable Diffusion 1.5、Qwen-Image、HiDream-I1、OmniGen2、Lumina2等数十种。

视频生成模型:Wan 2.1全系列(文生视频、图生视频)、LTX-Video等。

音频模型:Ace-Step系列音频生成模型。

基本上涵盖了目前市面上最主流的扩散模型生态。

核心特色

ai-toolkit最大的亮点是支持消费级硬件训练。很多开源训练工具要求专业级GPU,而ai-toolkit在设计上就考虑了普通用户的需求,能在显存不太大的显卡上运行。

它同时支持GUI图形界面CLI命令行两种使用方式。对于不熟悉代码的用户,可以直接用图形界面配置训练参数;对于高级用户,则可以写配置文件批量自动化训练。

内置了LoRA、LoCon、QLoRA等多种微调算法,可以根据需求和硬件条件选择最合适的方式。

安装步骤

# 克隆仓库
git clone https://github.com/ostris/ai-toolkit
cd ai-toolkit

# 创建虚拟环境
python -m venv venv
source venv/bin/activate  # Windows用 venv\Scripts\activate

# 安装依赖
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt

# 启动GUI
python run_gui.py

使用方法

1. 准备数据集:将训练图片放在一个文件夹,建议10-100张高质量图片,命名规范
2. 创建配置文件:复制config文件,填写模型名称、数据路径、训练参数
3. 启动训练:运行训练命令,等待模型收敛
4. 导出模型:训练完成后导出为可用的模型文件,配合ComfyUI或diffusers使用

适用场景

适合AI爱好者、设计师、艺术家训练自己的风格化模型。比如训练一个特定艺术风格的LoRA、定制化的角色模型,或者针对特定物体的高质量生成器。对于需要垂直领域定制模型的企业也有很高价值。

开源协议

采用MIT开源协议,可以自由使用、修改和商业化。


服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。

© 版权声明
THE END
喜欢就支持一下吧
点赞12 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容