火爆全球的 StableDiffusion,预训练和微调成本,正式被打下来了!

现在,预训练的速度被提升到 6.5倍,成本直降85%;

微调只需RTX2070/3050 即可搞定,硬件成本直降近九成。


【资料图】

这就是国产项目 Colossal-AI最新开源的加速方案。

今年,StableDiffusion可谓火爆圈内圈外,而且最近凭借免费开源还效果好的特点,进一步出圈,让人看到了AIGC的巨大潜力和前景。

艺术圈和AI圈大神都争相拿它创作,GitHubstar数已达33.5k,背后公司估值甚至飙升至 10亿美金。

StableDiffusion由此也成为扩散模型中最火出圈的项目。

BUT,它唯一的缺点是,训练成本真的很高!

仅StableDiffusionv1版本的模型单次训练便需要 150000个 A100GPUHour;

微调至少需要RTX3090/4090这类高端消费级显卡。

其背后公司StabilityAI为了维护运营和算力需求,拥有一个由4000块A100组成的GPU集群,光成本就超过 5000万美元(折合人民币约3.6亿)。

实际上,由于扩散模型本身原理机制特殊,导致它本身对硬件显存、计算速度的要求都很高,而且使用的数据库也是千亿量级的。

所以想要提升训练速度、降低成本,还真不是件容易事。

那么,Colossal-AI到底是如何实现的?从显存入手

首先来解释,为什么扩散模型对硬件的要求高。

扩散模型主要包括两个过程:前向扩散和反向生成。

前向扩散是对一张图像逐渐添加高斯噪声,直至变成随机噪声。

反向生成是去噪声过程,将一个随机噪声使用多个U-Net进行逐渐去噪,直至生成一张图像,这也是扩散模型的训练过程。

相比于传统端到端深度学习模型,扩散模型的训练过程显然更为复杂。

推荐内容