作者:正气凛然郭大侠
0. 论文来源
论文题目:Personalizing Text-to-Image Generation via Aesthetic Gradients
论文链接:https://arxiv.org/abs/2209.12330
Github代码:
https://github.com/vicgalle/stable-diffusion-aesthetic-gradientsgithub.com/vicgalle/stable-diffusion-aesthetic-gradient
1. 简述
这篇文章是对Stable Diffusion模型进行微调的一种方案,实现图片生成风格的自定义,创建独特的美学风格。
本方案核心idea理解起来比较简单,即 通过微调文本编码器(clip text encoder)将文本编码输出表示由原特征空间A投影到另外的"美学"特征空间B,进而在diffusion去噪过程中,逐步生成具备该"美学"风格的图片内容 。
原特征空间A投影到另外的""美学""特征空间B
由于这种特征空间的转换是在微调时通过控制clip text encoder训练时的"梯度"朝着“美学”风格方向收敛,所以该方案命名为"Aesthetic Gradients, 美学梯度 "模型定制化方案。
下面是文中的两种微调后的美学风格生成的效果,两种美学风格分别是基于SAC8+和LAION7+数据训练的,效果如下图所示:
Figure 1: Stable diffusion generations for the original model and personalized variants using SAC8+ and LAION7+ aesthetic embeddings.
在保持主要内容和整体构图的情况下,画面的风格确实发生了明显的变化。
2. 具体方案
Stable Diffusion的模型结构
以上就是本文方案的主要思路了。
3. 实验结果
Figure 3: Further qualitative results using different aesthetic embeddings.(节选)
4. 写在最后
该方案主要是进行风格训练,且需要具备相同美学特征的图构建为美学数据集,所以这个数据集中包含的图片内容需要较为全面,这样得到的e特征向量才是位于比较有明显特定美学风格特征的特征空间中心位置。该类风格效果其实比较明显,并且前后的构图基本相似,代码开源了对其细节感兴趣的就去拆代码吧。 |