前言
上一节课程中介绍LoRA模型和应用。
本节我们讨论模型训练的素材图片要求。
要训练一个LoRA模型,需要准备各方面的素材,针对这些素材的要求,品质,工艺流程指导等。我们都做了一个详尽的介绍。
在训练的过程中,一些方法论我们也展开介绍。在判断一个模型是否品质上层,有一个可以量化的客观评价标准,但更多的是主观评价的角度,每个人有不同的欣赏风格。
本文知识点
- LoRA模型训练素材
- LoRA训练时候的一些标准和讲究
基础知识
训练 LoRA 模型时可能要注意的事项:
- 数据准备:
- 确保训练数据集包含足够的样本,涵盖了各种风格和场景。此外,对于局部风格调整的任务,可能需要额外的标注来指示每个局部区域的风格特征。
- 损失函数设计:
- 设计合适的损失函数来引导模型学习局部风格调整任务。这可能涉及到对全局风格损失和局部风格损失的权衡,以及可能的辅助损失,如感知损失或内容损失。
- 网络架构选择:
- 选择适合局部风格调整任务的网络架构。这可能包括基于卷积神经网络的架构,例如 U-Net 或者带有注意力机制的网络结构,以便模型能够更好地关注局部细节。
- 数据增强:
- 对训练数据进行适当的数据增强,以增加模型的泛化能力。这可能包括随机裁剪、旋转、翻转等操作,以及添加噪声或变换颜色等方法。
- 超参数调优:
- 对模型的超参数进行调优,以最大化模型的性能和收敛速度。这可能包括学习率、批量大小、迭代次数等超参数的选择。
- 模型评估:
- 在训练过程中定期评估模型的性能,并根据评估结果调整训练策略。这可能包括使用验证集进行模型验证,监控损失函数的变化,以及检查生成图像的质量和准确度。
- 过拟合和泛化:
- 防止模型过拟合训练数据,以及促进模型的泛化能力。这可能需要采用正则化技术,如 Dropout、权重衰减等,以及采用早停策略来避免过拟合。
- 硬件资源:
- 确保有足够的硬件资源支持模型的训练过程。对于大型数据集和复杂模型,可能需要使用高性能的 GPU 或者分布式训练技术来加速训练过程。
实战要求
1、确定LoRA模型的训练类型和目标
在训练LoRA模型之前,我们需要首先明确自己需要训练什么类型的LoRA。
有些博主将模型分成了几个大类:人物角色、画风/风格、概念、服饰、物体/特定元素等,通过确定类型,去搜集相关的图片素材。
比如,你要训练真人LoRA模型,那么你就要保证你的数据集中是真人素材图,如果是要训练二次元,那么就要保证数据集是二次元素材图。
如果再细分一下,你训练某个真实人物的Lora模型,那么就要保证数据集中所有图片都是这个统一脸型的人物素材图(比如我们前面课程的宋慧乔的Lora模型)。
最终我们划分为两类:
- 具象类,比如一个物体,一种姿势、一种服装、一个人物、某个特定元素等都可以划归为具象类。
- 泛化类,泛化类如:某种场景、某种艺术风格、色彩风格等。
任何一个LoRA都会有三重属性,易调用性、泛化性和还原性,任何一个LoRA只能完美满足其中的两项;
- 易调用性:在已调用LoRA后,还需要多少提示词才能让该LoRA完全生效;
- 泛化性:能不能还原LoRA训练素材中的局部特征,能不能和其他LoRA、模型、标签兼容生效;
- 还原性:在LoRA完全生效之后生成图片和训练素材之间的相似度。
我们最终的目标是要实现训练出的LoRA模型具有很高的调用性和泛化性。
调用性是指,当我们给出LoRA模型的调用指令时,它能够积极的响应并反馈回带有明显LoRA模型特征的图片。
泛化性是指,当我们给出不同的提示词进行构图创作时,它能够灵活的并更加贴切的展示我们所需要的提示词内容,而不是只会局限性的反馈回某个或某几个构图场景或元素。
对于泛化性,我们可以通过下面两个概念更好的去理解:过拟合和欠拟合。
# 过拟合
过拟合,通俗的讲,就是太像而又太局限性了。
过于追求完美的还原度而造成的一种训练结果。它可能很好的做到了对原物一定程度的还原,但是又失去了灵活性。
比如,当你需要将一个人的黑头发通过提示词的更改变成红头发,但是它依然只会给出你一张黑头发的人物图片,不会懂得变通,这就属于一种过拟合的现象。
#欠拟合
欠拟合,通俗的讲,就是太灵活,发挥太自由了。
举个最简单的例子,就是当你训练出一个苹果的欠拟合Lora模型后,通过提示词的调用,它可能会给出一张橘子或者梨的图片,虽然长得像苹果的形状,但是它不是苹果。这就属于一种欠拟合的现象。
因此,我们需要一些手段,去寻求一个比较均衡的点,去控制避免这种现象,来达到一种比较好的泛化性效果。
既可以尽量提高还原度,还能够灵活的展现不同效果的图片。
2、LoRA模型训练所需的数据集
数据集包括训练所使用的图片素材和对应的Tag标签提示词文本(txt格式)。
2.1图片素材格式
图片素材是jpg或png格式,不必全是正方形图片,可以是任意符合训练需求的尺寸。
不要相信网上说的LoRA模型训练需要保证素材图是正方形(其实是Embedding嵌入式模型和Hypernetwork超网络模型训练需要保证宽高1:1的尺寸比例数据集)。
老师做过很多LoRA模型训练,没有必须统一为正方形,反而提高了最终成品模型的泛化性(当然,泛化性是否优良还依赖图片素材、标签词、学习率等参数设置,后续会讲到),对各种尺寸和构图场景的出图效果起到了积极的作用。
2.2图片素材质量
尽可能使用无水印无文字的高清大图(起码要200Kb以上),图片最短宽度或高度尽可能不低于512px像素,一般建议素材图尺寸控制在512px-1024px。
这个和你的设备性能也有关系,如果你的设备性能一般,那就可以选择最低512px,如果你的设备性能好一些,那可以选择768px或者更大的尺寸数值。
这样,模型才能更好地学习图片中的内容素材。特别是做定制人物LoRA模型训练的时候,宁缺毋滥,我们宁愿让模型多学习几个轮次的好图,也不要为了累积数据集的素材数量,让它去学习一轮的坏图。
总之切记:图片质量优先级高于图片数量!
2.3 图片素材要保证主体无遮挡,内容特征齐全,色调风格适配
2.3.1关于人物LoRA模型训练:
模型机器只会学习它所看到的内容,比如要训练的人物戴着一副墨镜(或者头发遮住了眼睛),在你不告知它是一副墨镜的情况下(涉及Tag标签处理,后续内容会讲到),模型就会认为这幅墨镜也是这个人脸的一个器官,从而直接学习到最终的模型中去。
那么最终的模型出图有可能只会出带着墨镜的人物图像,失去了泛化性。
因此,在选择图片时,要尽量选择主体特征无遮挡和内容特征齐全的素材图。
如果确实找不到相符的素材图而又想增加数据集的素材量,那么可以将此类遮挡特征书写到Tag标签文本中作为强调说明,让模型学习过程中知道它是遮挡主体的某些特征,这样就可以减少或者避免模型的错误学习,从而突出主体特征。
2.3.2关于画风Lora模型训练:
风格、 色调尽量统一
要尽可能保证素材图的风格一致性。
比如想要训练素描风格类型的LoRA模型,那就搜集和素描相关的素材图和提示词,整理到训练数据集中,如果想要训练某个风格类型的LoRA模型,那就搜集这个作品集和提示词进行整理。
如果想要训练某些色彩色调、风景元素类型的LoRA模型,那就搜集色调风格尽量统一适配的素材图和提示词进行整理。
总结
具象类LoRA:
数量:在具象训练中并不是素材越多越好,一般建议20张左右即可素材要求:不同角度,不同背景,不同姿势,不同服饰,清晰无遮挡的图片
如果同质化的素材太多,容易造成权重的偏移,
泛化类LoRA:
数量:在泛化类训练中需要素材多一些,建议50张以上
这种情况不需要特别在意同质化,但也切勿非常接近的素材占比过高。
素材收集通用要求:
1)、尽量找清晰无遮挡的图片作为训练素材,人像注意面部清晰,避免任何遮挡(如头发,手等)
2)、尽量找画质清晰,图像质量好的图片,分辨率不要太低
3)、注意版权,不要使用有版权的图片,慎用肖像
RA/SD 衍生者AI训练营。发布者:稻草人,转载请注明出处:https://www.shxcj.com/archives/6482