前言

上一节课程中介绍LoRA模型和应用。

本节我们讨论模型训练的素材图片要求。

要训练一个LoRA模型，需要准备各方面的素材，针对这些素材的要求，品质，工艺流程指导等。我们都做了一个详尽的介绍。

在训练的过程中，一些方法论我们也展开介绍。在判断一个模型是否品质上层，有一个可以量化的客观评价标准，但更多的是主观评价的角度，每个人有不同的欣赏风格。

本文知识点

LoRA模型训练素材
LoRA训练时候的一些标准和讲究

基础知识

训练 LoRA 模型时可能要注意的事项：

数据准备：
- 确保训练数据集包含足够的样本，涵盖了各种风格和场景。此外，对于局部风格调整的任务，可能需要额外的标注来指示每个局部区域的风格特征。
损失函数设计：
- 设计合适的损失函数来引导模型学习局部风格调整任务。这可能涉及到对全局风格损失和局部风格损失的权衡，以及可能的辅助损失，如感知损失或内容损失。
网络架构选择：
- 选择适合局部风格调整任务的网络架构。这可能包括基于卷积神经网络的架构，例如 U-Net 或者带有注意力机制的网络结构，以便模型能够更好地关注局部细节。
数据增强：
- 对训练数据进行适当的数据增强，以增加模型的泛化能力。这可能包括随机裁剪、旋转、翻转等操作，以及添加噪声或变换颜色等方法。
超参数调优：
- 对模型的超参数进行调优，以最大化模型的性能和收敛速度。这可能包括学习率、批量大小、迭代次数等超参数的选择。
模型评估：
- 在训练过程中定期评估模型的性能，并根据评估结果调整训练策略。这可能包括使用验证集进行模型验证，监控损失函数的变化，以及检查生成图像的质量和准确度。
过拟合和泛化：
- 防止模型过拟合训练数据，以及促进模型的泛化能力。这可能需要采用正则化技术，如 Dropout、权重衰减等，以及采用早停策略来避免过拟合。
硬件资源：
- 确保有足够的硬件资源支持模型的训练过程。对于大型数据集和复杂模型，可能需要使用高性能的 GPU 或者分布式训练技术来加速训练过程。

实战要求

1、确定LoRA模型的训练类型和目标

在训练LoRA模型之前，我们需要首先明确自己需要训练什么类型的LoRA。

有些博主将模型分成了几个大类:人物角色、画风/风格、概念、服饰、物体/特定元素等，通过确定类型，去搜集相关的图片素材。

比如，你要训练真人LoRA模型，那么你就要保证你的数据集中是真人素材图，如果是要训练二次元，那么就要保证数据集是二次元素材图。

如果再细分一下，你训练某个真实人物的Lora模型，那么就要保证数据集中所有图片都是这个统一脸型的人物素材图（比如我们前面课程的宋慧乔的Lora模型）。

最终我们划分为两类:

具象类，比如一个物体，一种姿势、一种服装、一个人物、某个特定元素等都可以划归为具象类。
泛化类，泛化类如:某种场景、某种艺术风格、色彩风格等。

任何一个LoRA都会有三重属性，易调用性、泛化性和还原性，任何一个LoRA只能完美满足其中的两项；

易调用性：在已调用LoRA后，还需要多少提示词才能让该LoRA完全生效；
泛化性：能不能还原LoRA训练素材中的局部特征，能不能和其他LoRA、模型、标签兼容生效；
还原性：在LoRA完全生效之后生成图片和训练素材之间的相似度。

我们最终的目标是要实现训练出的LoRA模型具有很高的调用性和泛化性。

调用性是指，当我们给出LoRA模型的调用指令时，它能够积极的响应并反馈回带有明显LoRA模型特征的图片。

泛化性是指，当我们给出不同的提示词进行构图创作时，它能够灵活的并更加贴切的展示我们所需要的提示词内容，而不是只会局限性的反馈回某个或某几个构图场景或元素。

对于泛化性，我们可以通过下面两个概念更好的去理解：过拟合和欠拟合。

# 过拟合

过拟合，通俗的讲，就是太像而又太局限性了。

过于追求完美的还原度而造成的一种训练结果。它可能很好的做到了对原物一定程度的还原，但是又失去了灵活性。

比如，当你需要将一个人的黑头发通过提示词的更改变成红头发，但是它依然只会给出你一张黑头发的人物图片，不会懂得变通，这就属于一种过拟合的现象。

#欠拟合

欠拟合，通俗的讲，就是太灵活，发挥太自由了。

举个最简单的例子，就是当你训练出一个苹果的欠拟合Lora模型后，通过提示词的调用，它可能会给出一张橘子或者梨的图片，虽然长得像苹果的形状，但是它不是苹果。这就属于一种欠拟合的现象。

因此，我们需要一些手段，去寻求一个比较均衡的点，去控制避免这种现象，来达到一种比较好的泛化性效果。

既可以尽量提高还原度，还能够灵活的展现不同效果的图片。

2、LoRA模型训练所需的数据集

数据集包括训练所使用的图片素材和对应的Tag标签提示词文本（txt格式）。

2.1图片素材格式

图片素材是jpg或png格式，不必全是正方形图片，可以是任意符合训练需求的尺寸。

不要相信网上说的LoRA模型训练需要保证素材图是正方形（其实是Embedding嵌入式模型和Hypernetwork超网络模型训练需要保证宽高1:1的尺寸比例数据集）。

老师做过很多LoRA模型训练，没有必须统一为正方形，反而提高了最终成品模型的泛化性（当然，泛化性是否优良还依赖图片素材、标签词、学习率等参数设置，后续会讲到），对各种尺寸和构图场景的出图效果起到了积极的作用。

2.2图片素材质量

尽可能使用无水印无文字的高清大图（起码要200Kb以上），图片最短宽度或高度尽可能不低于512px像素，一般建议素材图尺寸控制在512px-1024px。

这个和你的设备性能也有关系，如果你的设备性能一般，那就可以选择最低512px，如果你的设备性能好一些，那可以选择768px或者更大的尺寸数值。

这样，模型才能更好地学习图片中的内容素材。特别是做定制人物LoRA模型训练的时候，宁缺毋滥，我们宁愿让模型多学习几个轮次的好图，也不要为了累积数据集的素材数量，让它去学习一轮的坏图。

总之切记：图片质量优先级高于图片数量！

2.3 图片素材要保证主体无遮挡，内容特征齐全，色调风格适配

2.3.1关于人物LoRA模型训练：

模型机器只会学习它所看到的内容，比如要训练的人物戴着一副墨镜（或者头发遮住了眼睛），在你不告知它是一副墨镜的情况下（涉及Tag标签处理，后续内容会讲到），模型就会认为这幅墨镜也是这个人脸的一个器官，从而直接学习到最终的模型中去。

那么最终的模型出图有可能只会出带着墨镜的人物图像，失去了泛化性。

因此，在选择图片时，要尽量选择主体特征无遮挡和内容特征齐全的素材图。

如果确实找不到相符的素材图而又想增加数据集的素材量，那么可以将此类遮挡特征书写到Tag标签文本中作为强调说明，让模型学习过程中知道它是遮挡主体的某些特征，这样就可以减少或者避免模型的错误学习，从而突出主体特征。

2.3.2关于画风Lora模型训练：

风格、色调尽量统一

要尽可能保证素材图的风格一致性。

比如想要训练素描风格类型的LoRA模型，那就搜集和素描相关的素材图和提示词，整理到训练数据集中，如果想要训练某个风格类型的LoRA模型，那就搜集这个作品集和提示词进行整理。

如果想要训练某些色彩色调、风景元素类型的LoRA模型，那就搜集色调风格尽量统一适配的素材图和提示词进行整理。

总结

具象类LoRA:
数量:在具象训练中并不是素材越多越好，一般建议20张左右即可素材要求:不同角度，不同背景，不同姿势，不同服饰，清晰无遮挡的图片
如果同质化的素材太多，容易造成权重的偏移，

泛化类LoRA:
数量:在泛化类训练中需要素材多一些，建议50张以上
这种情况不需要特别在意同质化，但也切勿非常接近的素材占比过高。

素材收集通用要求:
1)、尽量找清晰无遮挡的图片作为训练素材，人像注意面部清晰，避免任何遮挡(如头发，手等)
2)、尽量找画质清晰，图像质量好的图片，分辨率不要太低
3)、注意版权，不要使用有版权的图片，慎用肖像

Paragoger衍生者AI训练营。发布者：稻草人，转载请注明出处：https://www.shxcj.com/archives/6482

7-3 LoRA模型训练的素材要求之秘籍1

前言

本文知识点

基础知识

实战要求

1、确定LoRA模型的训练类型和目标