安装在服务器机架中的NVIDIA显卡,可见散热风扇和LED灯光

如何以不到10美元训练Stable Diffusion LoRA模型

使用租用GPU训练Stable Diffusion自定义LoRA模型的分步指南。完整教程涵盖GPU选择、数据集准备、训练配置和成本优化。

如何以不到10美元训练Stable Diffusion LoRA模型

为Stable Diffusion训练自定义LoRA模型已成为创建个性化AI生成图像最便捷的方式之一。无论您想要复现特定的艺术风格、生成一致的角色面部,还是在产品摄影上微调模型,LoRA训练都能让您实现这些目标,而无需承担完整模型微调的计算成本。

普遍的假设是,这个过程要么需要昂贵的本地硬件,要么需要大量的云计算预算。两者都不正确。凭借当前的GPU租赁价格和高效的训练配置,您可以以不到十美元的价格训练出生产级质量的LoRA模型——通常远低于此。

本指南将带您完��整个过程:选择合适的硬件、准备训练数据集、配置训练参数、执行训练运行以及验证结果。我会在每个阶段具体说明成本,因为对于规划实际项目预算的人来说,“实惠的AI训练”这种模糊的承诺毫无帮助。

开始之前您需要准备:

  • 二十到一百张训练图像(下文详述选择标准)
  • 基本熟悉命令行界面
  • 用于支付GPU租赁费用的加密货币钱包或信用卡
  • 大约两到四小时的专注时间
  • 首次训练运行的预算为五到十五美元

现代数据中心内部,排列着用于机器学习工作负载的高性能GPU服务器


目录


理解LoRA及其重要性

LoRA是Low-Rank Adaptation(低秩适应)的缩写,是一种通过训练少量额外参数而非修改整个模型来微调大型神经网络的技术。原始的Stable Diffusion模型包含近十亿个参数。完整微调需要修改所有这些参数,这对GPU内存和训练时间的要求都很高。

LoRA通过冻结原始模型权重并训练修改模型信息处理方式的小型适配器矩阵来规避这个问题。典型的LoRA文件大小在十到两百兆字节之间,而完整的Stable Diffusion检查点大小为两到六吉字节。

其实际意义重大:

内存效率。 LoRA训练所需的GPU显存远少于完整微调。24GB的GPU可以轻松训练SDXL模型的LoRA,而完整微调则需要40GB或更多。

训练速度。 由于训练的参数更少,每个训练轮次完成得更快。完整微调可能需要十二小时的工作,使用LoRA通常可以在九十分钟内完成。

可组合性。 多个LoRA可以在推理时组合使用。您可以使用一个LoRA用于艺术风格,另一个用于角色一致性,以不同的强度混合它们,无需重新训练。

存储和分发。 小文件大小使LoRA便于分享和维护。您可以合理地保留数十个专业化的LoRA而不必担心存储问题。

这些效率带来的成本降低,使得十美元以下的训练成为可能。您租用昂贵硬件的时间是一到三小时,而不是八到二十四小时。


选择合适的训练GPU

GPU选择涉及平衡三个因素:显存容量、训练速度和租赁成本。最低可行选项和最优选择有显著差异。

显存要求

对于Stable Diffusion 1.5的LoRA训练,12GB显存是实际最低要求。通过减小批处理大小和分辨率,8GB也可以勉强工作,但训练质量往往会受到影响。

对于SDXL的LoRA训练,16GB是最低要求,强烈推荐24GB。SDXL模型更大、要求更高。在显存不足的情况下尝试SDXL训练会导致持续的内存交换,大大减慢过程并经常导致训练失败。

速度与成本的权衡

更贵的GPU训练更快,但每小时成本的增加并不总是能按比例减少项目总成本。考虑以下训练典型SD 1.5 LoRA的对比:

GPU显存大致训练时间典型小时费率估计总成本
RTX 309024GB2.5小时$0.50$1.25
RTX 409024GB1.5小时$0.70$1.05
RTX A600048GB1.5小时$0.80$1.20
A100 (40GB)40GB1.0小时$1.50$1.50

RTX 4090通常提供最佳的成本效益。它的训练速度几乎与数据中心GPU一样快,而小时费率却低得多。当4090供应有限时,RTX 3090仍然可行,总成本仅略高。

对于SDXL的LoRA训练,计算方式略有不同,因为更大的模型更能从额外的显存和内存带宽中受益。A100在复杂的SDXL项目中变得更具竞争力,否则在消费级硬件上训练可能需要四小时或更长时间。

有关所有主要供应商的GPU租赁价格的全面分析,包括企业云选项和市场平台,请参阅我们的2026年GPU租赁价格完整对比

NVIDIA RTX 4090显卡,配备三风扇散热系统,常用于AI模型训练


GPU租赁供应商对比

三家供应商值得考虑用于LoRA训练工作负载。根据您的支付偏好、技术熟练程度和成本敏感度,每家都有其独特的特点。

Vast.ai

Vast.ai运营一个点对点市场,个人GPU所有者在此出租其硬件。这种模式产生了市场上最低的价格,RTX 4090 GPU通常以每小时0.35至0.60美元的价格提供。

权衡之处在于可变性。供应商的可靠性因个人主机而异,从97%到99.9%不等。可用性根据需求波动。您可能需要尝试多个供应商,才能找到网络速度可接受、适合上传数据集的那个。

对于能够熟练评估供应商指标的有经验用户,Vast.ai提供最低的训练成本。请额外预留三十分钟用于初始设置和供应商评估。

RunPod

RunPod将自己定位于纯市场和企业云供应商之间。该平台提供社区来源的GPU和具有更稳定性能的专用”安全云”实例。

定价略高于Vast.ai,安全云层级的RTX 4090访问通常为每小时0.59美元。该平台通过更简单的设置、针对常见AI工作负载的预配置模板和更可预测的可用性来弥补这一点。

对于GPU租赁新手或重视简单界面胜过最小化成本优化的用户,RunPod代表了一个合理的中间地带。

GPUFlow

GPUFlow运营一个建立在区块链基础设施上的点对点市场,使用智能合约托管进行支付处理。该平台接受加密货币支付,无需身份验证。

定价通常介于Vast.ai和RunPod之间,RTX 4090访问价格为每小时0.50至0.80美元。其区别特征是支付隐私、即时设置(通常三十秒内即可运行实例)以及比竞争市场更低的平台费用。

对于偏好加密货币支付、重视交易隐私或希望避免传统供应商常见账户验证流程的用户,GPUFlow提供了一个简化的替代方案。

供应商总结

供应商RTX 4090价格区间设置时间支付方式最适合
Vast.ai$0.35-0.60/小时5-15分钟信用卡最大化节省成本
RunPod$0.59/小时(安全云)2-5分钟信用卡、加密货币易用性
GPUFlow$0.50-0.80/小时30秒仅限加密货币隐私、速度

准备训练数据集

数据集质量比任何其他因素更能决定训练结果。精心策划的三十张图像集将比草率收集的两百张图像产生更好的结果。

图像选择标准

一致性。 所有图像都应代表您希望模型学习的概念。如果您正在训练特定人物的面部,每张图像都应清晰显示该面部。如果您正在训练艺术风格,每张图像都应体现该风格。

一致性中的多样性。 在保持概念一致性的同时,改变技术方面。包括不同的角度、光线条件、背景和场景。这种多样性教会模型泛化,而不是过度拟合特定的构图。

技术质量。 使用清晰、曝光良好的图像。运动模糊、噪点、压缩伪影和糟糕的光线都会成为模型学习内容的一部分。如果您的训练图像有颗粒感,生成的图像也会倾向于有颗粒感。

分辨率。 训练图像对于SD 1.5应至少为512x512像素,对于SDXL应至少为1024x1024像素。更高分辨率的源图像允许训练管道在不损失质量的情况下裁剪和调整大小。

数据集大小指南

最佳数据集大小取决于概念复杂度:

简单概念(单个面部、基本风格): 20-40张图像 中等概念(多种服装的角色、细微风格): 40-80张图像 复杂概念(详细环境、高度可变风格): 80-150张图像

更多图像需要更多训练步骤,增加时间和成本。首次尝试时从这些范围的较小端开始。

为图像添加标注

每张训练图像都需要描述其内容的文本标注。这些标注教会模型将哪些文本概念与视觉模式相关联。

有效的标注是具体且一致的:

差的标注: “一个女人” 更好的标注: “一张Sarah Miller的照片,一位有着棕色短发和绿眼睛的女性,穿着蓝色毛衣”

差的标注: “奇幻艺术” 更好的标注: “一幅发光奇幻风格的数字绘画,特色是黑暗森林中发光的蘑菇,详细的线条工作,鲜艳的紫色和蓝色调色板”

您希望在推理时使用的触发词或短语应该出现在每个标注中。如果您想用”发光奇幻风格”来调用您的LoRA,那个确切的短语应该出现在每个训练标注中。

标注可以手动完成小型数据集。对于更大的集合,BLIP或WD14 Tagger等工具可以生成初始标注,然后您再审查和完善。

有组织的文件夹结构,显示训练图像及其相应的用于LoRA训练的标注文本文件

目录结构

按照训练脚本期望的特定结构组织您的训练数据:

training_data/
├── 10_concept_name/
│   ├── image001.jpg
│   ├── image001.txt
│   ├── image002.jpg
│   ├── image002.txt
│   └── ...

文件夹名称前缀(本例中的”10”)表示该文件夹中的每张图像在训练期间应重复多少次。数字越大,这些图像在训练过程中的权重越高。

下划线后面的名称如果您选择不使用自定义标注,将成为默认触发词。


设置训练环境

数据集准备好并租用GPU后,下一步是配置训练环境。LoRA训练的标准工具链是kohya_ss/sd-scripts,这是一个由社区维护的开源训练脚本集合。

初始环境设置

连接到租用的GPU实例后,您需要克隆训练仓库并安装依赖项。以下命令建立基本环境:

# 克隆训练脚本仓库
git clone https://github.com/kohya-ss/sd-scripts.git
cd sd-scripts

# 创建并激活虚拟环境
python -m venv venv
source venv/bin/activate

# 安装依赖项
pip install torch torchvision --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
pip install xformers

此安装通常需要五到十分钟,具体取决于网络速度。xformers包是可选的但推荐使用,因为它显著减少训练期间的内存使用。

下载基础模型

LoRA训练需要一个Stable Diffusion基础模型来进行训练。您需要将其下载到您的实例:

# 创建模型目录
mkdir -p models/sd

# 下载Stable Diffusion 1.5(约4GB)
wget -O models/sd/v1-5-pruned.safetensors \
  "https://huggingface.co/runwayml/stable-diffusion-v1-5/resolve/main/v1-5-pruned.safetensors"

对于SDXL训练,替换为SDXL基础模型,约为6.5GB。

上传您的训练数据

将准备好的数据集传输到GPU实例。大多数供应商支持SCP或SFTP:

# 从您的本地机器
scp -r ./training_data user@gpu-instance-ip:~/sd-scripts/

或者,如果您的数据集存储在云存储中,您可以使用wget或rclone直接下载到实例。

GPUFlow特定设置

如果使用GPUFlow,该平台提供预配置的环境,消除了大部分手动设置。通过基于Web的终端连接后:

# GPUFlow实例包含预安装的训练环境
cd /workspace/sd-scripts

# 使用Web界面或SCP上传您的数据集
# 训练脚本已预配置并准备就绪

与从头设置裸实例相比,这种预配置通常节省十五到二十分钟。对于偶尔的训练运行,这种时间节省可以代表GPU总租赁成本的很大一部分。


配置训练参数

训练配置对输出质量和训练持续时间都有显著影响。以下参数代表保守的起点,可在不过度计算的情况下产生可靠的结果。

基本参数

创建名为training_config.toml的配置文件:

[model]
pretrained_model_name_or_path = "./models/sd/v1-5-pruned.safetensors"
v2 = false
v_parameterization = false

[dataset]
train_data_dir = "./training_data"
resolution = 512
batch_size = 2
enable_bucket = true
min_bucket_reso = 256
max_bucket_reso = 1024

[training]
output_dir = "./output"
output_name = "my_lora"
max_train_epochs = 10
learning_rate = 1e-4
unet_lr = 1e-4
text_encoder_lr = 5e-5
lr_scheduler = "cosine_with_restarts"
lr_warmup_steps = 100
network_dim = 32
network_alpha = 16
optimizer_type = "AdamW8bit"
mixed_precision = "fp16"
save_every_n_epochs = 2
save_model_as = "safetensors"

参数解释

resolution: 与目标推理分辨率匹配。SD 1.5为512,SDXL为1024。

batch_size: 较高的值训练更快,但需要更多显存。从2开始,如果内存允许则增加到4。

max_train_epochs: 一个轮次意味着模型看到每张训练图像一次。对于大多数数据集,十个轮次是合理的起点。

learning_rate: 控制模型更新的激进程度。上述值是保守的。如果结果较弱,尝试增加到2e-4或3e-4。

network_dim和network_alpha: 控制LoRA容量。Dim 32和alpha 16在质量和文件大小之间取得平衡。更高的维度(64、128)可以捕获更多细节,但会产生更大的文件并有过拟合的风险。

optimizer_type: AdamW8bit大幅减少内存使用,对质量影响最小。对于训练SDXL的24GB显卡至关重要。

mixed_precision: FP16训练将内存需求减半,与FP32相比。对于大多数用例,质量影响可以忽略不计。

根据您的硬件调整

对于24GB显存的RTX 4090:

  • batch_size = 4 对于SD 1.5通常是安全的
  • batch_size = 2 对于SDXL

对于24GB显存的RTX 3090:

  • batch_size = 2 对于SD 1.5
  • batch_size = 1 对于SDXL(启用梯度检查点)

对于40GB显存的A100:

  • batch_size = 6-8 对于SD 1.5
  • batch_size = 4 对于SDXL

较高的批处理大小按比例减少总训练时间。将批处理大小加倍大约可以将所需的优化步骤数量减半。

代码编辑器显示LoRA训练配置文件,包含学习率、批处理大小和网络维度参数


执行训练运行

配置好环境和参数后,启动训练:

accelerate launch --num_cpu_threads_per_process=4 train_network.py \
  --config_file="./training_config.toml" \
  --logging_dir="./logs"

监控进度

训练输出显示损失值和进度信息:

epoch 1/10, step 50/500, loss=0.0823
epoch 1/10, step 100/500, loss=0.0756
epoch 1/10, step 150/500, loss=0.0691
...

需要关注的内容:

损失通常应该在前几个轮次中下降,然后稳定。典型的训练运行可能显示:

  • 轮次1:损失约0.08-0.10
  • 轮次5:损失约0.05-0.07
  • 轮次10:损失约0.04-0.06

如果损失在初始下降后增加,模型可能正在过拟合。如果损失从一开始就保持平坦,学习率可能太低。

检查点

配置每两个轮次保存一次检查点。这些中间保存有两个目的:

  1. 恢复。 如果训练崩溃或您需要提前终止,可以从最后一个检查点恢复。

  2. 选择。 不同的轮次有时会产生不同的特征。轮次6可能很好地捕获了您的概念,而轮次10可能过拟合。有检查点让您可以测试和选择。

预期训练时间

对于使用上述配置的50张图像SD 1.5 LoRA:

GPU大致时间
RTX 309090-120分钟
RTX 409060-90分钟
A10045-60分钟

SDXL训练大约需要这些时间的1.5到2倍。

验证和测试您的LoRA

训练完成后会在输出目录中生成一个.safetensors文件。在您认为项目完成之前,需要对该文件进行测试。

基本验证

将LoRA文件复制到本地机器或运行Stable Diffusion WebUI的系统:

# 从GPU实例下载
scp user@gpu-instance-ip:~/sd-scripts/output/my_lora.safetensors ./

在Automatic1111 WebUI中,将文件放在models/Lora目录。对于ComfyUI,使用models/loras目录。

测试方法

生成一系列测试图像,改变以下因素:

LoRA权重: 在0.5、0.7、0.8和1.0强度下测试。有些LoRA在低于全强度时效果最好。

提示词位置: 将触发词包含在提示词的不同位置。开头、中间和结尾位置可能产生略有不同的结果。

负面提示词: 测试在负面提示词中包含和不包含您的概念。有时将触发词添加到负面提示词并使用低权重会创建有趣的反转效果。

不同的seed值: 每个配置至少使用五个不同的seed,以区分一致的模式和随机变化。

质量评估

根据以下标准评估您的结果:

概念准确性: 生成的输出是否反映了您的训练概念?如果您训练的是面部,该面部是否可识别?

整合性: LoRA概念是否与其他提示词元素自然整合?您能否将训练的角色放置在不同的场景中?

伪影: 寻找持续出现的重复模式、不自然的元素或扭曲。这些表明训练问题或过拟合。

灵活性: 测试边缘情况。如果您训练了一个角色,他们能否被描绘成不同的年龄?不同的服装?执行各种动作?

如果结果不满意,常见的补救措施包括:

  • 训练更多轮次(欠拟合)
  • 训练更少轮次(过拟合)
  • 调整学习率
  • 改善标注质量
  • 添加更多样化的训练图像

对比网格显示不同LoRA强度值下的Stable Diffusion输出,展示AI生成图像的质量差异


成本优化策略

五美元训练运行和二十美元训练运行之间的差异通常归结为工作流程效率,而不是供应商选择。

上传前的数据集准备

在开始GPU租赁之前,在本地机器上完成所有数据集整理、裁剪和标注工作。以每小时0.70美元的价格手动审查和重命名文件是对该硬件的昂贵使用。

开始租赁前的检查清单:

  • 所有图像已裁剪为适当的宽高比
  • 所有标注已编写并审查
  • 数据集已按正确的文件夹结构组织
  • 训练配置文件已准备好
  • 测试命令已编写并准备粘贴

批量训练

如果您需要多个LoRA,在单个会话中训练它们。环境设置和模型下载的固定成本分摊到所有训练运行中。

例如,训练三个单独的LoRA:

  • 三个单独的会话:3 ×(20分钟设置 + 90分钟训练)= 330分钟
  • 一个批量会话:20分钟设置 +(3 × 90分钟训练)= 290分钟

节省的四十分钟代表约15%的成本降低。

检查点测试策略

与其训练到第15轮然后期望获得好结果,不如考虑:

  1. 训练到第6轮(大约60%的完整训练时间)
  2. 测试检查点
  3. 如果满意,停止并节省剩余的GPU时间
  4. 如果欠拟合,从检查点继续训练

这种方法通常比预期更早地捕获到好的结果,从而降低总成本。

及时终止

GPU计费通常会持续到您明确停止实例为止。复制输出文件后立即关闭会话。忘记关闭的运行实例在每小时0.70美元的情况下过夜会给您的项目成本增加十二美元。

供应商选择时机

GPU可用性和定价根据需求波动。在非高峰时段(例如美国时区的工作日上午)进行训练通常比周末晚上能获得更好的价格和GPU可用性。


常见问题及解决方案

CUDA内存不足

症状: 训练崩溃并显示”CUDA out of memory”错误。

解决方案:

  • 在配置中减少batch_size
  • 通过添加gradient_checkpointing = true启用梯度检查点
  • 降低分辨率(虽然这会影响输出质量)
  • 使用显存更大的GPU

训练损失不下降

症状: 损失值在整个训练过程中保持平坦或随机波动。

解决方案:

  • 增加学习率(尝试2e-4或3e-4)
  • 检查标注是否正确描述图像
  • 验证图像格式正确且可读
  • 确保基础模型路径正确

LoRA对生成没有影响

症状: 启用或禁用LoRA时生成的图像看起来相同。

解决方案:

  • 验证LoRA文件在您的UI的正确目录中
  • 检查触发词是否与您在训练标注中使用的相匹配
  • 增加LoRA权重/强度设置
  • 尝试训练中的不同检查点

LoRA过拟合且不灵活

症状: LoRA几乎完全复制训练图像,但在不同的提示词下失败。

解决方案:

  • 训练更少的轮次
  • 减少network_dim值
  • 向训练数据集添加更多多样性
  • 降低学习率

训练速度慢

症状: 训练进度比预期时间慢得多。

解决方案:

  • 验证GPU确实在使用中(nvidia-smi应显示高GPU利用率)
  • 确保xformers已安装
  • 检查mixed_precision是否已启用
  • 如果使用非常高的值,减少network_dim

常见问题解答

我可以使用自己的GPU而不是租用来训练LoRA模型吗?

可以,前提是您拥有至少12GB显存的NVIDIA GPU,例如RTX 3060或更好的显卡。然而,电费成本、硬件损耗以及消费级硬件上显著更长的训练时间,往往使租用成为偶发项目更经济的选择。两小时的训练运行每小时0.70美元,比大多数家庭设置在较慢硬件上以全负载运行四到六小时所消耗的电费更便宜。

典型的LoRA训练会话需要多长时间?

使用RTX 4090或RTX 3090时,大多数LoRA训练会话在一到三小时内完成。确切时长取决于您的数据集大小、训练轮次数量和批处理大小配置。对于等效的训练运行,SDXL模型比SD 1.5需要大约多50-100%的时间。

LoRA训练所需的最少图像数量是多少?

您可以用少至十五到二十张图像获得合理的结果。然而,包含三十到一百张配有良好标注的图像的数据集通常会产生更好的质量。图像质量和标注准确性比原始数量更重要。精心策划的三十张图像集通常优于匆忙收集的一百张。

哪家GPU租赁供应商为LoRA训练提供最佳性价比?

Vast.ai通常为RTX 4090 GPU提供最低的小时费率,通常为每小时0.35至0.50美元。GPUFlow提供有竞争力的定价,支持加密货币支付且无需身份验证。RunPod为GPU租赁新手提供最直观的界面。有关所有供应商和当前定价的详细比较,请参阅我们的GPU租赁价格综合比较

在单个会话中训练多个LoRA模型是否更具成本效益?

是的。在一个延长的会话中批量训练多个LoRA可以消除重复的设置时间并最大限度地减少GPU空闲费用。在四小时的会话中训练三到五个LoRA模型,通常花费不到在单独租赁中逐个训练它们所需费用的一半。

我可以将训练的LoRA用于商业目的吗?

这取决于您的基础模型的许可证。Stable Diffusion 1.5使用CreativeML Open RAIL-M许可证,该许可证允许在某些限制下进行商业使用。SDXL具有类似的宽松许可。您的LoRA继承其基础模型的限制。训练图像也可能带有许可要求——确保您对用于训练的任何图像拥有适当的权利。


结论

训练自定义LoRA模型已变得异常便捷。曾经需要大量硬件投资的计算障碍,现在仅需几美元的GPU租赁费用即可解决。本指南中描述的技术,应用于准备充分的数据集,在第一次尝试时就能持续产生可用的结果。

关键成功因素与更昂贵的训练方法相比保持不变:高质量的训练数据、适当的参数选择以及对结果的仔细验证。再多的计算能力也无法弥补糟糕的源图像或配置错误的训练运行。

从二十到三十张图像的适度数据集开始。以保守的设置进行训练。在扩展到更大的项目之前彻底测试您的结果。每次尝试的成本足够低,使得迭代是切实可行的—将您的前几次训练运行视为学习经验而非生产输出。这个相同的工作流程适用于其他模型类型。如果您使用文本而不是图像,请参阅我们关于使用相同去中心化GPU基础设施微调大型语言模型的指南。

对于那些比较所有供应商类型和价格点的GPU租赁选项的人,我们的GPU租赁价格比较提供消费级GPU、数据中心硬件和企业云选项的当前费率。


本指南最后更新于2026年2月12日。GPU租赁价格和训练工具配置经常变化。在开始训练项目之前,请直接与供应商核实当前定价。

Frequently Asked Questions

我可以使用自己的GPU而不是租用来训练LoRA模型吗?

可以,前提是您拥有至少12GB显存的NVIDIA GPU,例如RTX 3060或更好的显卡。然而,电费成本、硬件损耗以及消费级硬件上显著更长的训练时间,往往使租用成为偶发项目更经济的选择。

典型的LoRA训练会话需要多长时间?

使用RTX 4090或RTX 3090时,大多数LoRA训练会话在一到三小时内完成。确切时长取决于您的数据集大小、训练轮次数量和批处理大小配置。

LoRA训练所需的最少图像数量是多少?

您可以用少至十五到二十张图像获得合理的结果。然而,包含三十到一百张配有良好标注的图像的数据集通常会产生更好的质量。图像质量和标注准确性比原始数量更重要。

哪家GPU租赁供应商为LoRA训练提供最佳性价比?

Vast.ai通常为RTX 4090 GPU提供最低的小时费率。GPUFlow提供有竞争力的定价,支持加密货币支付且无需身份验证。RunPod为GPU租赁新手提供最直观的界面。

在单个会话中训练多个LoRA模型是否更具成本效益?

是的。在一个延长的会话中批量训练多个LoRA可以消除重复的设置时间并最大限度地减少GPU空闲费用。在四小时的会话中训练三到五个LoRA模型,通常花费不到单独训练它们所需费用的一半。