Can I fine-tune large language models on a single RTX 4090?

Yes. Using QLoRA (Quantized Low-Rank Adaptation), models up to 8B parameters fit comfortably within 24GB of VRAM. This tutorial demonstrates exactly how to configure the training script for consumer hardware with specific parameters for batch size, sequence length, and LoRA rank.

Is my dataset secure on a decentralized GPU rental?

Your dataset is as secure as your operational practices. This guide covers encrypted transfer via SCP, avoiding cloud storage intermediaries like S3 or Google Drive, and sanitizing the remote machine after training completes. The decentralized model means no single corporation has access to your data or training logs.

How much does it cost to fine-tune an 8B model on decentralized GPUs?

A typical fine-tuning run on an 8B parameter model using an RTX 4090 rental costs between three and eight dollars depending on dataset size and training epochs. This compares to approximately 150 to 300 dollars for equivalent compute on AWS or Lambda Labs including setup time and idle charges.

Do I need to complete KYC to rent GPU compute for training?

No. Decentralized GPU marketplaces like GPUFlow allow you to connect a crypto wallet and begin renting immediately. There is no identity verification, no credit card required, and no enterprise contract. Payments occur through stablecoins on networks like Polygon.

What dataset format does the training script expect?

The script expects a JSONL file where each line contains a JSON object with a text field. The text field should contain your instruction, input, and response formatted as a single string with newline characters. An example with proper formatting is provided in Step 4 of this guide.

Does this tutorial work for models other than Llama?

Yes. The workflow applies to any open-weights model including Mistral, Qwen, Falcon, and others. The code example uses Llama-3.1-8B but you only need to change the model identifier to fine-tune a different base model.

How long does fine-tuning an 8B parameter model take?

Training time depends on dataset size. A typical run with 1,000 examples completes in 30 to 60 minutes on an RTX 4090. Larger datasets scale approximately linearly. A 10,000 example dataset requires 5 to 10 hours of compute time.

What should I do with the remote machine after training completes?

You must sanitize the environment by deleting your dataset, training code, Hugging Face cache, and bash history. This guide provides specific commands for secure deletion including optional use of shred for thorough file destruction before ending your rental contract.

分布式GPU上的私有LLM Fine-Tuning完整指南

如果你正在阅读本文，很可能你拥有一个无法——或者不愿意——上传到OpenAI的数据集。

你并不孤单。对于许多企业和独立开发者来说，ChatGPT的便利性无法抵消数据泄露所带来的不可接受风险。无论是受HIPAA监管的医疗记录，代表多年工程投入的专有代码库，还是可能影响市场的敏感金融模型，将数据交给云端AI服务往往意味着将最重要的知识产权交给第三方。

当这个第三方是一家曾利用客户数据训练未来模型的科技巨头时，“信任”这个词就变得难以令人安心。

解决方案并不是放弃AI。解决方案是掌握基础设施。

在自己可控的硬件上对开源权重模型进行fine-tuning，已经不再是学术研究中的小众行为。对于重视隐私的组织而言，这是业务层面的必需。Llama、Mistral、Qwen等模型可以在无需支付API费用、无需共享数据的前提下用于商业用途。问题始终在于算力获取。采购NVIDIA H100集群需要数百万美元的资本支出。通过AWS租赁则需要身份验证、企业协议以及高昂的按小时计费，使得长期训练成本极高。

本指南提供第三种路径。你将学习如何使用去中心化GPU租赁对开源权重语言模型进行fine-tuning——这些硬件由全球个人持有，通过peer‑to‑peer市场进行访问。我们将介绍环境搭建、在公共节点上运行时的安全策略，以及完整的训练执行流程。

代码示例以Llama‑3.1‑8B为具体参考，但整个流程同样适用于任何兼容Hugging Face的模型。只需替换模型标识符，即可对Mistral‑7B、Qwen2‑7B或其他适合你需求的open‑weights模型进行fine‑tuning。

这一切都无需KYC、无需长期合同，并且成本远低于传统云计算平台。

显示与远程GPU服务器建立SSH连接的终端窗口

私有Fine-Tuning的经济性

在进入技术实现之前，有必要先理解成本结构。

在AWS上训练模型往往需要面对实例资源紧张的问题。p4d.24xlarge实例（8×A100 GPU）每小时费用为32.77美元，而且通常难以获取。Lambda Labs价格相对较低，但经常存在数周的排队等待。两者都需要信用卡、身份验证，并会生成详细账单记录，将你的AI活动与真实身份关联。

在去中心化市场中，你直接向硬件所有者租用算力。这是一种基于区块链支付通道运行的peer‑to‑peer基础设施，其意义十分明确：

成本降低： 在大多数去中心化平台上，RTX 4090的租赁价格通常在每小时0.40至0.60美元之间。对于使用QLoRA的8B参数模型，一张24GB VRAM的4090通常可在2至6小时内完成fine‑tuning。总计算成本仅为3至8美元。

架构层面的隐私： 支付通过Polygon等网络上的稳定币交易完成。无需信用卡绑定身份。市场中的智能合约负责托管资金，详细机制可参见我们的智能合约托管说明，确保双方安全。

无需审批： 不需要企业销售团队批准。不需要签署赋予平台审查权的使用协议。连接钱包，即可开始租用硬件。

相比之下，在AWS上使用单个A10G实例（具备足够VRAM的最经济选项）进行同等fine‑tuning，每小时约1.50美元。考虑到环境配置时间、空闲计算时间以及无法匿名支付的因素，实际成本可能达到150至300美元，而去中心化基础设施下仅需不到10美元。

更详细的分析可参考我们的GPU租赁价格对比2026。

前置条件

本教程假设你熟悉Linux命令行操作。无需机器学习相关学位，但应能够熟练浏览文件系统、编辑文本文件以及理解错误信息。

硬件要求：

GPU： 至少24GB VRAM。RTX 3090、RTX 4090或A10G均可。若使用70B参数模型，则需要48GB及以上（A6000、双A100或H100）。
系统内存： 32GB或以上。模型加载过程中权重会先进入系统内存。
存储空间： 至少100GB NVMe SSD。Llama‑3 8B基础权重约占16GB，数据集和检查点还需额外空间。

模型选择说明： 本教程使用Meta Llama‑3.1‑8B作为示例，因为这是在QLoRA量化下可在单张24GB GPU上运行的最大类别模型。Llama 4 Scout和Maverick采用109B与400B参数的Mixture of Experts架构，需要多GPU配置，超出单节点租赁范围。本文流程同样适用于Mistral‑7B、Qwen2‑7B、Gemma‑2‑9B等符合VRAM限制的Hugging Face兼容模型。

软件要求：

Python 3.10 或更高版本
基本的 PyTorch 使用经验
Hugging Face 账户（下载如 Llama 等需要许可授权的模型时必须）
已在 Polygon 网络中持有 USDC 或 MATIC 的加密钱包（如 MetaMask）

如果你尚未为去中心化 GPU 租赁配置钱包，请先完成我们的MetaMask 与 Polygon GPU 租赁设置指南。整个过程大约需要十五分钟。

第一步：保障计算节点安全

第一步是获取硬件。在传统云平台上，这通常意味着创建账户、上传身份文件、等待审核并绑定支付方式。而在去中心化市场中，流程更加直接。

进入 GPUFlow 市场，点击右上角按钮连接你的钱包。界面会显示可用机器的规格、每小时价格以及可靠性评分。

建议筛选以下配置：

GPU： RTX 4090（24GB VRAM）或 RTX 6000 Ada（48GB VRAM）
内存： 至少 32GB
存储： 可用空间 100GB 以上
可靠性： 在线率 95% 以上

选择一个节点并发起租赁。智能合约将要求支付覆盖预计使用时长的押金。关于该托管机制如何保护双方权益，可参考我们的智能合约托管机制说明。

在公共节点上运行时的安全注意事项：

当你租用远程机器时，实际上是在使用由陌生人拥有并物理控制的硬件。虽然虚拟化层提供了合理的隔离，但仍需采取必要的防护措施：

不要在远程机器上存储私钥。 包括加密钱包私钥、其他系统的 SSH 密钥以及生产环境 API Token。
假设文件系统并非完全可信。 理论上，写入磁盘的数据在租赁结束后可能被恢复。第六步将介绍安全删除方法。
传输敏感数据时必须加密。 第三步将详细说明。
不要重复使用密码。 如果平台提供默认登录凭据，应立即更改或生成新的 SSH 密钥对。

租赁确认后，平台会提供 SSH 连接命令，例如：

ssh -p 22345 [email protected]

在本地终端执行该命令，并在提示时确认主机指纹。连接成功后，即可进入租用的 GPU 节点。

确认硬件配置是否符合预期：

nvidia-smi

输出应显示 GPU 型号、显存容量以及驱动版本。如发现与订单不符，应立即断开连接并通过平台申诉系统报告。

第二步：环境配置

建立 SSH 连接后，首要任务是创建干净的 Python 虚拟环境。尽管多数节点已安装 NVIDIA 驱动与 CUDA，但直接使用系统级 Python 依赖往往会带来版本冲突。

创建工作目录与虚拟环境：

mkdir ~/llama3-finetune
cd ~/llama3-finetune
python3 -m venv venv
source venv/bin/activate

终端提示符应显示 (venv)，表示虚拟环境已激活。

确认 CUDA 版本：

nvcc --version

通常为 CUDA 11.8 或 12.1。如未识别：

source /etc/profile.d/cuda.sh

根据 CUDA 版本安装对应的 PyTorch，例如 CUDA 12.1：

pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

接着安装 fine‑tuning 所需的库：

pip install transformers==4.40.0 datasets==2.19.0 peft==0.10.0 bitsandbytes==0.43.1 trl==0.8.6 accelerate==0.29.0

锁定版本非常重要。 Hugging Face 生态更新频繁，不固定版本往往会导致兼容性问题。

然后进行 Hugging Face 登录。Llama‑3 权重需先接受许可协议。访问 Hugging Face，同意模型许可条款，并生成访问 Token。

huggingface-cli login

将 Token 粘贴到终端提示中。Token 将保存在 ~/.cache/huggingface/token。

在终端中显示 Llama-3 模型配置参数的 Python 代码

第三步：安全传输数据

之所以选择去中心化算力而非直接调用 API，核心原因在于数据主权。

传统云流程通常需要先将数据上传至 S3、Google Cloud Storage 或 Azure Blob，再从存储服务下载至计算实例。这会在多个系统中产生数据副本。

我们将使用 SSH 直接加密传输。

在本地电脑打开一个新的终端窗口（保持现有 SSH 会话开启），执行：

scp -P 22345 /path/to/your/dataset.jsonl [email protected]:~/llama3-finetune/

注意 -P 为大写。

对于超过 1GB 的数据集，可先压缩：

# 本地执行
gzip -k dataset.jsonl
scp -P 22345 dataset.jsonl.gz [email protected]:~/llama3-finetune/

# 远程节点执行
cd ~/llama3-finetune
gunzip dataset.jsonl.gz

若需要更高等级的安全保障，可在传输前使用 age 加密：

# 本地执行
age -p dataset.jsonl > dataset.jsonl.age
scp -P 22345 dataset.jsonl.age [email protected]:~/llama3-finetune/

# 远程节点执行
age -d dataset.jsonl.age > dataset.jsonl
rm dataset.jsonl.age

SSH 默认使用 AES‑256 加密，已满足大多数安全需求。

第四步：Fine-Tuning 脚本

我们将使用 TRL 库中的 SFTTrainer 进行监督式 fine‑tuning。

数据格式要求：

训练脚本期望输入 JSONL 文件，每一行包含一个带有 text 字段的 JSON 对象。

关键要求：

每个 JSON 对象必须占据单独一行。
文本中的换行符需写作 \n。
引号需使用 \" 转义。
文件编码必须为 UTF‑8。

若原始数据为 CSV 或其他格式，应在传输前转换为 JSONL。

在远程节点创建训练脚本：

cd ~/llama3-finetune
nano train.py

将原始英文版本中的完整训练代码粘贴进去，仅在需要时修改模型标识符。

启动训练：

python train.py

首次运行时将下载约 16GB 的基础模型权重。之后训练开始，并在固定步数间隔输出 loss 值。

第五步：监控训练过程

在训练脚本运行期间，必须持续监控 GPU 状态。如果 VRAM 占满或温度超过安全范围，训练过程可能会中断，从而浪费租赁时间，甚至损坏 checkpoint。

在本地电脑打开第二个终端窗口，并重新建立 SSH 连接：

ssh -p 22345 [email protected]

使用以下命令进行实时监控：

watch -n 1 nvidia-smi

显示 GPU 显存使用率和温度统计的 nvidia-smi 输出界面

该命令每秒刷新一次，显示：

显存使用量
GPU 利用率
温度

在 RTX 4090 上使用本指南中的默认配置时，通常会看到：

显存使用量： 18GB 至 22GB（总计 24GB）
GPU 利用率： 90% 至 100%
温度： 60°C 至 80°C

常见问题与解决方法：

显存接近 24GB： 将 BATCH_SIZE 降至 2 或 1，或降低 MAX_SEQ_LENGTH 至 256，然后重新启动训练。

GPU 利用率接近 0%： 可能存在数据加载瓶颈。对于大型数据集，可考虑预处理为更高效的格式。

温度超过 85°C： 长时间高温可能导致性能降频。建议终止租赁并选择散热条件更好的节点。

Loss 值的解释：

Loss 表示模型预测的误差，数值越低越好。

通常会看到：

初始 Loss： 1.5 至 3.0
趋势： 持续下降
最终 Loss： 0.5 至 1.5

如果 100 步之后 Loss 仍未下降，learning rate 可能过低。如果 Loss 剧烈波动或突然升高，则 learning rate 可能过高，或数据格式存在问题。

在 RTX 4090 上，包含 1,000 条样本的数据集通常可在 30–60 分钟内完成训练。10,000 条样本则大约需要 5–10 小时。

第六步：下载模型并清理环境

训练完成后，LoRA adapter 将保存在 OUTPUT_NAME 指定的目录中。该 adapter 通常大小在 100MB 至 500MB 之间，远小于 16GB 的基础模型。

确认文件存在：

ls -la ~/llama3-finetune/llama-3-8b-custom/

应能看到 adapter_config.json、adapter_model.safetensors 以及 tokenizer 文件。

在本地终端中下载 adapter：

scp -r -P 22345 [email protected]:~/llama3-finetune/llama-3-8b-custom ./

确认下载文件大小与远程一致。

不要在租用节点上执行 adapter 合并操作。 合并过程需要加载完整的 16-bit 基础模型，可能超出 24GB 显存限制。应在本地基础设施上执行，或在推理时通过 PEFT 动态加载 adapter。

接下来，必须对远程环境进行清理。

在 SSH 会话中执行：

rm -rf ~/llama3-finetune
rm -rf ~/.cache/huggingface
rm -rf ~/.cache/pip
history -c
cat /dev/null > ~/.bash_history
sync

如果希望更彻底删除文件，并且系统支持 shred：

find ~/llama3-finetune -type f -exec shred -u {} \;
rm -rf ~/llama3-finetune

然后退出 SSH：

exit

回到 GPUFlow 控制面板，正式结束租赁。智能合约将自动退还剩余押金至你的钱包。

使用 Fine-Tuned 模型进行推理

以下是一个最简示例：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import PeftModel

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
)

base_model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Meta-Llama-3-8B",
    quantization_config=bnb_config,
    device_map="auto",
)

model = PeftModel.from_pretrained(base_model, "./llama-3-8b-custom")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-3.1-8B")

prompt = "### Instruction: 总结该合同条款。\n\n### Input: The Licensee shall not reverse engineer, decompile, or disassemble the Software.\n\n### Response:"

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_new_tokens=100, temperature=0.7)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)

print(response)

在生产环境中，可通过 FastAPI、Flask 或使用 vLLM、Text Generation Inference (TGI) 等推理服务器进行部署。

总结

你已经在不暴露数据给任何第三方的情况下，对先进的 Large Language Model 进行了 fine‑tuning。无需企业合同，无需身份验证，无需依赖封闭 API。

假设在 RTX 4090 上训练两小时，每小时 0.45 美元，总成本不足一美元。而在 AWS 上执行等价流程，可能需要 100 至 200 美元。

更重要的不是成本，而是控制权。没有任何中心化公司将你的训练行为与身份绑定。没有任何服务条款赋予平台查看你数据的权利。

对封闭 API 的依赖正在减少。对于重视隐私的组织、强调数据主权的研究者以及拒绝监控的开发者而言，去中心化 GPU 计算提供了可行替代方案。

你的 fine‑tuned 模型现已存在于你可控的基础设施之上。如何部署、谁可以访问、用于何种目的，完全由你决定。