Field	Value	Source
Canonical Path	/blog/fine-tuning-transfer-learning-model-egitimi-rehberi	Veni AI Blog
Primary Category	Modelltraining	Post Metadata
Author	Veni AI Technical Team	Post Metadata

Fine-Tuning und Transfer Learning: Leitfaden für das Modelltraining

Fine-Tuning ist der Prozess der Anpassung vortrainierter Modelle an spezifische Aufgaben oder Domänen. Mit den richtigen Fine-Tuning-Strategien können Leistungssteigerungen von bis zu 40% in Enterprise-AI-Lösungen erreicht werden.

Grundlagen des Transfer Learning

Transfer Learning ist die Übertragung von Wissen, das in einer Aufgabe gelernt wurde, auf eine andere Aufgabe.

Vorteile von Transfer Learning

Dateneffizienz: Gute Ergebnisse mit weniger Daten
Zeitersparnis: Deutlich schneller als Training von Grund auf
Kostenreduzierung: Weniger Rechenressourcen
Performance: Nutzung vortrainierten Wissens

Pre-Training vs. Fine-Tuning

1Pre-training:
2- Large, general dataset (TBs)
3- Learning general language/task understanding
4- Training takes months
5- Cost in millions of dollars
6
7Fine-tuning:
8- Small, domain-specific dataset (MB-GB)
9- Specific task adaptation
10- Training takes hours-days
11- Cost in thousands of dollars

Vollständiges Fine-Tuning

Aktualisierung aller Modellparameter.

Vorteile

Maximale Anpassungsfähigkeit
Höchste potenzielle Performance

Nachteile

Hoher Speicherbedarf
Risiko des katastrophalen Vergessens
Separate Modellkopie für jede Aufgabe

Hardware-Anforderungen

Model Size	GPU Memory (FP32)	GPU Memory (FP16)
7B	28 GB	14 GB
13B	52 GB	26 GB
70B	280 GB	140 GB

Parameter-Efficient Fine-Tuning (PEFT)

Fine-Tuning, bei dem nur ein kleiner Teil der Parameter aktualisiert wird.

Vorteile von PEFT

Speichereffizienz: 90%+ Reduktion
Geschwindigkeit: Schnelleres Training
Modularität: Ein Basismodell, mehrere Adapter
Katastrophales Vergessen: Minimiertes Risiko

LoRA (Low-Rank Adaptation)

Die populärste PEFT-Methode.

LoRA-Theorie

Aktualisierung der Gewichtsmatrix näherungsweise mit Low-Rank-Matrizen:

1W' = W + ΔW = W + BA
2
3Where:
4- W: Original weight matrix (d × k)
5- B: Low-rank matrix (d × r)
6- A: Low-rank matrix (r × k)
7- r: Rank (typical: 8-64)

Parameterersparnis

1Original: d × k parameters
2LoRA: r × (d + k) parameters
3
4Example (d=4096, k=4096, r=16):
5Original: 16.7M parameters
6LoRA: 131K parameters
7Savings: ~127x

LoRA-Konfiguration

1from peft import LoraConfig, get_peft_model
2
3config = LoraConfig(
4    r=16,                      # Rank
5    lora_alpha=32,             # Scaling factor
6    target_modules=[           # Which layers to apply
7        "q_proj",
8        "k_proj", 
9        "v_proj",
10        "o_proj"
11    ],
12    lora_dropout=0.05,
13    bias="none",
14    task_type="CAUSAL_LM"
15)
16
17model = get_peft_model(base_model, config)

LoRA-Hyperparameter

Rank (r):

Niedrig (4–8): Einfache Aufgaben, wenig Daten
Mittel (16–32): Allgemeiner Einsatz
Hoch (64–128): Komplexe Anpassungen

Alpha:

Allgemein gilt: alpha = 2 × r

Target Modules:

Attention-Layer: q_proj, k_proj, v_proj, o_proj
MLP-Layer: gate_proj, up_proj, down_proj

QLoRA (Quantized LoRA)

Kombination aus LoRA + 4-Bit-Quantisierung.

QLoRA-Funktionen

4-bit NormalFloat (NF4): Spezielles Quantisierungsformat
Double Quantization: Quantisierung der Quantisierungskonstanten
Paged Optimizers: Verwaltung von GPU-Speicherüberläufen

QLoRA Speichervergleich

Method	7B Model	70B Model
Full FT (FP32)	28 GB	280 GB
Full FT (FP16)	14 GB	140 GB
LoRA (FP16)	12 GB	120 GB
QLoRA (4-bit)	6 GB	48 GB

QLoRA-Implementierung

1from transformers import BitsAndBytesConfig
2import torch
3
4bnb_config = BitsAndBytesConfig(
5    load_in_4bit=True,
6    bnb_4bit_use_double_quant=True,
7    bnb_4bit_quant_type="nf4",
8    bnb_4bit_compute_dtype=torch.bfloat16
9)
10
11model = AutoModelForCausalLM.from_pretrained(
12    "meta-llama/Llama-2-7b-hf",
13    quantization_config=bnb_config,
14    device_map="auto"
15)
16## Andere PEFT-Methoden
17
18### Prefix Tuning
19
20Fügt lernbare Präfixe zu Eingabe-Embeddings hinzu:
21

Input: [PREFIX_1, PREFIX_2, ..., PREFIX_N, token_1, token_2, ...]

1
2### Prompt Tuning
3
4Lernen von Soft-Prompts:
5

[SOFT_PROMPT] + "Actual input text"

1
2### Adapter Layers
3
4Hinzufügen kleiner Netzwerke zwischen Transformer-Layern:
5

Attention → Adapter → LayerNorm → FFN → Adapter → LayerNorm

1
2### (IA)³ - Infused Adapter
3
4Multiplikation von Aktivierungen mit gelernten Vektoren:
5

output = activation × learned_vector

1
2## Datenvorbereitung
3
4### Datenformate
5
6**Instruction Format:**
7```json
8{
9  "instruction": "Summarize this text",
10  "input": "Long text...",
11  "output": "Summary..."
12}

Chat Format:

1{
2  "messages": [
3    {"role": "system", "content": "You are a helpful assistant"},
4    {"role": "user", "content": "Question..."},
5    {"role": "assistant", "content": "Answer..."}
6  ]
7}

Datenqualität

Merkmale guter Daten:

Diversität (verschiedene Beispiele)
Konsistenz (konsistentes Format)
Genauigkeit (präzise Labels)
Ausreichende Menge (typisch 1K–100K Beispiele)

Datenaugmentation

1# Paraphrasing
2augmented_data = paraphrase(original_data)
3
4# Back-translation
5translated = translate(text, "tr")
6back_translated = translate(translated, "en")
7
8# Synonym replacement
9augmented = replace_synonyms(text)

Trainingsstrategien

Auswahl der Hyperparameter

1training_args = TrainingArguments(
2    learning_rate=2e-4,        # Typical for LoRA
3    num_train_epochs=3,
4    per_device_train_batch_size=4,
5    gradient_accumulation_steps=4,
6    warmup_ratio=0.03,
7    lr_scheduler_type="cosine",
8    fp16=True,
9    logging_steps=10,
10    save_strategy="epoch",
11    evaluation_strategy="epoch"
12)

Learning Rate

Full fine-tuning: 1e-5 - 5e-5
LoRA: 1e-4 - 3e-4
QLoRA: 2e-4 - 5e-4

Regularisierung

1# Weight decay
2weight_decay=0.01
3
4# Dropout
5lora_dropout=0.05
6
7# Gradient clipping
8max_grad_norm=1.0

Evaluation und Validierung

Metriken

Perplexity:

PPL = exp(average cross-entropy loss)
Lower = better

BLEU/ROUGE: Qualität der Textgenerierung

Aufgabenspezifisch: Accuracy, F1, benutzerdefinierte Metriken

Erkennen von Overfitting

1Train loss ↓ + Validation loss ↑ = Overfitting
2
3Solutions:
4- Early stopping
5- More dropout
6- Data augmentation
7- Fewer epochs

Deployment

Model Merging

Zusammenführen des LoRA-Adapters mit dem Basismodell:

merged_model = model.merge_and_unload()
merged_model.save_pretrained("merged_model")

Multi-Adapter Serving

Mehrere Adapter mit einem einzigen Basismodell:

1from peft import PeftModel
2
3base_model = AutoModelForCausalLM.from_pretrained("base")
4model_a = PeftModel.from_pretrained(base_model, "adapter_a")
5model_b = PeftModel.from_pretrained(base_model, "adapter_b")

Enterprise Fine-Tuning Pipeline

1┌─────────────┐     ┌─────────────┐     ┌─────────────┐
2│ Data        │────▶│ Training    │────▶│ Evaluation  │
3│ Preparation │     │ (LoRA/QLoRA)│     │ & Testing   │
4└─────────────┘     └─────────────┘     └──────┬──────┘
5                                                │
6                    ┌─────────────┐     ┌──────▼──────┐
7                    │ Production  │◀────│ Model       │
8                    │ Deployment  │     │ Registry    │
9                    └─────────────┘     └─────────────┘

Häufige Probleme und Lösungen

1. Out of Memory

Lösung: QLoRA, Gradient Checkpointing, kleinere Batch-Größe

2. Catastrophic Forgetting

Lösung: Niedrigere Learning Rate, Replay Buffer, Elastic Weight Consolidation

3. Overfitting

Lösung: Mehr Daten, Regularisierung, Early Stopping

4. Schlechte Generalisierung

Lösung: Erhöhen der Datenvielfalt, Vielfalt der Instruktionen

Fazit

Fine-tuning ist der effektivste Weg, um vortrainierte Modelle an unternehmerische Anforderungen anzupassen. Leistungsstarke Anpassungen können selbst mit begrenzten Ressourcen mithilfe von PEFT-Methoden wie LoRA und QLoRA vorgenommen werden.

Bei Veni AI bieten wir Beratungs- und Implementierungsservices für Fine-Tuning-Projekte im Enterprise-Bereich an. Kontaktieren Sie uns für Ihre Anforderungen.