Field	Value	Source
Canonical Path	/blog/fine-tuning-transfer-learning-model-egitimi-rehberi	Veni AI Blog
Primary Category	Modeltraining	Post Metadata
Author	Veni AI Technical Team	Post Metadata

Fine-Tuning en Transfer Learning: Model Training Gids

Fine-tuning is het proces waarbij voorgetrainde modellen worden aangepast voor specifieke taken of domeinen. Met de juiste fine-tuningstrategieën kunnen prestatieverbeteringen tot wel 40% worden bereikt in enterprise AI-oplossingen.

Basisprincipes van Transfer Learning

Transfer learning is het overdragen van kennis die in de ene taak is geleerd naar een andere taak.

Voordelen van Transfer Learning

Data-efficiëntie: Goede resultaten met minder data
Tijdsbesparing: Veel sneller dan trainen vanaf nul
Kostenreductie: Minder compute-resources
Performance: Gebruikmaken van voorgetrainde kennis

Pre-training vs Fine-tuning

1Pre-training:
2- Large, general dataset (TBs)
3- Learning general language/task understanding
4- Training takes months
5- Cost in millions of dollars
6
7Fine-tuning:
8- Small, domain-specific dataset (MB-GB)
9- Specific task adaptation
10- Training takes hours-days
11- Cost in thousands of dollars

Volledige Fine-Tuning

Het updaten van alle modelparameters.

Voordelen

Maximale aanpassingscapaciteit
Hoogst mogelijke performance

Nadelen

Hoge geheugenvraag
Risico op catastrophic forgetting
Afzonderlijke modelkopie voor elke taak

Hardwarevereisten

Modelgrootte	GPU-geheugen (FP32)	GPU-geheugen (FP16)
7B	28 GB	14 GB
13B	52 GB	26 GB
70B	280 GB	140 GB

Parameter-Efficient Fine-Tuning (PEFT)

Fine-tuning door slechts een klein deel van de parameters te updaten.

Voordelen van PEFT

Geheugenefficiëntie: 90%+ reductie
Snelheid: Sneller trainen
Modulariteit: Eén basismodel, meerdere adapters
Catastrophic Forgetting: Geminimaliseerd risico

LoRA (Low-Rank Adaptation)

De meest populaire PEFT-methode.

LoRA Theorie

Het updaten van de gewichtsmatrix bij benadering met low-rank matrices:

1W' = W + ΔW = W + BA
2
3Where:
4- W: Original weight matrix (d × k)
5- B: Low-rank matrix (d × r)
6- A: Low-rank matrix (r × k)
7- r: Rank (typical: 8-64)

Parameterbesparing

1Original: d × k parameters
2LoRA: r × (d + k) parameters
3
4Example (d=4096, k=4096, r=16):
5Original: 16.7M parameters
6LoRA: 131K parameters
7Savings: ~127x

LoRA Configuratie

1from peft import LoraConfig, get_peft_model
2
3config = LoraConfig(
4    r=16,                      # Rank
5    lora_alpha=32,             # Scaling factor
6    target_modules=[           # Which layers to apply
7        "q_proj",
8        "k_proj", 
9        "v_proj",
10        "o_proj"
11    ],
12    lora_dropout=0.05,
13    bias="none",
14    task_type="CAUSAL_LM"
15)
16
17model = get_peft_model(base_model, config)

LoRA Hyperparameters

Rank (r):

Laag (4-8): Eenvoudige taken, weinig data
Midden (16-32): Algemeen gebruik
Hoog (64-128): Complexe aanpassing

Alpha:

Over het algemeen alpha = 2 × r

Target Modules:

Attention-lagen: q_proj, k_proj, v_proj, o_proj
MLP-lagen: gate_proj, up_proj, down_proj

QLoRA (Quantized LoRA)

Combinatie van LoRA + 4-bit quantization.

QLoRA Kenmerken

4-bit NormalFloat (NF4): Aangepast quantization-formaat
Double Quantization: Het quantizen van quantization-constanten
Paged Optimizers: Beheer van GPU-geheugenovertredingen

QLoRA Geheugenvergelijking

Methode	7B Model	70B Model
Full FT (FP32)	28 GB	280 GB
Full FT (FP16)	14 GB	140 GB
LoRA (FP16)	12 GB	120 GB
QLoRA (4-bit)	6 GB	48 GB

QLoRA Implementatie

1from transformers import BitsAndBytesConfig
2import torch
3
4bnb_config = BitsAndBytesConfig(
5    load_in_4bit=True,
6    bnb_4bit_use_double_quant=True,
7    bnb_4bit_quant_type="nf4",
8    bnb_4bit_compute_dtype=torch.bfloat16
9)
10
11model = AutoModelForCausalLM.from_pretrained(
12    "meta-llama/Llama-2-7b-hf",
13    quantization_config=bnb_config,
14    device_map="auto"
15)
16## Andere PEFT-methoden
17
18### Prefix Tuning
19
20Voegt leerbare prefixen toe aan input embeddings:
21

Input: [PREFIX_1, PREFIX_2, ..., PREFIX_N, token_1, token_2, ...]

1
2### Prompt Tuning
3
4Leren van soft prompts:
5

[SOFT_PROMPT] + "Actual input text"

1
2### Adapter Layers
3
4Kleine netwerken toevoegen tussen transformerlagen:
5

Attention → Adapter → LayerNorm → FFN → Adapter → LayerNorm

1
2### (IA)³ - Infused Adapter
3
4Activaties vermenigvuldigen met geleerde vectoren:
5

output = activation × learned_vector

1
2## Datavoorbereiding
3
4### Dataformaten
5
6**Instructieformaat:**
7```json
8{
9  "instruction": "Summarize this text",
10  "input": "Long text...",
11  "output": "Summary..."
12}

Chatformaat:

1{
2  "messages": [
3    {"role": "system", "content": "You are a helpful assistant"},
4    {"role": "user", "content": "Question..."},
5    {"role": "assistant", "content": "Answer..."}
6  ]
7}

Datakwaliteit

Eigenschappen van goede data:

Diversiteit (diverse voorbeelden)
Consistentie (consistent formaat)
Nauwkeurigheid (accurate labels)
Voldoende hoeveelheid (meestal 1K-100K voorbeelden)

Data-augmentatie

1# Paraphrasing
2augmented_data = paraphrase(original_data)
3
4# Back-translation
5translated = translate(text, "tr")
6back_translated = translate(translated, "en")
7
8# Synonym replacement
9augmented = replace_synonyms(text)

Trainingsstrategieën

Hyperparameterselectie

1training_args = TrainingArguments(
2    learning_rate=2e-4,        # Typical for LoRA
3    num_train_epochs=3,
4    per_device_train_batch_size=4,
5    gradient_accumulation_steps=4,
6    warmup_ratio=0.03,
7    lr_scheduler_type="cosine",
8    fp16=True,
9    logging_steps=10,
10    save_strategy="epoch",
11    evaluation_strategy="epoch"
12)

Learning Rate

Volledige fine-tuning: 1e-5 - 5e-5
LoRA: 1e-4 - 3e-4
QLoRA: 2e-4 - 5e-4

Regularisatie

1# Weight decay
2weight_decay=0.01
3
4# Dropout
5lora_dropout=0.05
6
7# Gradient clipping
8max_grad_norm=1.0

Evaluatie en Validatie

Metrieken

Perplexity:

PPL = exp(average cross-entropy loss)
Lower = better

BLEU/ROUGE: Kwaliteit van tekstgeneratie

Taak-specifiek: Accuracy, F1, aangepaste metrieken

Overfitting detecteren

1Train loss ↓ + Validation loss ↑ = Overfitting
2
3Solutions:
4- Early stopping
5- More dropout
6- Data augmentation
7- Fewer epochs

Deployment

Model Merging

LoRA-adapter samenvoegen met basismodel:

merged_model = model.merge_and_unload()
merged_model.save_pretrained("merged_model")

Multi-Adapter Serving

Meerdere adapters met één basismodel:

1from peft import PeftModel
2
3base_model = AutoModelForCausalLM.from_pretrained("base")
4model_a = PeftModel.from_pretrained(base_model, "adapter_a")
5model_b = PeftModel.from_pretrained(base_model, "adapter_b")

Enterprise Fine-Tuning Pipeline

1┌─────────────┐     ┌─────────────┐     ┌─────────────┐
2│ Data        │────▶│ Training    │────▶│ Evaluation  │
3│ Preparation │     │ (LoRA/QLoRA)│     │ & Testing   │
4└─────────────┘     └─────────────┘     └──────┬──────┘
5                                                │
6                    ┌─────────────┐     ┌──────▼──────┐
7                    │ Production  │◀────│ Model       │
8                    │ Deployment  │     │ Registry    │
9                    └─────────────┘     └─────────────┘

Veelvoorkomende problemen en oplossingen

1. Out of Memory

Oplossing: QLoRA, gradient checkpointing, batch size verlagen

2. Catastrophic Forgetting

Oplossing: Lagere learning rate, replay buffer, elastic weight consolidation

3. Overfitting

Oplossing: Meer data, regularisatie, early stopping

4. Slechte generalisatie

Oplossing: Meer datadiversiteit, instructiediversiteit

Conclusie

Fine-tuning is de meest effectieve manier om voorgetrainde modellen aan te passen aan de behoeften van bedrijven. Krachtige aanpassingen kunnen worden gemaakt, zelfs met beperkte middelen, met behulp van PEFT-methoden zoals LoRA en QLoRA.

Bij Veni AI bieden we consultancy- en implementatiediensten voor fine-tuningprojecten op ondernemingsniveau. Neem contact met ons op voor uw behoeften.