Field	Value	Source
Canonical Path	/blog/fine-tuning-transfer-learning-model-egitimi-rehberi	Veni AI Blog
Primary Category	Modelltrening	Post Metadata
Author	Veni AI Technical Team	Post Metadata

Fine-Tuning og Transfer Learning: Modelltreningsguide

Fine-tuning er prosessen med å tilpasse forhåndstrente modeller til spesifikke oppgaver eller domener. Med riktige fine-tuning-strategier kan ytelsesøkninger på opptil 40% oppnås i bedriftsrettede AI-løsninger.

Grunnleggende om Transfer Learning

Transfer learning er overføring av kunnskap lært i én oppgave til en annen oppgave.

Fordeler med Transfer Learning

Dataeffektivitet: Gode resultater med mindre data
Tidsbesparelse: Mye raskere enn trening fra bunnen av
Kostnadsreduksjon: Mindre behov for compute-ressurser
Ytelse: Utnyttelse av forhåndstrent kunnskap

Pre-training vs Fine-tuning

1Pre-training:
2- Large, general dataset (TBs)
3- Learning general language/task understanding
4- Training takes months
5- Cost in millions of dollars
6
7Fine-tuning:
8- Small, domain-specific dataset (MB-GB)
9- Specific task adaptation
10- Training takes hours-days
11- Cost in thousands of dollars

Full Fine-Tuning

Oppdatering av alle modellparametere.

Fordeler

Maksimal tilpasningskapasitet
Høyest mulig ytelse

Ulemper

Høyt minnebehov
Risiko for katastrofal glemming
Separat modellkopi for hver oppgave

Maskinvarekrav

Modellstørrelse	GPU-minne (FP32)	GPU-minne (FP16)
7B	28 GB	14 GB
13B	52 GB	26 GB
70B	280 GB	140 GB

Parameter-Efficient Fine-Tuning (PEFT)

Fine-tuning ved å oppdatere kun en liten del av parameterne.

Fordeler med PEFT

Minneeffektivitet: 90%+ reduksjon
Hastighet: Raskere trening
Modularitet: Én basemodell, flere adaptere
Katastrofal glemming: Minimert risiko

LoRA (Low-Rank Adaptation)

Den mest populære PEFT-metoden.

LoRA-teori

Oppdatering av vektmatrisen tilnærmet med lavrangsmatriser:

1W' = W + ΔW = W + BA
2
3Where:
4- W: Original weight matrix (d × k)
5- B: Low-rank matrix (d × r)
6- A: Low-rank matrix (r × k)
7- r: Rank (typical: 8-64)

Parameterbesparelser

1Original: d × k parameters
2LoRA: r × (d + k) parameters
3
4Example (d=4096, k=4096, r=16):
5Original: 16.7M parameters
6LoRA: 131K parameters
7Savings: ~127x

LoRA-konfigurasjon

1from peft import LoraConfig, get_peft_model
2
3config = LoraConfig(
4    r=16,                      # Rank
5    lora_alpha=32,             # Scaling factor
6    target_modules=[           # Which layers to apply
7        "q_proj",
8        "k_proj", 
9        "v_proj",
10        "o_proj"
11    ],
12    lora_dropout=0.05,
13    bias="none",
14    task_type="CAUSAL_LM"
15)
16
17model = get_peft_model(base_model, config)

LoRA-hyperparametere

Rank (r):

Lav (4-8): Enkle oppgaver, lite data
Medium (16-32): Generell bruk
Høy (64-128): Kompleks tilpasning

Alpha:

Generelt alpha = 2 × r

Target Modules:

Attention-lag: q_proj, k_proj, v_proj, o_proj
MLP-lag: gate_proj, up_proj, down_proj

QLoRA (Quantized LoRA)

Kombinasjon av LoRA + 4-bit kvantisering.

QLoRA-funksjoner

4-bit NormalFloat (NF4): Egendefinert kvantiseringsformat
Double Quantization: Kvantisering av kvantiseringskonstanter
Paged Optimizers: Håndtering av GPU-minneoverskridelser

QLoRA-minnesammenligning

Metode	7B-modell	70B-modell
Full FT (FP32)	28 GB	280 GB
Full FT (FP16)	14 GB	140 GB
LoRA (FP16)	12 GB	120 GB
QLoRA (4-bit)	6 GB	48 GB

QLoRA-implementering

1from transformers import BitsAndBytesConfig
2import torch
3
4bnb_config = BitsAndBytesConfig(
5    load_in_4bit=True,
6    bnb_4bit_use_double_quant=True,
7    bnb_4bit_quant_type="nf4",
8    bnb_4bit_compute_dtype=torch.bfloat16
9)
10
11model = AutoModelForCausalLM.from_pretrained(
12    "meta-llama/Llama-2-7b-hf",
13    quantization_config=bnb_config,
14    device_map="auto"
15)
16## Andre PEFT-metoder
17
18### Prefix Tuning
19
20Legger til lærbare prefikser i input-embeddingene:
21

Input: [PREFIX_1, PREFIX_2, ..., PREFIX_N, token_1, token_2, ...]

1
2### Prompt Tuning
3
4Lære myke prompts:
5

[SOFT_PROMPT] + "Actual input text"

1
2### Adapter Layers
3
4Legge til små nettverk mellom transformer-lagene:
5

Attention → Adapter → LayerNorm → FFN → Adapter → LayerNorm

1
2### (IA)³ - Infused Adapter
3
4Multiplikasjon av aktiveringer med lærte vektorer:
5

output = activation × learned_vector

1
2## Datatilberedning
3
4### Dataformater
5
6**Instruksjonsformat:**
7```json
8{
9  "instruction": "Summarize this text",
10  "input": "Long text...",
11  "output": "Summary..."
12}

Chat-format:

1{
2  "messages": [
3    {"role": "system", "content": "You are a helpful assistant"},
4    {"role": "user", "content": "Question..."},
5    {"role": "assistant", "content": "Answer..."}
6  ]
7}

Datakvalitet

Gode datakarakteristikker:

Mangfold (varierte eksempler)
Konsistens (konsistent format)
Nøyaktighet (korrekte etiketter)
Tilstrekkelig mengde (vanligvis 1K–100K eksempler)

Dataaugmentering

1# Paraphrasing
2augmented_data = paraphrase(original_data)
3
4# Back-translation
5translated = translate(text, "tr")
6back_translated = translate(translated, "en")
7
8# Synonym replacement
9augmented = replace_synonyms(text)

Treningsstrategier

Valg av hyperparametere

1training_args = TrainingArguments(
2    learning_rate=2e-4,        # Typical for LoRA
3    num_train_epochs=3,
4    per_device_train_batch_size=4,
5    gradient_accumulation_steps=4,
6    warmup_ratio=0.03,
7    lr_scheduler_type="cosine",
8    fp16=True,
9    logging_steps=10,
10    save_strategy="epoch",
11    evaluation_strategy="epoch"
12)

Læringsrate

Full finetuning: 1e-5 - 5e-5
LoRA: 1e-4 - 3e-4
QLoRA: 2e-4 - 5e-4

Regularisering

1# Weight decay
2weight_decay=0.01
3
4# Dropout
5lora_dropout=0.05
6
7# Gradient clipping
8max_grad_norm=1.0

Evaluering og validering

Metrikker

Perpleksitet:

PPL = exp(average cross-entropy loss)
Lower = better

BLEU/ROUGE: Kvalitet på tekstgenerering

Oppgavespesifikk: Nøyaktighet, F1, egendefinerte metrikker

Detektering av overfitting

1Train loss ↓ + Validation loss ↑ = Overfitting
2
3Solutions:
4- Early stopping
5- More dropout
6- Data augmentation
7- Fewer epochs

Produksjonssetting

Modellfletting

Fletting av LoRA-adapter inn i basemodellen:

merged_model = model.merge_and_unload()
merged_model.save_pretrained("merged_model")

Multi-adapter serving

Flere adaptere med én basemodell:

1from peft import PeftModel
2
3base_model = AutoModelForCausalLM.from_pretrained("base")
4model_a = PeftModel.from_pretrained(base_model, "adapter_a")
5model_b = PeftModel.from_pretrained(base_model, "adapter_b")

Enterprise Fine-Tuning Pipeline

1┌─────────────┐     ┌─────────────┐     ┌─────────────┐
2│ Data        │────▶│ Training    │────▶│ Evaluation  │
3│ Preparation │     │ (LoRA/QLoRA)│     │ & Testing   │
4└─────────────┘     └─────────────┘     └──────┬──────┘
5                                                │
6                    ┌─────────────┐     ┌──────▼──────┐
7                    │ Production  │◀────│ Model       │
8                    │ Deployment  │     │ Registry    │
9                    └─────────────┘     └─────────────┘

Vanlige problemer og løsninger

1. Out of Memory

Løsning: QLoRA, gradient checkpointing, redusert batch-størrelse

2. Catastrophic Forgetting

Løsning: Lavere læringsrate, replay buffer, elastic weight consolidation

3. Overfitting

Løsning: Mer data, regularisering, early stopping

4. Dårlig generalisering

Løsning: Økt datamangfold, instruksjonsmangfold

Konklusjon

Finjustering er den mest effektive måten å tilpasse forhåndstrente modeller til virksomheters behov. Kraftige tilpasninger kan gjøres selv med begrensede ressurser ved hjelp av PEFT-metoder som LoRA og QLoRA.

Hos Veni AI tilbyr vi rådgivnings- og implementeringstjenester for finjusteringsprosjekter i virksomheter. Kontakt oss for dine behov.