Field	Value	Source
Canonical Path	/blog/fine-tuning-transfer-learning-model-egitimi-rehberi	Veni AI Blog
Primary Category	Treinamento de Modelos	Post Metadata
Author	Veni AI Technical Team	Post Metadata

Fine-Tuning e Transfer Learning: Guia de Treinamento de Modelos

Fine-tuning é o processo de customizar modelos pré-treinados para tarefas ou domínios específicos. Com as estratégias corretas de fine-tuning, aumentos de desempenho de até 40% podem ser alcançados em soluções de IA corporativa.

Fundamentos de Transfer Learning

Transfer learning é a transferência de conhecimento aprendido em uma tarefa para outra tarefa.

Vantagens de Transfer Learning

Eficiência de Dados: Bons resultados com menos dados
Economia de Tempo: Muito mais rápido do que treinar do zero
Redução de Custos: Menos recursos computacionais
Desempenho: Aproveitamento do conhecimento pré-treinado

Pré-treinamento vs Fine-tuning

1Pre-training:
2- Large, general dataset (TBs)
3- Learning general language/task understanding
4- Training takes months
5- Cost in millions of dollars
6
7Fine-tuning:
8- Small, domain-specific dataset (MB-GB)
9- Specific task adaptation
10- Training takes hours-days
11- Cost in thousands of dollars

Full Fine-Tuning

Atualização de todos os parâmetros do modelo.

Vantagens

Máxima capacidade de adaptação
Maior potencial de desempenho

Desvantagens

Alta exigência de memória
Risco de esquecimento catastrófico
Cópia separada do modelo para cada tarefa

Requisitos de Hardware

Model Size	GPU Memory (FP32)	GPU Memory (FP16)
7B	28 GB	14 GB
13B	52 GB	26 GB
70B	280 GB	140 GB

Parameter-Efficient Fine-Tuning (PEFT)

Fine-tuning atualizando apenas uma pequena parte dos parâmetros.

Vantagens do PEFT

Eficiência de Memória: Redução de 90%+
Velocidade: Treinamento mais rápido
Modularidade: Um único modelo base, múltiplos adapters
Esquecimento Catastrófico: Risco minimizado

LoRA (Low-Rank Adaptation)

O método PEFT mais popular.

Teoria do LoRA

Atualização aproximada da matriz de pesos com matrizes de baixo rank:

1W' = W + ΔW = W + BA
2
3Where:
4- W: Original weight matrix (d × k)
5- B: Low-rank matrix (d × r)
6- A: Low-rank matrix (r × k)
7- r: Rank (typical: 8-64)

Economia de Parâmetros

1Original: d × k parameters
2LoRA: r × (d + k) parameters
3
4Example (d=4096, k=4096, r=16):
5Original: 16.7M parameters
6LoRA: 131K parameters
7Savings: ~127x

Configuração LoRA

1from peft import LoraConfig, get_peft_model
2
3config = LoraConfig(
4    r=16,                      # Rank
5    lora_alpha=32,             # Scaling factor
6    target_modules=[           # Which layers to apply
7        "q_proj",
8        "k_proj", 
9        "v_proj",
10        "o_proj"
11    ],
12    lora_dropout=0.05,
13    bias="none",
14    task_type="CAUSAL_LM"
15)
16
17model = get_peft_model(base_model, config)

Hiperparâmetros do LoRA

Rank (r):

Baixo (4-8): Tarefas simples, poucos dados
Médio (16-32): Uso geral
Alto (64-128): Adaptação complexa

Alpha:

Geralmente alpha = 2 × r

Target Modules:

Camadas de atenção: q_proj, k_proj, v_proj, o_proj
Camadas MLP: gate_proj, up_proj, down_proj

QLoRA (Quantized LoRA)

Combinação de LoRA + quantização de 4 bits.

Recursos do QLoRA

4-bit NormalFloat (NF4): Formato de quantização customizado
Double Quantization: Quantização das constantes de quantização
Paged Optimizers: Gerenciamento de estouro de memória da GPU

Comparação de Memória QLoRA

Method	7B Model	70B Model
Full FT (FP32)	28 GB	280 GB
Full FT (FP16)	14 GB	140 GB
LoRA (FP16)	12 GB	120 GB
QLoRA (4-bit)	6 GB	48 GB

Implementação QLoRA

1from transformers import BitsAndBytesConfig
2import torch
3
4bnb_config = BitsAndBytesConfig(
5    load_in_4bit=True,
6    bnb_4bit_use_double_quant=True,
7    bnb_4bit_quant_type="nf4",
8    bnb_4bit_compute_dtype=torch.bfloat16
9)
10
11model = AutoModelForCausalLM.from_pretrained(
12    "meta-llama/Llama-2-7b-hf",
13    quantization_config=bnb_config,
14    device_map="auto"
15)
16## Outros Métodos PEFT
17
18### Prefix Tuning
19
20Adiciona prefixes treináveis às embeddings de entrada:
21

Input: [PREFIX_1, PREFIX_2, ..., PREFIX_N, token_1, token_2, ...]

1
2### Prompt Tuning
3
4Aprendizado de *soft prompts*:
5

[SOFT_PROMPT] + "Actual input text"

1
2### Adapter Layers
3
4Adicionando pequenas redes entre camadas do transformer:
5

Attention → Adapter → LayerNorm → FFN → Adapter → LayerNorm

1
2### (IA)³ - Infused Adapter
3
4Multiplicando ativações com vetores aprendidos:
5

output = activation × learned_vector

1
2## Preparação de Dados
3
4### Formatos de Dados
5
6**Formato de Instrução:**
7```json
8{
9  "instruction": "Summarize this text",
10  "input": "Long text...",
11  "output": "Summary..."
12}

Formato de Chat:

1{
2  "messages": [
3    {"role": "system", "content": "You are a helpful assistant"},
4    {"role": "user", "content": "Question..."},
5    {"role": "assistant", "content": "Answer..."}
6  ]
7}

Qualidade dos Dados

Características de Bons Dados:

Diversidade (exemplos variados)
Consistência (formato consistente)
Precisão (rótulos corretos)
Quantidade suficiente (geralmente 1K-100K exemplos)

Aumentação de Dados

1# Paraphrasing
2augmented_data = paraphrase(original_data)
3
4# Back-translation
5translated = translate(text, "tr")
6back_translated = translate(translated, "en")
7
8# Synonym replacement
9augmented = replace_synonyms(text)

Estratégias de Treinamento

Seleção de Hiperparâmetros

1training_args = TrainingArguments(
2    learning_rate=2e-4,        # Typical for LoRA
3    num_train_epochs=3,
4    per_device_train_batch_size=4,
5    gradient_accumulation_steps=4,
6    warmup_ratio=0.03,
7    lr_scheduler_type="cosine",
8    fp16=True,
9    logging_steps=10,
10    save_strategy="epoch",
11    evaluation_strategy="epoch"
12)

Taxa de Aprendizado

Full fine-tuning: 1e-5 - 5e-5
LoRA: 1e-4 - 3e-4
QLoRA: 2e-4 - 5e-4

Regularização

1# Weight decay
2weight_decay=0.01
3
4# Dropout
5lora_dropout=0.05
6
7# Gradient clipping
8max_grad_norm=1.0

Avaliação e Validação

Métricas

Perplexidade:

PPL = exp(average cross-entropy loss)
Lower = better

BLEU/ROUGE: Qualidade de geração de texto

Específicas da tarefa: Acurácia, F1, métricas personalizadas

Detectando Overfitting

1Train loss ↓ + Validation loss ↑ = Overfitting
2
3Solutions:
4- Early stopping
5- More dropout
6- Data augmentation
7- Fewer epochs

Deploy

Mesclagem de Modelo

Mesclando o adaptador LoRA ao modelo base:

merged_model = model.merge_and_unload()
merged_model.save_pretrained("merged_model")

Servindo Múltiplos Adaptadores

Vários adaptadores com um único modelo base:

1from peft import PeftModel
2
3base_model = AutoModelForCausalLM.from_pretrained("base")
4model_a = PeftModel.from_pretrained(base_model, "adapter_a")
5model_b = PeftModel.from_pretrained(base_model, "adapter_b")

Pipeline de Fine-Tuning Empresarial

1┌─────────────┐     ┌─────────────┐     ┌─────────────┐
2│ Data        │────▶│ Training    │────▶│ Evaluation  │
3│ Preparation │     │ (LoRA/QLoRA)│     │ & Testing   │
4└─────────────┘     └─────────────┘     └──────┬──────┘
5                                                │
6                    ┌─────────────┐     ┌──────▼──────┐
7                    │ Production  │◀────│ Model       │
8                    │ Deployment  │     │ Registry    │
9                    └─────────────┘     └─────────────┘

Problemas Comuns e Soluções

1. Falta de Memória

Solução: QLoRA, gradient checkpointing, redução do batch size

2. Esquecimento Catastrófico

Solução: Taxa de aprendizado menor, replay buffer, elastic weight consolidation

3. Overfitting

Solução: Mais dados, regularização, early stopping

4. Generalização Fraca

Solução: Aumentar a diversidade dos dados e das instruções

Conclusão

O fine-tuning é a forma mais eficaz de adaptar modelos pré-treinados às necessidades corporativas. Customizações poderosas podem ser feitas mesmo com recursos limitados usando métodos de PEFT como LoRA e QLoRA.

Na Veni AI, fornecemos serviços de consultoria e implementação para projetos corporativos de fine-tuning. Entre em contato conosco para suas necessidades.