Field	Value	Source
Canonical Path	/blog/tokenization-nlp-temelleri-bpe-sentencepiece	Veni AI Blog
Primary Category	Naturlig språkprosessering	Post Metadata
Author	Veni AI Technical Team	Post Metadata

Tokenisering og grunnleggende NLP: BPE, SentencePiece og WordPiece

Tokenisering er prosessen med å dele tekst opp i underenheter (tokens) som kan behandles av en modell. Denne prosessen, som utgjør grunnlaget for moderne LLM-er, påvirker modellens ytelse direkte.

Hva er tokenisering?

Tokenisering er det første trinnet i å konvertere råtekst til numeriske representasjoner:

"Hello world!" → ["Hello", "world", "!"] → [1234, 5678, 99]

Tokeniseringsnivåer

Tegnnivå: Hvert tegn er en token.
Ordnivå: Hvert ord er en token.
Subordnivå: Ord deles opp i mindre underenheter (moderne tilnærming).

Ordnivå-tokenisering

Enkel tilnærming

1def word_tokenize(text):
2    return text.split()
3
4# Example
5text = "Artificial intelligence is shaping the future"
6tokens = word_tokenize(text)
7# ['Artificial', 'intelligence', 'is', 'shaping', 'the', 'future']

Problemer

OOV (Out of Vocabulary): Møte ord som ikke ble sett under trening.
Stor vokabularstørrelse: Ineffektivt å håndtere hundretusenvis av ord.
Morfologisk rikdom: I språk som tyrkisk er antallet ordvariasjoner på grunn av endelser enormt.
Sammensatte ord: Vanskelig å avgjøre om "Artificial intelligence" bør være ett begrep eller to.

Tegnnivå-tokenisering

1def char_tokenize(text):
2    return list(text)
3
4# Example
5text = "Hello"
6tokens = char_tokenize(text)
7# ['H', 'e', 'l', 'l', 'o']

Fordeler

Ingen OOV-problem.
Lite vokabular (~100 tegn).

Ulemper

Resultatsekvensene blir svært lange.
Tap av kontekstuell mening på token-nivå.
Høyere beregningskostnad for modellen.

Subord-tokenisering

Valget for moderne LLM-er: En balanse mellom ord- og tegnnivå.

"tokenization" → ["token", "ization"]
"unhappiness" → ["un", "happiness"] or ["un", "happy", "ness"]

BPE (Byte Pair Encoding)

Den mest utbredte algoritmen for subord-tokenisering.

BPE-algoritme

Del teksten opp i individuelle tegn.
Finn det hyppigste paret av nabotegn.
Slå dette paret sammen til en ny enkelt token.
Gjenta prosessen til ønsket vokabularstørrelse er nådd.

BPE-eksempel

1Starting vocabulary: ['l', 'o', 'w', 'e', 'r', 'n', 's', 't', 'i', 'd']
2Corpus: "low lower newest lowest widest"
3
4Step 1: Most frequent pair 'e' + 's' → 'es'
5Step 2: Most frequent pair 'es' + 't' → 'est'
6Step 3: Most frequent pair 'l' + 'o' → 'lo'
7Step 4: Most frequent pair 'lo' + 'w' → 'low'
8...
9
10Final Result: ['low', 'est', 'er', 'new', 'wid', ...]

BPE-implementasjon

1def get_stats(vocab):
2    pairs = {}
3    for word, freq in vocab.items():
4        symbols = word.split()
5        for i in range(len(symbols) - 1):
6            pair = (symbols[i], symbols[i + 1])
7            pairs[pair] = pairs.get(pair, 0) + freq
8    return pairs
9
10def merge_vocab(pair, vocab):
11    new_vocab = {}
12    bigram = ' '.join(pair)
13    replacement = ''.join(pair)
14    for word in vocab:
15        new_word = word.replace(bigram, replacement)
16        new_vocab[new_word] = vocab[word]
17    return new_vocab
18
19def train_bpe(corpus, num_merges):
20    vocab = get_initial_vocab(corpus)
21    
22    for i in range(num_merges):
23        pairs = get_stats(vocab)
24        if not pairs:
25            break
26        best_pair = max(pairs, key=pairs.get)
27        vocab = merge_vocab(best_pair, vocab)
28    
29    return vocab

WordPiece

En algoritme utviklet av Google og brukt i modeller som BERT.

BPE vs WordPiece

Feature	BPE	WordPiece
Merge Criterion	Frequency	Likelihood
Prefix	None	## (for mid-word tokens)
Used In	GPT, LLaMA	BERT, DistilBERT

WordPiece-eksempel

1"tokenization" → ["token", "##ization"]
2"playing" → ["play", "##ing"]
3## SentencePiece
4
5En språkagnostisk tokenizer også utviklet av Google.
6
7### Features
8
9- **Språkuavhengig:** Antar ikke at mellomrom er en ordseparator.
10- **Byte-nivå:** Opererer direkte på råtekst.
11- **BPE + Unigram:** Støtter flere algoritmer.
12- **Reversibel:** Perfekt detokenisering er mulig.
13
14### SentencePiece Usage
15
16```python
17import sentencepiece as spm
18
19# Training the model
20spm.SentencePieceTrainer.train(
21    input='corpus.txt',
22    model_prefix='tokenizer',
23    vocab_size=32000,
24    model_type='bpe'  # or 'unigram'
25)
26
27# Loading and using the model
28sp = spm.SentencePieceProcessor()
29sp.load('tokenizer.model')
30
31# Encode
32tokens = sp.encode('Hello world', out_type=str)
33# ['▁Hello', '▁world']
34
35ids = sp.encode('Hello world', out_type=int)
36# [1234, 5678, 9012]
37
38# Decode
39text = sp.decode(ids)
40# 'Hello world'

▁ (Underscore) Symbol

SentencePiece markerer starten på ord med ▁:

"Hello world" → ["▁Hello", "▁world"]
"New York" → ["▁New", "▁York"]

Tiktoken (OpenAI)

Den spesialiserte BPE-implementasjonen brukt av OpenAI.

1import tiktoken
2
3# Loading the encoder
4enc = tiktoken.encoding_for_model("gpt-4")
5
6# Encode
7tokens = enc.encode("Hello world!")
8# [12345, 67890, 999]
9
10# Decode
11text = enc.decode(tokens)
12# "Hello world!"
13
14# Check token count
15print(len(tokens))  # 3

Model-Encoder Mappings

Model	Encoder	Vocab Size
GPT-4	cl100k_base	100,277
GPT-3.5	cl100k_base	100,277
GPT-3	p50k_base	50,281
Codex	p50k_edit	50,281

Hugging Face Tokenizers

1from transformers import AutoTokenizer
2
3# Loading the tokenizer
4tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
5
6# Encode
7encoded = tokenizer("Hello, world!", return_tensors="pt")
8# {
9#   'input_ids': tensor([[101, 7592, 1010, 2088, 999, 102]]),
10#   'attention_mask': tensor([[1, 1, 1, 1, 1, 1]])
11# }
12
13# Decode
14text = tokenizer.decode(encoded['input_ids'][0])
15# "[CLS] hello, world! [SEP]"
16
17# Token List
18tokens = tokenizer.tokenize("Hello, world!")
19# ['hello', ',', 'world', '!']

Fast Tokenizers

1from tokenizers import Tokenizer, models, trainers, pre_tokenizers
2
3# Creating a new tokenizer
4tokenizer = Tokenizer(models.BPE())
5tokenizer.pre_tokenizer = pre_tokenizers.Whitespace()
6
7trainer = trainers.BpeTrainer(
8    vocab_size=30000,
9    special_tokens=["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"]
10)
11
12tokenizer.train(files=["corpus.txt"], trainer=trainer)
13tokenizer.save("my_tokenizer.json")

Special Tokens

Common Special Tokens

Token	Description	Use Case
[CLS]	Start av sekvens	BERT klassifiseringsoppgaver
[SEP]	Segmentseparator	Separere setningspar
[PAD]	Padding	Justering ved batch-prosessering
[UNK]	Ukjent token	Håndtering av ord utenfor vokabularet
[MASK]	Maskering	Masked Language Modeling (MLM)
<\|endoftext\|>	Slutt på sekvens	GPT generative oppgaver

Chat Tokens

1<|system|>You are a helpful assistant<|end|>
2<|user|>Hello!<|end|>
3<|assistant|>Hello! How can I help you today?<|end|>

Tokenization Challenges in Turkish

Morphological Richness

1"gelebileceklermiş" (they were said to be able to come) → A single word but complex structure
2gel (come) + ebil (can) + ecek (will) + ler (they) + miş (reportedly)
3
4Tokenization:
5- Poor: ["gelebileceklermiş"] (Single token, very rare)
6- Good: ["gel", "ebil", "ecek", "ler", "miş"]

Solutions

Tyrkisk-optimalisert tokenizer-trening.
Integrasjon av morfologisk analyse.
Suffiks-bevisst BPE-applikasjon.

Tokenbegrensninger og -håndtering

Konstekstvindu

Modell	Kontekstlengde (Tokens)	~Antall ord
GPT-3.5	16K	~12 000
GPT-4	128K	~96 000
Claude 3	200K	~150 000

Estimering av token-antall

1def estimate_tokens(text):
2    # Rough estimate: 1 token ≈ 4 characters (English)
3    # For Turkish: 1 token ≈ 3 characters
4    return len(text) // 3
5
6# More accurate calculation
7def count_tokens(text, model="gpt-4"):
8    enc = tiktoken.encoding_for_model(model)
9    return len(enc.encode(text))

Konklusjon

Tokenisering er den grunnleggende byggesteinen i NLP og LLM-er. Subword-metoder som BPE, WordPiece og SentencePiece spiller en avgjørende rolle for suksessen til moderne språkmodeller. Å velge og konfigurere riktig tokeniseringsmetode påvirker direkte den endelige ytelsen til modellen.

Hos Veni AI tilbyr vi tokeniseringsstrategier som er spesialisert for tyrkiske NLP-løsninger.

Tokenisering og grunnleggende NLP: BPE, SentencePiece og WordPiece

Reference Overview

Tokenisering og grunnleggende NLP: BPE, SentencePiece og WordPiece

Hva er tokenisering?

Tokeniseringsnivåer

Ordnivå-tokenisering

Enkel tilnærming

Problemer

Tegnnivå-tokenisering

Fordeler

Ulemper

Subord-tokenisering

BPE (Byte Pair Encoding)

BPE-algoritme

BPE-eksempel

BPE-implementasjon

WordPiece

BPE vs WordPiece

WordPiece-eksempel

▁ (Underscore) Symbol

Tiktoken (OpenAI)

Model-Encoder Mappings

Hugging Face Tokenizers

Fast Tokenizers

Special Tokens

Common Special Tokens

Chat Tokens

Tokenization Challenges in Turkish

Morphological Richness

Solutions

Tokenbegrensninger og -håndtering

Konstekstvindu

Estimering av token-antall

Konklusjon

İlgili Makaleler

Hva er OpenClaw? Den selvhostede agentinfrastrukturen som tar KI utover chatboter

Enterprise AI-agentstandarder: Operasjonelle mønstre som vokser frem tidlig i 2026

Styring av virksomhets-AI: Modellregister og evalueringsstandarder

Tokenisering og grunnleggende NLP: BPE, SentencePiece og WordPiece

Hva er tokenisering?

Tokeniseringsnivåer

Ord­nivå-tokenisering

Enkel tilnærming

Problemer

Tegnnivå-tokenisering

Fordeler

Ulemper

Subord-tokenisering

BPE (Byte Pair Encoding)

BPE-algoritme

BPE-eksempel

BPE-implementasjon

WordPiece

BPE vs WordPiece

WordPiece-eksempel

▁ (Underscore) Symbol

Tiktoken (OpenAI)

Model-Encoder Mappings

Hugging Face Tokenizers

Fast Tokenizers

Special Tokens

Common Special Tokens

Chat Tokens

Tokenization Challenges in Turkish

Morphological Richness

Solutions

Tokenbegrensninger og -håndtering

Konstekstvindu

Estimering av token-antall

Konklusjon

İlgili Makaleler

Hva er OpenClaw? Den selvhostede agentinfrastrukturen som tar KI utover chatboter

Enterprise AI-agentstandarder: Operasjonelle mønstre som vokser frem tidlig i 2026

Styring av virksomhets-AI: Modellregister og evalueringsstandarder

Ordnivå-tokenisering