Field	Value	Source
Canonical Path	/blog/multimodal-ai-sistemleri-goruntu-metin-ses-analizi	Veni AI Blog
Primary Category	Artificiell intelligens	Post Metadata
Author	Veni AI Technical Team	Post Metadata

Multimodala AI-system: Bild-, Text- och Ljudanalys

Multimodal AI är artificiella intelligenssystem som kan förstå och bearbeta flera datatyper (text, bild, ljud, video). Modeller som GPTV, Gemini och Claude 3 har banat väg för nya framsteg inom detta område.

Grundläggande om multimodal AI

Typer av modaliteter

Text: Naturligt språk, kod, strukturerad data
Vision: Foto, diagram, skärmdump
Audio: Tal, musik, omgivningsljud
Video: Kombination av rörlig bild + ljud

Varför multimodal?

Mänsklig kommunikation är i grunden multimodal
Kontextinformation går förlorad med en enda modalitet
Rikare meningsutvinning
Lämplighet för applikationer i verkliga miljöer

Vision-Language-modeller

Arkitekturella tillvägagångssätt

1. Kontrastiv inlärning (CLIP-stil)

1Image Encoder → Image Embedding
2Text Encoder → Text Embedding
3Contrastive Loss: Match(image, text)

2. Generativ (GPTV-stil)

Image → Vision Encoder → Visual Tokens
Visual Tokens + Text Tokens → LLM → Response

3. Cross-Attention-fusion

Image Features ←Cross-Attention→ Text Features

Typer av vision-encoder

Encoder	Arkitektur	Upplösning	Egenskap
ViT	Transformer	224-1024	Patch-baserad
CLIP ViT	Transformer	336	Kontrastiv
SigLIP	Transformer	384	Sigmoid-förlust
ConvNeXt	CNN	Flexibel	Effektiv

Bildtokenisering

Patch-embedding:

224×224 image → 14×14 patch grid → 196 visual tokens
Each patch: 16×16 pixel → Linear projection → Embedding

Variabel upplösning:

1Anyres approach:
21. Divide image into tiles
32. Encode each tile separately
43. Add global thumbnail
54. Concatenate all tokens

Implementering av multimodala LLM:er

GPTV-användning

1from openai import OpenAI
2import base64
3
4client = OpenAI()
5
6def encode_image(image_path):
7    with open(image_path, "rb") as f:
8        return base64.b64encode(f.read()).decode('utf-8')
9
10response = client.chat.completions.create(
11    model="gpt-4-vision-preview",
12    messages=[
13        {
14            "role": "user",
15            "content": [
16                {"type": "text", "text": "Analyze this image"},
17                {
18                    "type": "image_url",
19                    "image_url": {
20                        "url": f"data:image/jpeg;base64,{encode_image('image.webp')}",
21                        "detail": "high"  # low, high, auto
22                    }
23                }
24            ]
25        }
26    ],
27    max_tokens=1000
28)

Claude 3 Vision

1from anthropic import Anthropic
2import base64
3
4client = Anthropic()
5
6with open("image.webp", "rb") as f:
7    image_data = base64.standard_b64encode(f.read()).decode("utf-8")
8
9message = client.messages.create(
10    model="claude-3-opus-20240229",
11    max_tokens=1024,
12    messages=[
13        {
14            "role": "user",
15            "content": [
16                {
17                    "type": "image",
18                    "source": {
19                        "type": "base64",
20                        "media_type": "image/jpeg",
21                        "data": image_data
22                    }
23                },
24                {"type": "text", "text": "What is in this image?"}
25            ]
26        }
27    ]
28)
29## Ljudbearbetning
30
31### Tal-till-text (STT)
32
33**Whisper-modell:**
34```python
35from openai import OpenAI
36
37client = OpenAI()
38
39with open("audio.mp3", "rb") as audio_file:
40    transcript = client.audio.transcriptions.create(
41        model="whisper-1",
42        file=audio_file,
43        language="en"
44    )
45    
46print(transcript.text)

Text-till-tal (TTS)

1response = client.audio.speech.create(
2    model="tts-1-hd",
3    voice="alloy",  # alloy, echo, fable, onyx, nova, shimmer
4    input="Hello, I am an AI assistant."
5)
6
7response.stream_to_file("output.mp3")

Realtidsljudpipeline

1Mikrofon → VAD → Segmentering → STT → LLM → TTS → Högtalare
2             ↓
3        Voice Activity
4            Detection

Videoförståelse

Strategier för bildruteprovtagning

1. Enhetlig provtagning:

1def uniform_sample(video_path, num_frames=8):
2    cap = cv2.VideoCapture(video_path)
3    total_frames = int(cap.get(cv2.CAP_PROP_FRAME_COUNT))
4    indices = np.linspace(0, total_frames-1, num_frames, dtype=int)
5    
6    frames = []
7    for idx in indices:
8        cap.set(cv2.CAP_PROP_POS_FRAMES, idx)
9        ret, frame = cap.read()
10        if ret:
11            frames.append(frame)
12    
13    return frames

2. Nyckelbildrutsextraktion:

1def extract_keyframes(video_path, threshold=30):
2    # Finding keyframes with Scene change detection
3    pass

Video-LLM-pipeline

1Video → Bildruteprovtagning → Per-ruta-kodning → Temporal aggregering → LLM
2                                   ↓
3                           Ljudextraktion → STT → Text

Modalitetssammanslagning

Tidig sammanslagning

Kombinera modaliteter vid modellens indata:

[CLS] [IMG_1] ... [IMG_N] [SEP] [TXT_1] ... [TXT_M] [SEP]

Sen sammanslagning

Bearbeta varje modalitet separat och kombinera resultaten:

1Bild → Bildmodell → Bildfunktioner ─┐
2                                     ├→ Sammanslagningslager → Utdata
3Text → Textmodell → Textfunktioner ──┘

Korsmodal uppmärksamhet

Uppmärksamhet mellan modaliteter:

1Q = Text Features
2K, V = Image Features
3Cross_Attention(Q, K, V) = softmax(QK^T/√d)V

OCR och dokumentförståelse

Dokument-AI-pipeline

1def process_document(image_path):
2    # 1. Layout Detection
3    layout = detect_layout(image)  # Headings, paragraphs, tables
4    
5    # 2. OCR
6    text_regions = ocr_extract(image)
7    
8    # 3. Structure Understanding
9    structured_doc = parse_structure(layout, text_regions)
10    
11    # 4. LLM Analysis
12    analysis = llm_analyze(structured_doc)
13    
14    return analysis

Tabellextraktion

1response = client.chat.completions.create(
2    model="gpt-4-vision-preview",
3    messages=[{
4        "role": "user",
5        "content": [
6            {"type": "image_url", "image_url": {"url": table_image_url}},
7            {"type": "text", "text": "Extract this table in JSON format"}
8        ]
9    }]
10)

Företagsapplikationer för multimodalitet

1. Dokumentbearbetning

Faktura/kvitto-OCR
Kontraktsanalys
Formulärdataextraktion

2. Visuell sökning

Sökning från produktbild
Hitta liknande bilder
Visuell frågor och svar

3. Innehållsmoderering

Upptäckt av olämpliga bilder
Kontroll av varumärkeslogotyp
Konsistens mellan text och bild

4. Kundsupport

Skärmbildsanalys
Visuell felsökning
Röstsupport

Prestandaoptimering

Bildförbearbetning

1def optimize_image(image_path, max_size=1024, quality=85):
2    img = Image.open(image_path)
3    
4    # Resize
5    if max(img.size) > max_size:
6        ratio = max_size / max(img.size)
7        new_size = tuple(int(d * ratio) for d in img.size)
8        img = img.resize(new_size, Image.LANCZOS)
9    
10    # Compress
11    buffer = io.BytesIO()
12    img.save(buffer, format="JPEG", quality=quality)
13    
14    return buffer.getvalue()

Batchbearbetning

1async def batch_image_analysis(images, batch_size=5):
2    results = []
3    for i in range(0, len(images), batch_size):
4        batch = images[i:i+batch_size]
5        tasks = [analyze_image(img) for img in batch]
6        batch_results = await asyncio.gather(*tasks)
7        results.extend(batch_results)
8    return results

Kostnadshantering

Tokenberäkning (Vision)

1GPTV Token Cost:
2- Low detail: 85 token/image
3- High detail: 85 + 170 × tile_count
4
5Example (2048×1024, high):
6Tiles: ceil(2048/512) × ceil(1024/512) = 4 × 2 = 8
7Tokens: 85 + 170 × 8 = 1445 tokens

Optimeringsstrategier

Justera detaljnivå: Använd inte "high" om det inte är nödvändigt
Minska bildstorlek: Minskar antal tokens
Caching: Återanalysera inte samma bild
Batchoperationer: Minskar antalet API‑anrop

Slutsats

Multimodal AI är det närmaste ett människoliknande förståelsekapacitet som artificiell intelligens har uppnått. Kombinationen av bild-, text- och ljudmodaliteter gör det möjligt att skapa mer kraftfulla och användbara AI‑applikationer.

På Veni AI utvecklar vi multimodala AI‑lösningar. Kontakta oss för dina projekt.