Bildverarbeitung

Beginner

Wie moderne LLMs visuelle Informationen neben Text verarbeiten und verstehen.

Zuletzt aktualisiert: 24. Jan. 2026

Wie LLMs Bilder sehen

Bildverarbeitungsfähige LLMs wandeln Bilder in Token-Sequenzen um, die zusammen mit Text verarbeitet werden können. Dies beinhaltet typischerweise das Aufteilen von Bildern in Patches und deren Kodierung mit einem Vision-Transformer.

Der Vision Transformer (ViT)

Die Vision Transformer-Architektur passt das Transformer-Modell für die Bildverarbeitung an. Anstatt Wörter zu verarbeiten, verarbeitet es Bildausschnitte.

In Patches aufteilen

Das Bild wird in ein Raster aus Patches fester Größe aufgeteilt (typischerweise 14x14 oder 16x16 Pixel).

Abflachen & Projizieren

Jeder Patch wird in einen Vektor abgeflacht und linear in einen Einbettungsraum projiziert.

Positionsinfo hinzufügen

Positionseinbettungen werden hinzugefügt, damit das Modell weiß, woher jeder Patch stammt.

Mit Transformer verarbeiten

Die Sequenz von Patch-Einbettungen wird von Standard-Transformer-Schichten verarbeitet.

🖼️

Patch-Kodierung

Bilder werden in Patches fester Größe (z.B. 14x14 Pixel) aufgeteilt, wobei jeder in einen Einbettungsvektor ähnlich wie Text-Tokens umgewandelt wird.

Grid Size:

Patch-Raster (8x8 = 64 tokens)

Each 28x28px patch becomes one token

Abgeflachte Patches

28x28px

Patch Size

Total Patches

Image Tokens

~16 words

vs Text

Token-Kosten

Bilder sind teür in Bezug auf Tokens. Das Verständnis davon hilft dir, deine Anwendungen zu optimieren.

Ein 512x512 Bild mit 16x16 Patches~1.024 Tokens

Ein 1024x1024 hochauflösendes Bild~4.096 Tokens

Äquivalente Textbeschreibung~50-100 Tokens

Tip: Überlege immer, ob eine Textbeschreibung effizienter sein könnte als das eigentliche Bild zu übergeben.

Häufige Anwendungsfälle

Bildverarbeitungsfähige LLMs ermöglichen viele praktische Anwendungen.

Dokumentenanalyse

Extrahiere Informationen aus PDFs, Quittungen, Formularen und handschriftlichen Notizen.

Visuelle Fragen

Beantworte Fragen zu Bildinhalten, Diagrammen und Grafiken.

Bildbeschriftung

Generiere detaillierte Beschreibungen von Bildern für Barrierefreiheit oder Indexierung.

UI-Verständnis

Analysiere Screenshots, Wireframes und Benutzeroberflächen.

Multimodales Verständnis

Das Modell lernt, visuelle und textülle Repräsentationen auszurichten, was Aufgaben wie Bildbeschriftung, visuelle Fragen und Dokumentenverständnis ermöglicht.

Wichtige Erkenntnisse

1Bilder verbrauchen viel mehr Tokens als äquivalente Textbeschreibungen
2Auflösung und Patch-Größe beeinflussen die Detailerkennung
3Visuelles Verständnis ist ungefähr – Modelle können feine Details übersehen
4Die Kombination von Bild und Sprache ermöglicht leistungsstarke neue Anwendungen