Wie LLMs Bilder sehen
Bildverarbeitungsfähige LLMs wandeln Bilder in Token-Sequenzen um, die zusammen mit Text verarbeitet werden können. Dies beinhaltet typischerweise das Aufteilen von Bildern in Patches und deren Kodierung mit einem Vision-Transformer.
Der Vision Transformer (ViT)
Die Vision Transformer-Architektur passt das Transformer-Modell für die Bildverarbeitung an. Anstatt Wörter zu verarbeiten, verarbeitet es Bildausschnitte.
In Patches aufteilen
Das Bild wird in ein Raster aus Patches fester Größe aufgeteilt (typischerweise 14x14 oder 16x16 Pixel).
Abflachen & Projizieren
Jeder Patch wird in einen Vektor abgeflacht und linear in einen Einbettungsraum projiziert.
Positionsinfo hinzufügen
Positionseinbettungen werden hinzugefügt, damit das Modell weiß, woher jeder Patch stammt.
Mit Transformer verarbeiten
Die Sequenz von Patch-Einbettungen wird von Standard-Transformer-Schichten verarbeitet.
Patch-Kodierung
Bilder werden in Patches fester Größe (z.B. 14x14 Pixel) aufgeteilt, wobei jeder in einen Einbettungsvektor ähnlich wie Text-Tokens umgewandelt wird.
Patch-Raster (8x8 = 64 tokens)
Each 28x28px patch becomes one token
Abgeflachte Patches
Token-Kosten
Bilder sind teür in Bezug auf Tokens. Das Verständnis davon hilft dir, deine Anwendungen zu optimieren.
Tip: Überlege immer, ob eine Textbeschreibung effizienter sein könnte als das eigentliche Bild zu übergeben.
Häufige Anwendungsfälle
Bildverarbeitungsfähige LLMs ermöglichen viele praktische Anwendungen.
Dokumentenanalyse
Extrahiere Informationen aus PDFs, Quittungen, Formularen und handschriftlichen Notizen.
Visuelle Fragen
Beantworte Fragen zu Bildinhalten, Diagrammen und Grafiken.
Bildbeschriftung
Generiere detaillierte Beschreibungen von Bildern für Barrierefreiheit oder Indexierung.
UI-Verständnis
Analysiere Screenshots, Wireframes und Benutzeroberflächen.
Multimodales Verständnis
Das Modell lernt, visuelle und textülle Repräsentationen auszurichten, was Aufgaben wie Bildbeschriftung, visuelle Fragen und Dokumentenverständnis ermöglicht.
Wichtige Erkenntnisse
- 1Bilder verbrauchen viel mehr Tokens als äquivalente Textbeschreibungen
- 2Auflösung und Patch-Größe beeinflussen die Detailerkennung
- 3Visuelles Verständnis ist ungefähr – Modelle können feine Details übersehen
- 4Die Kombination von Bild und Sprache ermöglicht leistungsstarke neue Anwendungen