KI-Konzepte lernen | Interaktiver Leitfaden

Latente Diffusionspipeline

Moderne Systeme diffundieren meist im latenten Raum: Bildlatente mit einem VAE kodieren, diese Latente entrauschen und anschliessend zurück in Pixel dekodieren.

VAE encode

Komprimiere hochaufgelöste Pixel in ein niedriger-dimensionales latentes Tensorformat.

Latentes Entrauschen

Fahre iterative Entrauschung mit einem konditionierten Backbone auf latentem Rauschen.

VAE decode

Projiziere finale Latente zurück in den RGB-Bildraum.

U-Net vs DiT Backbones

U-Nets prägten frühe Diffusionsmodelle mit starken räumlichen Induktionsbiases. DiTs ersetzen Faltungen durch Transformer-Blöcke und skalieren oft besser mit Daten und Rechenbudget.

U-Net

Konvolutionaler Encoder-Decoder mit Skip-Connections für mehrskalige räumliche Rekonstruktion.

DiT (Diffusion Transformer)

Transformer-Backbone über patchifizierte Latente, oft stark bei grosser Skalierung und grossen Trainingsbudgets.

Textkonditionierung (CLIP/T5 + Cross-Attn)

Prompts werden kodiert (z. B. durch CLIP oder T5) und per Cross-Attention in Entrauschungsschichten eingespeist, damit Bildinhalte semantisch zum Text passen.

Classifier-Free Guidance (CFG)

CFG mischt konditionierte und unkonditionierte Vorhersagen. Höhere Guidance stärkt Prompttreü, kann aber Vielfalt reduzieren und Artefakte verstärken.

Schritte vs Qualität Trade-off

Mehr Entrauschungsschritte verbessern häufig die Qualität, erhöhen aber Latenz. In der Praxis werden Schrittzahl, Scheduler und Guidance auf Qualität pro Sekunde abgestimmt.

Interaktive Rausch- und Entrausch-Demo

Nutze den Visualizer, um Vorwärtsrauschen und Rückwärts-Entrauschen in einem diffusionsähnlichen Prozess zu simulieren.

Vorwärts- & Rückwärts-Diffusionsprozess

Beobachte, wie ein sauberes Bild schrittweise verrauscht und wieder hergestellt wird — die Kernidee hinter Diffusionsmodellen.

Sauberes Bild (t=0)

Sauberes BildReines Rauschen

Diffusionsmodelle lernen, den Rauschprozess umzukehren. Beim Training sieht das Modell Bilder auf jeder Rauschstufe und lernt, die saubere Version vorherzusagen. Bei der Generierung startet es mit reinem Rauschen und entrauscht schrittweise — erzeugt ein neues Bild aus dem Nichts.

Wichtige Erkenntnisse

Latente Diffusion steigert Recheneffizienz bei hoher Bildqualität.
U-Net und DiT haben unterschiedliche Induktionsbias- und Skalierungs-Trade-offs.
Textkonditionierung und CFG steürn die Stärke der Promptausrichtung.
Bildqualität hängt von gemeinsamer Abstimmung aus Schritten, Scheduler und Guidance ab.