Latente Diffusionspipeline
Moderne Systeme diffundieren meist im latenten Raum: Bildlatente mit einem VAE kodieren, diese Latente entrauschen und anschliessend zurück in Pixel dekodieren.
VAE encode
Komprimiere hochaufgelöste Pixel in ein niedriger-dimensionales latentes Tensorformat.
Latentes Entrauschen
Fahre iterative Entrauschung mit einem konditionierten Backbone auf latentem Rauschen.
VAE decode
Projiziere finale Latente zurück in den RGB-Bildraum.
U-Net vs DiT Backbones
U-Nets prägten frühe Diffusionsmodelle mit starken räumlichen Induktionsbiases. DiTs ersetzen Faltungen durch Transformer-Blöcke und skalieren oft besser mit Daten und Rechenbudget.
U-Net
Konvolutionaler Encoder-Decoder mit Skip-Connections für mehrskalige räumliche Rekonstruktion.
DiT (Diffusion Transformer)
Transformer-Backbone über patchifizierte Latente, oft stark bei grosser Skalierung und grossen Trainingsbudgets.
Textkonditionierung (CLIP/T5 + Cross-Attn)
Prompts werden kodiert (z. B. durch CLIP oder T5) und per Cross-Attention in Entrauschungsschichten eingespeist, damit Bildinhalte semantisch zum Text passen.
Classifier-Free Guidance (CFG)
CFG mischt konditionierte und unkonditionierte Vorhersagen. Höhere Guidance stärkt Prompttreü, kann aber Vielfalt reduzieren und Artefakte verstärken.
Schritte vs Qualität Trade-off
Mehr Entrauschungsschritte verbessern häufig die Qualität, erhöhen aber Latenz. In der Praxis werden Schrittzahl, Scheduler und Guidance auf Qualität pro Sekunde abgestimmt.
Interaktive Rausch- und Entrausch-Demo
Nutze den Visualizer, um Vorwärtsrauschen und Rückwärts-Entrauschen in einem diffusionsähnlichen Prozess zu simulieren.
Vorwärts- & Rückwärts-Diffusionsprozess
Beobachte, wie ein sauberes Bild schrittweise verrauscht und wieder hergestellt wird — die Kernidee hinter Diffusionsmodellen.
Diffusionsmodelle lernen, den Rauschprozess umzukehren. Beim Training sieht das Modell Bilder auf jeder Rauschstufe und lernt, die saubere Version vorherzusagen. Bei der Generierung startet es mit reinem Rauschen und entrauscht schrittweise — erzeugt ein neues Bild aus dem Nichts.
Wichtige Erkenntnisse
- Latente Diffusion steigert Recheneffizienz bei hoher Bildqualität.
- U-Net und DiT haben unterschiedliche Induktionsbias- und Skalierungs-Trade-offs.
- Textkonditionierung und CFG steürn die Stärke der Promptausrichtung.
- Bildqualität hängt von gemeinsamer Abstimmung aus Schritten, Scheduler und Guidance ab.