Was sind Diffusionsmodelle?
Diffusionsmodelle lernen, einen schrittweisen Korruptionsprozess umzukehren. Im Training werden Daten nach und nach verrauscht; bei der Generierung sagt das Modell Entrauschungsschritte voraus, bis wieder Struktur entsteht.
Die Kernintuition
Generierung ist iterative Verfeinerung. Statt die ganze Ausgabe in einem Schritt zu erzeugen, verbessert das Modell wiederholt einen verrauschten Zustand und erreicht so oft stabile, hochwertige Samples.
Text-Diffusion
Arbeitet auf maskierten Token-Sequenzen und verfeinert Token-Schätzungen iterativ mit denoising-ähnlichen Updates.
Bild-Diffusion
Arbeitet auf latenten Bildrepräsentationen und entrauscht sie zu konsistenten Bildern, gesteürt durch Textbedingungen.
Lernpfad
Folge dieser Reihenfolge, um Intuition von den Grundlagen bis zu modalitiespezifischen Systemen aufzubaün.
Wie Diffusion funktioniert
Vorwärtsrauschen, Rückwärts-Entrauschen, Scheduler und Score-Matching-Intuition.
Thema öffnenText-Diffusion
Diskrete Token-Diffusion, Mask-and-Predict, Padding und Unterschiede zu autoregressiven Modellen.
Thema öffnenBild-Diffusion
Latente Pipelines, U-Net vs DiT, Textkonditionierung, CFG und Schritt-Trade-offs.
Thema öffnen