Diskrete vs kontinuierliche Formulierungen
Sprache ist grundsätzlich diskret, daher nutzen Text-Diffusionsmodelle oft Token-Maskierung und Ersetzung. Manche Ansätze diffundieren in kontinuierlichen Embedding-Räumen und projizieren danach zurück.
Mask-and-Predict-Paradigma
Text-Diffusion startet oft mit stark maskierten Sequenzen und sagt fehlende Tokens wiederholt voraus. Konfidenzbasiertes Remasking und Verfeinerung verbessern häufig die Kohärenz.
MDLM-ähnliche Modelle
Masked Diffusion Language Models entrauschen Token-Raster iterativ statt links-nach-rechts zu dekodieren.
SEDD-ähnliche Modelle
Score-Entropy-Varianten übertragen scorebasierte Ideen auf diskrete Vokabulare mit probabilistisch fundierten Zielen.
Padding-Tokens und feste Länge
Gebatchte Diffusion verwendet oft feste Sequenzlängen. [PAD]-Tokens füllen ungenutzte Positionen, und Attention-Masks verhindern Einfluss auf Inhalts-Tokens.
Unterschiede zu autoregressiven LMs
Autoregressive Modelle sagen das nächste Token auf Basis vorheriger Tokens voraus. Diffusionsbasierte Textmodelle verfeinern viele Positionen parallel über mehrere Entrauschungsiterationen.
Diffusionsbasierte Dekodierung
Parallele Token-Verfeinerung, wiederholte Entrauschung und optionales Remasking zur Fehlerkorrektur.
Autoregressive Dekodierung
Strikte Links-nach-rechts-Generierung mit kausaler Abhängigkeit und finaler Token-Festlegung pro Schritt.
Maskenverfeinerungs-Demo
Beobachte, wie [MASK]-Positionen Token für Token aufgedeckt und verfeinert werden, während [PAD]-Positionen per Maskierung ausgeschlossen bleiben.
Text-Diffusion: Parallele Token-Entrauschung
Anders als autoregressive Modelle (links-nach-rechts) deckt Diffusion Tokens parallel in zufälliger Reihenfolge mit Konfidenzwerten auf.
Wichtige Erkenntnisse
- Text-Diffusion passt Entrauschung an diskrete Tokenräume an.
- Mask-and-Predict ermöglicht parallele Verfeinerung statt strikter Links-nach-rechts-Generierung.
- [PAD] plus Attention-Masking ist zentral für effizientes Batching fester Länge.
- Gegenüber autoregressiven LMs tauscht Text-Diffusion mehr Schritte gegen iterative Korrektur.