Text-Diffusion

Intermediate

Verstehe, wie Diffusionsideen auf diskrete Sprach-Tokens und iterative Maskenverfeinerung angepasst werden.

Zuletzt aktualisiert: 25. Feb. 2026

Diskrete vs kontinuierliche Formulierungen

Sprache ist grundsätzlich diskret, daher nutzen Text-Diffusionsmodelle oft Token-Maskierung und Ersetzung. Manche Ansätze diffundieren in kontinuierlichen Embedding-Räumen und projizieren danach zurück.

Mask-and-Predict-Paradigma

Text-Diffusion startet oft mit stark maskierten Sequenzen und sagt fehlende Tokens wiederholt voraus. Konfidenzbasiertes Remasking und Verfeinerung verbessern häufig die Kohärenz.

MDLM-ähnliche Modelle

Masked Diffusion Language Models entrauschen Token-Raster iterativ statt links-nach-rechts zu dekodieren.

SEDD-ähnliche Modelle

Score-Entropy-Varianten übertragen scorebasierte Ideen auf diskrete Vokabulare mit probabilistisch fundierten Zielen.

Padding-Tokens und feste Länge

Gebatchte Diffusion verwendet oft feste Sequenzlängen. [PAD]-Tokens füllen ungenutzte Positionen, und Attention-Masks verhindern Einfluss auf Inhalts-Tokens.

Unterschiede zu autoregressiven LMs

Autoregressive Modelle sagen das nächste Token auf Basis vorheriger Tokens voraus. Diffusionsbasierte Textmodelle verfeinern viele Positionen parallel über mehrere Entrauschungsiterationen.

Diffusionsbasierte Dekodierung

Parallele Token-Verfeinerung, wiederholte Entrauschung und optionales Remasking zur Fehlerkorrektur.

Autoregressive Dekodierung

Strikte Links-nach-rechts-Generierung mit kausaler Abhängigkeit und finaler Token-Festlegung pro Schritt.

Maskenverfeinerungs-Demo

Beobachte, wie [MASK]-Positionen Token für Token aufgedeckt und verfeinert werden, während [PAD]-Positionen per Maskierung ausgeschlossen bleiben.

Text-Diffusion: Parallele Token-Entrauschung

Anders als autoregressive Modelle (links-nach-rechts) deckt Diffusion Tokens parallel in zufälliger Reihenfolge mit Konfidenzwerten auf.

Alle Tokens maskiert — bereit zur EntrauschungSchritt 0 / 8
Aufdeckreihenfolge: 74561382
#1
[MASK]
#2
[MASK]
#3
[MASK]
#4
[MASK]
#5
[MASK]
#6
[MASK]
#7
[MASK]
#8
[MASK]
8
Maskiert
0
Aufgedeckt
0
Hohe Konfidenz
[MASK] = unbekanntHohe Konfidenz (≥80%)Mittlere KonfidenzNiedrige Konfidenz — wird ggf. re-maskiert

Wichtige Erkenntnisse

  • Text-Diffusion passt Entrauschung an diskrete Tokenräume an.
  • Mask-and-Predict ermöglicht parallele Verfeinerung statt strikter Links-nach-rechts-Generierung.
  • [PAD] plus Attention-Masking ist zentral für effizientes Batching fester Länge.
  • Gegenüber autoregressiven LMs tauscht Text-Diffusion mehr Schritte gegen iterative Korrektur.