KI-Konzepte lernen | Interaktiver Leitfaden

Diskrete vs kontinuierliche Formulierungen

Sprache ist grundsätzlich diskret, daher nutzen Text-Diffusionsmodelle oft Token-Maskierung und Ersetzung. Manche Ansätze diffundieren in kontinuierlichen Embedding-Räumen und projizieren danach zurück.

Mask-and-Predict-Paradigma

Text-Diffusion startet oft mit stark maskierten Sequenzen und sagt fehlende Tokens wiederholt voraus. Konfidenzbasiertes Remasking und Verfeinerung verbessern häufig die Kohärenz.

MDLM-ähnliche Modelle

Masked Diffusion Language Models entrauschen Token-Raster iterativ statt links-nach-rechts zu dekodieren.

SEDD-ähnliche Modelle

Score-Entropy-Varianten übertragen scorebasierte Ideen auf diskrete Vokabulare mit probabilistisch fundierten Zielen.

Padding-Tokens und feste Länge

Gebatchte Diffusion verwendet oft feste Sequenzlängen. [PAD]-Tokens füllen ungenutzte Positionen, und Attention-Masks verhindern Einfluss auf Inhalts-Tokens.

Unterschiede zu autoregressiven LMs

Autoregressive Modelle sagen das nächste Token auf Basis vorheriger Tokens voraus. Diffusionsbasierte Textmodelle verfeinern viele Positionen parallel über mehrere Entrauschungsiterationen.

Diffusionsbasierte Dekodierung

Parallele Token-Verfeinerung, wiederholte Entrauschung und optionales Remasking zur Fehlerkorrektur.

Autoregressive Dekodierung

Strikte Links-nach-rechts-Generierung mit kausaler Abhängigkeit und finaler Token-Festlegung pro Schritt.

Maskenverfeinerungs-Demo

Beobachte, wie [MASK]-Positionen Token für Token aufgedeckt und verfeinert werden, während [PAD]-Positionen per Maskierung ausgeschlossen bleiben.

Text-Diffusion: Parallele Token-Entrauschung

Anders als autoregressive Modelle (links-nach-rechts) deckt Diffusion Tokens parallel in zufälliger Reihenfolge mit Konfidenzwerten auf.

Alle Tokens maskiert — bereit zur EntrauschungSchritt 0 / 8

Aufdeckreihenfolge: 74561382

[MASK]

Maskiert

Aufgedeckt

Hohe Konfidenz

[MASK] = unbekanntHohe Konfidenz (≥80%)Mittlere KonfidenzNiedrige Konfidenz — wird ggf. re-maskiert

Wichtige Erkenntnisse

Text-Diffusion passt Entrauschung an diskrete Tokenräume an.
Mask-and-Predict ermöglicht parallele Verfeinerung statt strikter Links-nach-rechts-Generierung.
[PAD] plus Attention-Masking ist zentral für effizientes Batching fester Länge.
Gegenüber autoregressiven LMs tauscht Text-Diffusion mehr Schritte gegen iterative Korrektur.