World Models

Expert

KI-Systeme, die eine interne Repräsentation der physischen Welt lernen, um Realität vorherzusagen, zu simulieren und darüber zu schlussfolgern.

Zuletzt aktualisiert: 15. Feb. 2026

Was sind World Models?

World Models sind KI-Systeme, die eine interne Repräsentation der physischen Welt lernen, um die Zukunft vorherzusagen und zu simulieren. Sie verstehen Physik, Objektbewegungen und kausale Zusammenhänge — und ermöglichen es Robotern, autonomen Fahrzeugen und KI-Agenten, Ergebnisse zu „imaginieren", bevor sie handeln.

Anstatt nur Pixel-Muster zu lernen, entwickeln World Models ein tieferes Verständnis davon, wie die Welt funktioniert — ähnlich wie Menschen mentale Modelle der Realität aufbaün. Wenn du einen Ball fängst, sagt dein Gehirn seine Flugbahn vorher, ohne Gleichungen zu lösen. World Models wollen KI dieselbe Intuition geben.

Kernidee

Die nächste Grenze der KI ist nicht nur Sprache zu verstehen — sondern die physische Welt zu verstehen. World Models schlagen die Brücke zwischen textbasierter KI und verkörperter Intelligenz, die mit der Realität interagieren kann.

World Model Pipeline

Klicke auf jede Phase, um den Datenfluss durch ein World Model zu erkunden

feedback loopObserveSensor DataEncodeLatent SpacePredictNext StateDecodeReconstructActPolicy

Click on any stage to learn more

Wie funktionieren World Models?

World Models kombinieren verschiedene Techniken, um physikalische Realität zu modellieren. Die Kernidee: Sensorische Eingaben in einen kompakten latenten Raum komprimieren, Dynamiken in diesem Raum lernen und Vorhersagen zurück in beobachtbare Ausgaben dekodieren.

Latent Space Representation

Komprimierung hochdimensionaler Sensordaten (z.B. Video, LiDAR) in einen kompakten latenten Raum, der die wesentliche Struktur einer Szene erfasst — Position, Geschwindigkeit, Objektidentität — ohne jeden Pixel zu speichern.

Ziehe die Regler, um zu sehen, wie jede latente Dimension ein komplexes visuelles Konzept unabhängig steürt.

z=[0.65, 0.30, 0.50, 0.10]Szene
0.65
0.30
0.50
0.10

Video Prediction

Vorhersage zukünftiger Frames basierend auf vergangenen Beobachtungen und geplanten Aktionen. Das Modell lernt zeitliche Dynamiken: Wenn das Auto links abbiegt, wie sieht die Welt 2 Sekunden später aus?

Physics-Aware Training

Training mit physikalischen Constraints oder Physik-Simulatoren, damit das Modell realistische Bewegungen, Kollisionen, Schwerkraft und Materialinteraktionen lernt — nicht nur visuelle Plausibilität.

Diffusion-basierte Ansätze

Nutzung von Diffusionsmodellen zur Generierung konsistenter, physikalisch plausibler Zukunftsvorhersagen. Diese Modelle verfeinern iterativ verrauschte Vorhersagen zu klaren, kohärenten Zukunftszuständen.

Warum braucht man World Models?

Drei fundamentale Limitierungen machen World Models essentiell für die nächste Generation von KI:

Realität ist langsam & teür

Roboter in der realen Welt zu trainieren ist zeitaufwändig, kostspielig und potenziell gefährlich. Ein einziger Fehler kann Hardware für 100.000€+ zerstören oder Menschen gefährden. Man kann nicht 10.000 Autos crashen, um ein selbstfahrendes System zu trainieren.

Massiv paralleles Training

World Models ermöglichen das Training tausender virtüller Agenten gleichzeitig, die Millionen von Stunden Erfahrung in Stunden sammeln. Was ein Roboter in 1 Jahr real lernt, schafft die Simulation in 1 Stunde.

LLMs verstehen keine Physik

Sprachmodelle können über Physik sprechen, aber verstehen nicht wirklich räumliche Beziehungen, Momentum oder Schwerkraft. Sie haben nie „erlebt", wie ein Ball fällt. World Models lernen Physik durch simulierte Erfahrung.

Simulation vs. Reale Welt — Ein direkter Vergleich

SimulationReal World

Training Speed

1,000,000×

Faster than real-time

Cost per Hour

~$0.10

GPU compute only

Safety Risk

None

Virtual environment

Parallelism

10,000+

Simultaneous agents

Scenario Control

Perfect

Any edge case on demand

Physics Accuracy

~90-95%

Sim-to-real gap

Simulation enables millions of training hours in days — but the sim-to-real gap means models must be carefully validated in the real world.

Der Trainingskreislauf

Gehe Schritt für Schritt durch einen kompletten Trainingszyklus, um zu sehen, wie World Models aus simulierter Erfahrung lernen

Step 1: Generate Scenario

The world model generates a simulated environment: a rainy highway with merging traffic.

Bekannte World Models

Führende Forschungslabore und Unternehmen baün World Models für verschiedene Domänen. Klicke auf eine Karte für mehr Details.

NVIDIA Cosmos

Autonomes Fahren

NVIDIA

Open-Source Physical-AI-Plattform zur Generierung synthetischer Trainingsdaten für Robotik und autonomes Fahren.

Google Genie 3 / Project Genie

3D-Welten

Google DeepMind

Universelles Weltmodell, das vielfältige, erkundbare interaktive Welten aus Text- und Bild-Prompts in Echtzeit generiert.

Genesis

Physik-Engine

Open Source

Physik-Engine kombiniert mit generativer KI. Simulationen bis zu 430.000x schneller als Echtzeit.

UniSim

Universal-Sim

Google Research

Google Researchs universeller Weltsimulator für jede Umgebung — von Küchen bis Autobahnen.

GAIA-1

Selbstfahrend

Wayve

Wayves generatives World Model für autonomes Fahren, trainiert auf Londoner Straßendaten.

Anwendungsbereiche

Autonomes Fahren

Millionen Verkehrsszenarien simulieren, seltene Edge Cases testen und Fahrzeug-Policies trainieren — alles ohne ein einziges echtes Auto zu riskieren.

Größter Anwendungsbereich heute

Robotik-Training

Manipulation, Fortbewegung und Navigation in Simulation erlernen, bevor Policies über Sim-to-Real Transfer auf physische Roboter übertragen werden.

Am schnellsten wachsendes Segment

Videogenerierung

Photorealistische Videos mit konsistenter Physik generieren — ein mächtiges „Nebenprodukt" des Verständnisses von Welt-Dynamiken.

Aufkommende kommerzielle Nutzung

Herausforderungen

Trotz des enormen Potenzials bleiben signifikante Hürden:

Extrem ressourcenhungrig

Hoher Einfluss

Training erfordert riesige GPU-Cluster, massive Video-Datensätze und wochenlange Rechenzeit. Nur gut finanzierte Labore können sich State-of-the-Art World Models leisten.

Sim-to-Real Gap

Aktive Forschung

Was in der Simulation funktioniert, versagt oft in der Realität. Unterschiede in Physik-Genauigkeit, Sensor-Rauschen und Umgebungsbedingungen erschweren den Transfer.

Generalisierung

Offenes Problem

World Models können auf Trainingsdomänen überanpassen. Ein auf Fahrdaten trainiertes Modell generalisiert möglicherweise nicht auf Indoor-Robotik. Robuste domänenübergreifende Generalisierung ist ein offenes Problem.

Wichtige Erkenntnisse

  • 1World Models lernen interne Repräsentationen der physischen Welt — sie ermöglichen KI, Ergebnisse zu „imaginieren" und vorherzusagen, bevor sie handelt
  • 2Sie ermöglichen massiv parallelisiertes Training: Millionen Stunden Erfahrung in Simulation statt langsamer Echtzeit-Interaktion
  • 3Die Architektur folgt einer Pipeline: Beobachten → Enkodieren → Vorhersagen → Dekodieren → Handeln
  • 4Wichtige Akteure sind NVIDIA Cosmos, Google Genie 2, Wayve GAIA-1 und Genesis — jeder für unterschiedliche Domänen
  • 5Der Sim-to-Real Gap bleibt die zentrale Herausforderung: die Brücke zwischen simulierter und realer Physik