KI-Konzepte lernen | Interaktiver Leitfaden

Was sind Trainingsdaten?

Trainingsdaten sind das Rohmaterial, das alles bestimmt, was ein KI-Modell weiß und kann. So wie die Bildung eines Menschen davon abhängt, welche Bücher er liest und welche Erfahrungen er macht, werden die Fähigkeiten eines LLM grundlegend durch den Text bestimmt, auf dem es trainiert wurde. Qualität, Vielfalt und Umfang der Trainingsdaten sind wichtiger als fast jede Architekturentscheidung.

Daten sind die wichtigste Zutat in moderner KI. Eine mittelmäßige Architektur, trainiert auf exzellenten Daten, wird eine brillante Architektur, trainiert auf schlechten Daten, übertreffen. Deshalb sind Trainingsdaten zu einer der wertvollsten — und umstrittensten — Ressourcen der KI-Industrie geworden.

Datenquellen-Explorer

Erkunde die wichtigsten Trainingsdatenquellen, ihren Umfang und wie sie sich vergleichen.

Training Data Sources

Explore the datasets behind modern LLMs

Showing 18 of 18 sources

Legitimate

Controversial

Synthetic

Legitime Datenquellen

Große LLM-Trainingsdatensätze schöpfen aus verschiedenen öffentlich zugänglichen und lizenzierten Quellen. Der Umfang ist atemberaubend — moderne Modelle trainieren auf Billionen von Token.

Common Crawl

Eine gemeinnützige Organisation, die monatlich das Web durchsucht. Enthält Petabytes an rohem HTML von Milliarden von Seiten. Das Rückgrat der meisten Trainingsdatensätze, erfordert aber intensive Filterung.

~250 Milliarden Seiten, ~Petabytes an Daten

Wikipedia

Hochwertige enzyklopädische Inhalte in über 300 Sprachen. Wird aufgrund seiner strukturierten, faktenbasierten Natur universell im LLM-Training eingesetzt.

~4 Milliarden Wörter (Englisch), ~60 Millionen Artikel gesamt

Bücher & Literatur

Bücher liefern zusammenhängendes Denken und Narrative in Langform, was Webtexten oft fehlt. Datensätze wie Books3 (von Bibliotik) enthielten ~196.000 Bücher.

Books3: ~196K Bücher, ~100B Token

GitHub / Code

Öffentliche Code-Repositories liefern Programmierwissen. The Stack (von BigCode) enthält permissiv lizenziertem Code von GitHub.

The Stack v2: 67,5TB in über 600 Sprachen

Wissenschaftliche Arbeiten

ArXiv, Semantic Scholar, PubMed — wissenschaftliche Arbeiten liefern technisches Wissen und formales Denken.

ArXiv: ~2,4M Arbeiten, PubMed: ~35M Abstracts

The Pile (EleutherAI)

Ein 825GB kuratierter Datensatz aus 22 verschiedenen Quellen: Wikipedia, PubMed, ArXiv, GitHub, StackExchange, USPTO-Patente und mehr. Für die Forschung konzipiert.

825GB, ~300B Token

RedPajama

Eine offene Reproduktion des LLaMA-Trainingsdatensatzes. Enthält Common Crawl, C4, GitHub, Wikipedia, Bücher, ArXiv und StackExchange.

RedPajama-v2: 30T Token aus 100B Dokumenten

FineWeb (HuggingFace)

Ein 15T-Token-Datensatz aus 96 Common-Crawl-Snapshots mit aggressiver Qualitätsfilterung. Derzeit einer der hochwertigsten offenen Web-Datensätze.

15T Token, 44TB Speicherplatz

Kontroverse & illegale Quellen

Die Nachfrage nach Trainingsdaten hat Unternehmen in rechtlich und ethisch graü Bereiche geführt. Mehrere aufsehenerregende Klagen und Kontroversen haben die Debatte geprägt.

Die Books3-Kontroverse

Books3 enthielt ~196.000 raubkopierte Bücher aus der Schattenbibliothek Bibliotik, darunter urheberrechtlich geschützte Werke lebender Autoren. Es war in The Pile enthalten und wurde von Meta, Bloomberg und anderen zum Training von Modellen verwendet. Autoren reichten Sammelklagen ein, und der Datensatz wurde schließlich aus dem öffentlichen Zugang entfernt.

NYT gegen OpenAI

Die New York Times verklagte OpenAI und Microsoft im Dezember 2023 mit der Behauptung, dass GPT-Modelle auf Millionen von NYT-Artikeln ohne Genehmigung trainiert wurden. Die Klage zeigte, dass ChatGPT NYT-Artikel nahezu wortwörtlich reproduzieren konnte — ein Beweis, dass der Inhalt auswendig gelernt und nicht nur "daraus gelernt" wurde.

Reddit & Social-Media-Scraping

Reddits gesamter Korpus wurde zum Training von Modellen verwendet, ohne die Nutzer zu entschädigen. Reddit schloss später einen 60-Mio-$/Jahr-Deal mit Google für KI-Trainingszugang und monetarisierte damit effektiv Nutzerinhalte, die kostenlos erstellt wurden. Twitter/X schränkte den API-Zugang ebenfalls ein und begann, für Daten Gebühren zu erheben.

DSGVO & Datenschutzverletzungen

Europäische Regulierungsbehörden haben untersucht, ob das Training mit persönlichen Daten aus dem Web gegen die DSGVO verstößt. Italien hat ChatGPT 2023 vorübergehend verboten. Die grundlegende Spannung: Web-Crawls enthalten unvermeidlich persönliche Informationen, deren Verwendung für KI-Training die Betroffenen nie zugestimmt haben.

Kunst & kreative Werke

Bildmodelle (Stable Diffusion, Midjourney) wurden auf LAION-5B trainiert, das Milliarden urheberrechtlich geschützter Bilder aus dem Internet enthielt. Künstler reichten Klagen ein mit der Begründung, dies stelle Urheberrechtsverletzung im industriellen Maßstab dar.

Lizenz-Laundering

Einige Datensätze werden unter permissiven Lizenzen veröffentlicht, obwohl sie urheberrechtlich geschütztes Material enthalten. Das Argument, "es war öffentlich im Web zugänglich", macht es nicht legal für KI-Training lizenziert.

Das Datenqualitätsproblem

Rohe Webdaten sind verrauscht, redundant und oft toxisch. Die Qualität der Trainingsdaten bestimmt direkt die Qualität des Modells. Daten zu bereinigen und zu kuratieren ist genauso wichtig wie der Trainingsprozess selbst.

Garbage In, Garbage Out

Modelle lernen gewissenhaft alle Muster, die in ihren Trainingsdaten existieren — einschließlich Fehler, Verzerrungen, Spam und Fehlinformationen. Ein auf minderwertigen Daten trainiertes Modell wird minderwertige Ausgaben produzieren, unabhängig von seiner Architektur.

Deduplizierung

Web-Crawls enthalten massive Mengen an dupliziertem Inhalt (Boilerplate, gespiegelte Seiten, Copy-Paste). Training auf Duplikaten führt dazu, dass Modelle auswendig lernen statt zu generalisieren, und kann Trainingsinstabilität verursachen. MinHash LSH ist der Standard-Deduplizierungsansatz.

Filterung toxischer Inhalte

Das Web enthält Hassrede, explizite Inhalte und extremistisches Material. Modelle müssen dies entweder bei der Datenaufbereitung herausfiltern oder während des Alignments lernen, es nicht zu reproduzieren. Beide Ansätze haben Kompromisse: Zu viel Filterung entfernt legitime Inhalte, zu wenig lehrt schädliche Muster.

Sprachliche Verzerrung

Englisch dominiert die meisten Trainingsdatensätze (~60-90% der Token). Das bedeutet, dass Modelle auf Englisch deutlich leistungsfähiger sind als in anderen Sprachen. Sprachen mit geringer Web-Präsenz (die meisten afrikanischen und indigenen Sprachen) sind stark unterrepräsentiert.

Benchmark-Kontamination

Wenn Benchmark-Testdaten versehentlich in Trainingsdaten erscheinen, erzielen Modelle künstlich hohe Bewertungsergebnisse. Diese "Datenkontamination" macht es schwer, die tatsächlichen Modellfähigkeiten zu bewerten, und hat zu überhöhten Benchmark-Ergebnissen in der gesamten Branche geführt.

Synthetische Daten: Der Tiefgang

Da natürliche Datenquellen erschöpft und rechtlich umstritten werden, sind synthetische Daten — Trainingsdaten, die von KI-Modellen selbst erzeugt werden — zur Frontier des KI-Trainings geworden. Dies ist der sich am schnellsten entwickelnde Bereich bei KI-Daten.

Was sind synthetische Daten?

Synthetische Daten sind Trainingsdaten, die von KI-Modellen erzeugt werden, anstatt aus menschlichen Quellen gesammelt zu werden. Dies reicht von einfachen Umformulierungen bis zu komplexen mehrstufigen Argumentationsketten, die von Frontier-Modellen erzeugt werden. Die Schlüsselerkenntnis: KI-Modelle können Trainingsdaten erstellen, die oft höherwertiger sind als das, was Menschen produzieren würden, weil Modelle in großem Maßstab bei gleichbleibender Konsistenz generieren können.

Selbstspiel & Selbstverbesserung

Das Konzept entstand bei Spielen: AlphaGo trainierte auf menschlichen Partien, aber AlphaZero lernte ausschließlich durch Spiel gegen sich selbst. Dieses Selbstspiel-Paradigma wurde für Sprachmodelle adaptiert — Modelle verbessern sich, indem sie ihre eigenen Ausgaben erzeugen und bewerten.

AlphaZero übertraf innerhalb von Stunden des Trainings alles menschliche Wissen in Go, Schach und Shogi — ohne menschliche Daten. Dies bewies, dass selbst erzeugte Daten menschlich gewonnene Daten in der Qualität übertreffen können.

Destillation als Datenerzeugung

Ein leistungsfähiges Lehrermodell erzeugt Trainingsdaten für ein kleineres Schülermodell. Das Schülermodell lernt, das Verhalten des Lehrers nachzuahmen und komprimiert so effektiv das Wissen des Lehrers. Dies ist eine der praktisch wichtigsten Techniken für synthetische Daten.

Microsofts Phi-3 wurde größtenteils auf synthetischen Daten trainiert, die von GPT-4 erzeugt wurden. Orca wurde explizit darauf trainiert, GPT-4s Denkspuren nachzuahmen. Dieser Ansatz hat überraschend leistungsfähige kleine Modelle hervorgebracht.

Constitutional AI (Anthropic)

Das Modell kritisiert und überarbeitet seine eigenen Ausgaben basierend auf schriftlichen Prinzipien (einer "Verfassung"). Dies erzeugt synthetische Präferenzdaten ohne menschliche Labeler: Die KI produziert sowohl die fehlerhafte Antwort als auch die verbesserte Version und erstellt so Trainingspaare.

Das Modell erzeugt eine Antwort, bewertet sie dann anhand von Prinzipien wie "sei hilfreich, harmlos und ehrlich." Dann überarbeitet es die Antwort, um besser mit diesen Prinzipien übereinzustimmen. Beide Versionen werden zu Trainingsdaten.

Rejection Sampling & Best-of-N

Erzeuge N Kandidatenantworten, bewerte sie mit einem Belohnungsmodell oder Verifizierer und behalte nur die besten. Dies erstellt einen Datensatz hochwertiger Antworten, aus denen das Modell lernen kann. Einfach, aber effektiv.

Für Mathematikaufgaben: Erzeuge 100 Lösungen, überprüfe, welche zum richtigen Ergebnis führen, und trainiere nur auf den korrekten Lösungen. Dies filtert Fehler heraus und lehrt zuverlässiges Denken.

RLHF/DPO Synthetische Präferenzdaten

Anstelle teurer menschlicher Präferenzkennzeichnung können Modelle ihre eigenen Präferenzpaare erzeugen. Ein starkes Modell beurteilt, welche von zwei Antworten besser ist, und erstellt synthetische Präferenzdaten für DPO- oder RLHF-Training.

Dieser Ansatz hat die Präferenzoptimierung von Open-Source-Modellen in einem Umfang ermöglicht, der mit menschlichen Annotatoren unerschwinglich wäre — Millionen von Präferenzpaaren statt Zehntausende.

Das Model-Collapse-Problem

Wenn Modelle auf Daten trainiert werden, die von anderen Modellen (oder sich selbst) erzeugt wurden, kann die Qualität über Generationen hinweg abnehmen. Jede Trainingsgeneration verstärkt Artefakte und Fehler, während Vielfalt und Nuancen der ursprünglichen Verteilung verloren gehen. Dies wird "Model Collapse" genannt.

Stell dir das vor wie das Fotokopieren einer Fotokopie — jede Generation verliert Wiedergabetreü. KI-generierter Text hat subtile statistische Signaturen, die bei rekursivem Training die Verteilung von natürlicher Sprache wegdrücken. Seltenes, aber wichtiges Wissen geht verloren, während häufige Muster überrepräsentiert werden.

Forschung von Rice und Stanford (2023) zeigte, dass rekursiv auf eigenen Ausgaben trainierte Modelle schließlich degenerieren. Die Lösung: Synthetische Daten immer mit echten menschlichen Daten mischen und die Qualität sorgfältig überwachen.

Skalierungsgesetze für synthetische Daten

Synthetische Daten helfen am meisten, wenn sie gezielt auf bestimmte Schwächen ausgerichtet sind. Zufälliges Erzeugen weiterer Daten hat abnehmende Erträge, aber sorgfältig gestaltete synthetische Daten können die Leistung in bestimmten Bereichen dramatisch verbessern.

Wann synthetische Daten helfen: domänenspezifische Aufgaben (Mathematik, Code, Denken), wenn echte Daten knapp oder teür sind, für Alignment- und Sicherheitstraining, wenn Vielfalt der Trainingsszenarien wichtig ist.

Wann sie schaden: rekursives Selbsttraining ohne Qualitätskontrolle, wenn das Quellmodell systematische Verzerrungen hat, für Aufgaben, die echtes Weltwissen erfordern, wenn als vollständiger Ersatz für echte Daten verwendet.

Praxisbeispiele

Synthetische Daten treiben bereits einige der leistungsfähigsten heute verfügbaren Modelle an.

Phi-3 (Microsoft)

Kleine Modelle (3,8B Parameter), trainiert auf stark gefilterten Webdaten plus GPT-4-generierten synthetischen Daten in "Lehrbuchqualität". Erreicht Leistung, die mit 10x größeren Modellen konkurriert.

Orca 2 (Microsoft)

Auf synthetischen Denkspuren von GPT-4 trainiert. Die Schlüsselinnovation: dem Schülermodell beibringen, verschiedene Denkstrategien (Schritt für Schritt, direkte Antwort usw.) je nach Aufgabenkomplexität anzuwenden.

WizardLM (Evol-Instruct)

Nutzt "evolutionäres Instruktions-Tuning" — beginnend mit einfachen Prompts und iterativer Steigerung der Komplexität durch LLM-gesteürte Evolution. Dies erzeugt einen vielfältigen Satz zunehmend anspruchsvoller Anweisungen.

Nemotron-4 (NVIDIA)

NVIDIAs 340B-Parameter-Modell zur Erzeugung synthetischer Daten für das Training kleinerer Modelle. Über 98% der Alignment-Daten für Nemotron-4 340B wurden synthetisch erzeugt.

Cosmopedia (HuggingFace)

Der größte offene synthetische Datensatz: 25B Token an Lehrbüchern, Blogbeiträgen und Geschichten, erzeugt von Mixtral-8x7B. Konzipiert, um vielfältige, lehrreiche Inhalte für das Vortraining bereitzustellen.

Die Zukunft der Trainingsdaten

Die Landschaft der Trainingsdaten verändert sich rasant, getrieben durch rechtlichen Druck, Datenknappheit und neue multimodale Anforderungen.

Die Datenmaür

Wir nähern uns möglicherweise den Grenzen verfügbarer Textdaten im Internet. Schätzungen zufolge beträgt der Gesamtbestand an qualitativ hochwertigem Text im Web 50-300 Billionen Token. Frontier-Modelle trainieren bereits auf erheblichen Anteilen davon. Diese Knappheit treibt den Vorstoß zu synthetischen Daten und multimodalem Training an.

Multimodale Trainingsdaten

Video-, Audio- und Bilddaten stellen weitaus größere unerschlossene Pools dar. YouTube allein hat über 800M Videos. Training auf Videodaten könnte Modellen physische Kausalität, zeitliches Denken und die reale Welt auf eine Weise beibringen, die Text allein nicht kann.

Regulatorische Landschaft

Der EU AI Act verlangt Transparenz über Trainingsdaten für Hochrisiko-KI-Systeme. Urheberrechtsklagen schaffen rechtliche Präzedenzfälle. Der Trend geht zu mehr Offenlegung und potenziellen Lizenzanforderungen für Trainingsdaten.

Datenlizenzierung & Marktplätze

Eine neue Industrie entsteht rund um lizenzierte Trainingsdaten. Verlage, Content-Ersteller und Datenhändler verhandeln Deals mit KI-Unternehmen. Reddits 60-Mio-$-Google-Deal war erst der Anfang.

Kernaussagen

1Trainingsdaten sind der wichtigste Einzelfaktor für die Bestimmung der Modellfähigkeiten — wichtiger als Architektur oder Trainingsmethoden.
2Große Datensätze (Common Crawl, The Pile, RedPajama, FineWeb) werden aus Web-Crawls, Büchern, Code und wissenschaftlichen Arbeiten im Billionen-Token-Maßstab erstellt.
3Die rechtliche Landschaft entwickelt sich rasant — Klagen über urheberrechtlich geschützte Bücher, Nachrichtenartikel und kreative Werke schaffen neue Präzedenzfälle.
4Datenqualität ist enorm wichtig: Deduplizierung, Filterung toxischer Inhalte und Benchmark-Kontamination sind aktive Herausforderungen.
5Synthetische Daten sind die Frontier — Destillation, Selbstspiel, Constitutional AI und Rejection Sampling produzieren zunehmend leistungsfähige Modelle.
6Model Collapse ist ein reales Risiko: Rekursives Training auf KI-generierten Daten verschlechtert die Qualität ohne sorgfältige Kontrollen.
7Wir stoßen möglicherweise an eine "Datenmaür" für Text, was das Feld zu multimodalen Daten und synthetischer Erzeugung drängt.
8Regulierung (EU AI Act) und Lizenzdeals verändern, wie Trainingsdaten beschafft und offengelegt werden.