Was ist RAG?
Retrieval-Augmented Generation (RAG) verbessert LLM-Antworten, indem relevante Dokumente aus einer Wissensbasis abgerufen und in den Prompt eingefügt werden. Dies gibt Modellen Zugang zu aktüllen oder spezialisierten Informationen.
Warum RAG verwenden?
LLMs haben Wissens-Stichtage und können halluzinieren. RAG verankert Antworten in echten Dokumenten, reduziert Halluzinationen und ermöglicht domänenspezifisches Wissen ohne Fine-Tuning.
Die RAG-Pipeline
RAG-Systeme folgen einem konsistenten Muster: Anfrage einbetten, relevante Chunks abrufen, den Prompt erweitern und eine Antwort generieren.
Anfrage-Einbettung
Die Frage des Benutzers mit einem Einbettungsmodell in einen Vektor umwandeln.
Abruf
Die Vektordatenbank nach Chunks durchsuchen, die der Anfrage-Einbettung ähnlich sind.
Erweiterung
Abgerufene Chunks als Kontext in den Prompt einfügen.
Generierung
Das LLM generiert eine Antwort, die im abgerufenen Kontext verankert ist.
Dokument-Chunking
Dokumente werden in kleinere Chunks aufgeteilt (typischerweise 200-1000 Tokens) für Einbettung und Abruf. Die Chunk-Größe beeinflusst die Abrufgenauigkeit.
Vektordatenbanken
Spezialisierte Datenbanken wie Pinecone, Weaviate oder pgvector ermöglichen schnelle Ähnlichkeitssuche über Millionen von Einbettungen.
Interaktive RAG-Pipeline
Sieh, wie Anfragen durch ein RAG-System fließen
Abfrage eingeben
Was ist die Hauptstadt von Frankreich?
RAG Pipeline
Vector Database
8 documents indexed
Traditionelles vs Agentic RAG
Zwei Ansätze für Retrieval-Augmented Generation mit unterschiedlichen Vor- und Nachteilen.
Traditionelles RAG
Feste Pipeline, vorhersehbarer Ablauf
- •Lineare Ausführung: Anfrage → Abruf → Generierung
- •Einmaliger Abruf, keine Iteration
- •Schnell und vorhersehbar, einfacher zu debuggen
Agentic RAG
LLM-gesteürt, iterativer Prozess
- •LLM entscheidet wann und was abgerufen wird
- •Kann schleifen: Abrufen → Bewerten → Erneut abrufen
- •Bewältigt komplexe, mehrstufige Anfragen
| Aspekt | Traditionelles RAG | Agentic RAG |
|---|---|---|
| Kontrollfluss | Feste Pipeline | LLM entscheidet |
| Abruf | Einmaliger Durchlauf | Mehrere Iterationen |
| Anfragebehandlung | Unverändert verwendet | Kann umformulieren |
| Latenz | Schnell | Variabel |
| Ideal für | Einfache Q&A, Faktenabruf | Komplexes Reasoning, Multi-Hop |
Wann welcher Ansatz gewinnt (oder scheitert)
Erkunde realistische Szenarien, um zu sehen, wann traditionelles RAG Agentic RAG übertrifft, wann das Gegenteil der Fall ist und wann keiner helfen kann.
Benutzeranfrage
"Was ist die Rückgaberichtlinie des Unternehmens?"
Prozessschritte
Einbettung der Anfrage: "Rückgaberichtlinie"
1 hochrelevantes Dokument gefunden (Ähnlichkeit: 0.94)
Generiere Antwort aus abgerufenem Kontext
Abgerufene Dokumente
[richtlinien/rückgabe.md] "Rückgaberichtlinie: Artikel können innerhalb von 30 Tagen nach Kauf mit Originalbeleg zurückgegeben werden. Erstattungen werden innerhalb von 5-7 Werktagen auf die ursprüngliche Zahlungsmethode verarbeitet. Elektronik muss ungeöffnet sein. Sale-Artikel sind vom Umtausch ausgeschlossen."
Finale Antwort
Artikel können innerhalb von 30 Tagen mit dem Originalbeleg zurückgegeben werden. Erstattungen werden innerhalb von 5-7 Werktagen auf Ihre ursprüngliche Zahlungsmethode verarbeitet. Beachten Sie, dass Elektronik ungeöffnet sein muss und Sale-Artikel vom Umtausch ausgeschlossen sind.
Warum dieses Ergebnis?
Für einfache Faktenanfragen ist traditionelles RAG effizienter. Die Antwort existiert in einem einzigen Dokument, sodass die direkte Abruf-dann-Generierung-Pipeline perfekt funktioniert. Agentic RAG kommt zur gleichen Antwort, aber mit unnötigem Overhead durch Planungs- und Bewertungsschritte—verschwendet Zeit und Tokens.
Agentic RAG
Bei agentic RAG empfängt das LLM nicht nur abgerufene Dokumente—es steürt aktiv den Abrufprozess. Das Modell entscheidet, wann gesucht wird, wonach gesucht wird und welche Abrufwerkzeuge verwendet werden.
Funktionsweise
Statt einer festen Pipeline erhält das LLM Abrufwerkzeuge, die es nach Bedarf aufrufen kann. Es kann Anfragen umformulieren, mehrfach suchen oder verschiedene Suchstrategien je nach Aufgabe kombinieren.
Vorteile
- +Anfrageverfeinerung: Das LLM kann komplexe Fragen umformulieren oder zerlegen
- +Multi-Hop-Reasoning: Mehrere Abrufe verketten, um komplexe Fragen zu beantworten
- +Adaptive Suche: Das richtige Werkzeug für jede Teilfrage wählen
- +Selbstkorrektur: Erneut abrufen, wenn erste Ergebnisse unzureichend sind
Nachteile
- -Höhere Latenz: Mehrere LLM-Aufrufe und Abrufe summieren sich
- -Erhöhte Kosten: Jeder Reasoning-Schritt kostet Tokens
- -Komplexität: Schwerer zu debuggen und Verhalten vorherzusagen
- -Fehlermodi: LLM könnte in Schleifen geraten, zu viel abrufen oder offensichtliche Anfragen übersehen
Standard-RAG ist einfacher und schneller für unkomplizierte Frage-Antwort-Szenarien. Verwende Agentic RAG, wenn Anfragen komplex sind, mehrere Quellen erfordern oder von Anfrageverfeinerung profitieren.
Multi-Tool-Abruf
Gib dem LLM mehrere Abrufwerkzeuge für verschiedene Anwendungsfälle. Diese Flexibilität lässt das Modell den besten Ansatz für jede Anfrage wählen.
Semantische Suche
Vektorähnlichkeit für konzeptülle Übereinstimmung. Ideal für: "Dokumente über X", verwandte Inhalte finden.
Volltextsuche
Keyword/BM25-Suche für exakte Treffer. Ideal für: spezifische Begriffe, Namen, Codes, Fehlermeldungen.
SQL/Strukturierte Abfrage
Strukturierte Daten direkt abfragen. Ideal für: Zählungen, Aggregationen, Filterung nach Attributen.
Wissensgraph
Entitätsbeziehungen traversieren. Ideal für: "Wie hängt X mit Y zusammen", Multi-Hop-Fakten.
Fortgeschrittene RAG-Techniken
Über das grundlegende RAG hinaus verwenden moderne Systeme ausgefeilte Techniken, um die Abrufqualität, Antwortgenauigkeit und den Umgang mit komplexen Anfragen zu verbessern. Diese 2025-Ansätze repräsentieren den Stand der Technik.
Self-RAG
Self-RAG führt Selbstreflexion in den Abrufprozess ein. Anstatt immer abzurufen, entscheidet das Modell, wann ein Abruf erforderlich ist, und bewertet abgerufene Inhalte kritisch vor der Verwendung.
Wie Self-RAG funktioniert
Das Modell generiert spezielle Reflexions-Tokens während der Inferenz: [Retrieve] um zu entscheiden, ob ein Abruf nötig ist, [IsRel] um die Relevanz abgerufener Passagen zu bewerten, [IsSup] um zu überprüfen, ob die Antwort vom Kontext unterstutzt wird, und [IsUse] um den Gesamtnutzen zu bewerten.
Abrufentscheidung
Das Modell entscheidet, ob die Anfrage externes Wissen benötigt oder aus dem parametrischen Gedächtnis allein beantwortet werden kann.
Selbstkritik
Abgerufene Passagen werden auf Relevanz bewertet. Irrelevante oder qualitativ schlechte Ergebnisse werden vor der Generierung gefiltert.
Fundierte Generierung
Die Antwort wird mit expliziten Fundierungsprüfungen generiert. Das Modell überprüft, ob Aussagen vom abgerufenen Kontext unterstützt werden.
GraphRAG
GraphRAG kombiniert Vektor-Ähnlichkeitssuche mit Wissensgraph-Traversierung. Es erstellt einen Graphen von Entitäten und Beziehungen aus Ihren Dokumenten und ermöglicht sowohl semantische Suche als auch strukturiertes Reasoning.
Vektorsuche-Schicht
Traditionelle semantische Suche findet relevante Dokumentenchunks. Dies behandelt den "was ist meiner Anfrage ähnlich"-Teil des Abrufs.
Wissensgraph-Schicht
Entitäten und Beziehungen werden extrahiert und verknüpft. Ermöglicht Multi-Hop-Reasoning wie "Finde alle Produkte, die von Unternehmen erwähnt wurden, die mit X kooperiert haben".
Hauptvorteile
- +Bessere Handhabung von Fragen, die Beziehungs-Reasoning erfordern
- +Verbesserte Genauigkeit für Multi-Entitäts-Anfragen
- +Ermöglicht globale Zusammenfassung über ganze Dokumentensammlungen
Anfrageerweiterung
Benutzeranfragen sind oft unvollständig oder schlecht für den Abruf formuliert. Anfrageerweiterungstechniken transformieren Anfragen vor der Suche, um die Abrufqualität zu verbessern.
HyDE (Hypothetische Dokument-Einbettungen)
Generiere zürst eine hypothetische Antwort, dann verwende die Einbettung dieser Antwort fur den Abruf. Dies überbrückt die Lücke zwischen Frage- und Dokument-Einbettungsraumen.
Anfrage-Zerlegung
Zerlege komplexe Anfragen in einfachere Teilanfragen. Jede Teilanfrage ruft unabhängig ab, dann werden die Ergebnisse kombiniert.
Anfrage-Expansion
Füge Synonyme, verwandte Begriffe oder Umformulierungen zur ursprunglichen Anfrage hinzu. Erhöht den Recall durch Matching von Dokumenten mit unterschiedlicher Terminologie.
Anfrage-Umschreibung
Verwende ein LLM, um mehrdeutige oder umgangssprachliche Anfragen in klare, suchoptimierte Formen umzuschreiben. Behandelt Pronomen, Kontext und implizite Referenzen.
RAG-Evaluierung
Die Messung der RAG-Systemqualität erfordert spezialisierte Metriken, die sowohl Abruf als auch Generierung bewerten. RAGAS (Retrieval Augmented Generation Assessment) bietet ein Standard-Framework.
RAGAS-Framework
RAGAS verwendet LLM-basierte Evaluierung, um RAG-Systeme zu bewerten, ohne Ground-Truth-Labels fur jede Frage zu benötigen. Es misst mehrere Qualitätsdimensionen.
Treü (Faithfulness)
Enthalt die Antwort nur Informationen aus dem abgerufenen Kontext? Misst Halluzination—Behauptungen, die nicht von den bereitgestellten Dokumenten unterstützt werden.
Antwortrelevanz
Adressiert die Antwort tatsächlich die gestellte Frage? Eine treü Antwort kann immer noch irrelevant sein, wenn sie das Thema verfehlt.
Kontext-Recall
Hat der Abruf alle benötigten Informationen für die Antwort gefunden? Misst, ob relevante Passagen übersehen wurden.
Kontext-Precision
Sind die abgerufenen Passagen tatsächlich relevant? Hohe Precision bedeutet weniger Rauschen im Kontext, was Verwirrung reduziert.
Best Practices für die Evaluierung
- 1.Erstelle ein vielfältiges Testset, das verschiedene Anfragetypen und Schwierigkeitsgrade abdeckt
- 2.Verfolge Metriken uber die Zeit, während du Chunking, Einbettungen und Prompts iterierst
- 3.Kombiniere automatisierte Metriken mit menschlicher Bewertung fur nuancierte Qualitätsbeurteilung
Wichtige Erkenntnisse
- 1RAG ruft relevante Dokumente ab und fügt sie in den Prompt ein
- 2Es reduziert Halluzinationen, indem Antworten in echten Quellen verankert werden
- 3Chunking-Strategie und Einbettungsqualität sind entscheidend für guten Abruf
- 4RAG ist oft dem Fine-Tuning vorzuziehen, um Domänenwissen hinzuzufügen
- 5Fortgeschrittene Techniken wie Self-RAG und GraphRAG verbessern die Genauigkeit bei komplexen Anfragen
- 6Verwende RAGAS-Metriken, um deine RAG-Pipeline systematisch zu evaluieren und zu verbessern