RAG (Retrieval Augmented Generation)

Was ist RAG?

Retrieval-Augmented Generation (RAG) verbessert LLM-Antworten, indem relevante Dokumente aus einer Wissensbasis abgerufen und in den Prompt eingefügt werden. Dies gibt Modellen Zugang zu aktüllen oder spezialisierten Informationen.

Warum RAG verwenden?

LLMs haben Wissens-Stichtage und können halluzinieren. RAG verankert Antworten in echten Dokumenten, reduziert Halluzinationen und ermöglicht domänenspezifisches Wissen ohne Fine-Tuning.

Die RAG-Pipeline

RAG-Systeme folgen einem konsistenten Muster: Anfrage einbetten, relevante Chunks abrufen, den Prompt erweitern und eine Antwort generieren.

Anfrage-Einbettung

Die Frage des Benutzers mit einem Einbettungsmodell in einen Vektor umwandeln.

Abruf

Die Vektordatenbank nach Chunks durchsuchen, die der Anfrage-Einbettung ähnlich sind.

Erweiterung

Abgerufene Chunks als Kontext in den Prompt einfügen.

Generierung

Das LLM generiert eine Antwort, die im abgerufenen Kontext verankert ist.

Dokument-Chunking

Dokumente werden in kleinere Chunks aufgeteilt (typischerweise 200-1000 Tokens) für Einbettung und Abruf. Die Chunk-Größe beeinflusst die Abrufgenauigkeit.

Vektordatenbanken

Spezialisierte Datenbanken wie Pinecone, Weaviate oder pgvector ermöglichen schnelle Ähnlichkeitssuche über Millionen von Einbettungen.

🔍

Interaktive RAG-Pipeline

Sieh, wie Anfragen durch ein RAG-System fließen

Abfrage eingeben

Was ist die Hauptstadt von Frankreich?

RAG Pipeline

Embed Query

Retrieve

Augment

Generate

Vector Database

8 documents indexed

Geography: FranceParis is the capital of France. It is known for th...

Geography: GermanyBerlin is the capital of Germany. It is known for ...

Geography: ItalyRome is the capital of Italy. It features ancient ...

Geography: SpainMadrid is the capital of Spain. It is famous for i...

Science: PhysicsAlbert Einstein developed the theory of relativity...

Science: ChemistryThe periodic table organizes chemical elements by ...

History: World War IIWorld War II lasted from 1939 to 1945. It involved...

Technology: AIArtificial Intelligence enables machines to learn ...

⚖️

Traditionelles vs Agentic RAG

Zwei Ansätze für Retrieval-Augmented Generation mit unterschiedlichen Vor- und Nachteilen.

Traditionelles RAG

Feste Pipeline, vorhersehbarer Ablauf

•Lineare Ausführung: Anfrage → Abruf → Generierung
•Einmaliger Abruf, keine Iteration
•Schnell und vorhersehbar, einfacher zu debuggen

Agentic RAG

LLM-gesteürt, iterativer Prozess

•LLM entscheidet wann und was abgerufen wird
•Kann schleifen: Abrufen → Bewerten → Erneut abrufen
•Bewältigt komplexe, mehrstufige Anfragen

Aspekt	Traditionelles RAG	Agentic RAG
Kontrollfluss	Feste Pipeline	LLM entscheidet
Abruf	Einmaliger Durchlauf	Mehrere Iterationen
Anfragebehandlung	Unverändert verwendet	Kann umformulieren
Latenz	Schnell	Variabel
Ideal für	Einfache Q&A, Faktenabruf	Komplexes Reasoning, Multi-Hop

🎯

Wann welcher Ansatz gewinnt (oder scheitert)

Erkunde realistische Szenarien, um zu sehen, wann traditionelles RAG Agentic RAG übertrifft, wann das Gegenteil der Fall ist und wann keiner helfen kann.

Benutzeranfrage

"Was ist die Rückgaberichtlinie des Unternehmens?"

Prozessschritte

Suchen

Einbettung der Anfrage: "Rückgaberichtlinie"

Abgerufen

1 hochrelevantes Dokument gefunden (Ähnlichkeit: 0.94)

Generieren

Generiere Antwort aus abgerufenem Kontext

Abgerufene Dokumente

[richtlinien/rückgabe.md] "Rückgaberichtlinie: Artikel können innerhalb von 30 Tagen nach Kauf mit Originalbeleg zurückgegeben werden. Erstattungen werden innerhalb von 5-7 Werktagen auf die ursprüngliche Zahlungsmethode verarbeitet. Elektronik muss ungeöffnet sein. Sale-Artikel sind vom Umtausch ausgeschlossen."

Finale Antwort

Artikel können innerhalb von 30 Tagen mit dem Originalbeleg zurückgegeben werden. Erstattungen werden innerhalb von 5-7 Werktagen auf Ihre ursprüngliche Zahlungsmethode verarbeitet. Beachten Sie, dass Elektronik ungeöffnet sein muss und Sale-Artikel vom Umtausch ausgeschlossen sind.

Warum dieses Ergebnis?

Für einfache Faktenanfragen ist traditionelles RAG effizienter. Die Antwort existiert in einem einzigen Dokument, sodass die direkte Abruf-dann-Generierung-Pipeline perfekt funktioniert. Agentic RAG kommt zur gleichen Antwort, aber mit unnötigem Overhead durch Planungs- und Bewertungsschritte—verschwendet Zeit und Tokens.

Agentic RAG

Bei agentic RAG empfängt das LLM nicht nur abgerufene Dokumente—es steürt aktiv den Abrufprozess. Das Modell entscheidet, wann gesucht wird, wonach gesucht wird und welche Abrufwerkzeuge verwendet werden.

Funktionsweise

Statt einer festen Pipeline erhält das LLM Abrufwerkzeuge, die es nach Bedarf aufrufen kann. Es kann Anfragen umformulieren, mehrfach suchen oder verschiedene Suchstrategien je nach Aufgabe kombinieren.

Vorteile

+Anfrageverfeinerung: Das LLM kann komplexe Fragen umformulieren oder zerlegen
+Multi-Hop-Reasoning: Mehrere Abrufe verketten, um komplexe Fragen zu beantworten
+Adaptive Suche: Das richtige Werkzeug für jede Teilfrage wählen
+Selbstkorrektur: Erneut abrufen, wenn erste Ergebnisse unzureichend sind

Nachteile

-Höhere Latenz: Mehrere LLM-Aufrufe und Abrufe summieren sich
-Erhöhte Kosten: Jeder Reasoning-Schritt kostet Tokens
-Komplexität: Schwerer zu debuggen und Verhalten vorherzusagen
-Fehlermodi: LLM könnte in Schleifen geraten, zu viel abrufen oder offensichtliche Anfragen übersehen

Standard-RAG ist einfacher und schneller für unkomplizierte Frage-Antwort-Szenarien. Verwende Agentic RAG, wenn Anfragen komplex sind, mehrere Quellen erfordern oder von Anfrageverfeinerung profitieren.

Multi-Tool-Abruf

Gib dem LLM mehrere Abrufwerkzeuge für verschiedene Anwendungsfälle. Diese Flexibilität lässt das Modell den besten Ansatz für jede Anfrage wählen.

Semantische Suche

Vektorähnlichkeit für konzeptülle Übereinstimmung. Ideal für: "Dokumente über X", verwandte Inhalte finden.

Volltextsuche

Keyword/BM25-Suche für exakte Treffer. Ideal für: spezifische Begriffe, Namen, Codes, Fehlermeldungen.

SQL/Strukturierte Abfrage

Strukturierte Daten direkt abfragen. Ideal für: Zählungen, Aggregationen, Filterung nach Attributen.

Wissensgraph

Entitätsbeziehungen traversieren. Ideal für: "Wie hängt X mit Y zusammen", Multi-Hop-Fakten.

Fortgeschrittene RAG-Techniken

Über das grundlegende RAG hinaus verwenden moderne Systeme ausgefeilte Techniken, um die Abrufqualität, Antwortgenauigkeit und den Umgang mit komplexen Anfragen zu verbessern. Diese 2025-Ansätze repräsentieren den Stand der Technik.

Self-RAG

Self-RAG führt Selbstreflexion in den Abrufprozess ein. Anstatt immer abzurufen, entscheidet das Modell, wann ein Abruf erforderlich ist, und bewertet abgerufene Inhalte kritisch vor der Verwendung.

Wie Self-RAG funktioniert

Das Modell generiert spezielle Reflexions-Tokens während der Inferenz: [Retrieve] um zu entscheiden, ob ein Abruf nötig ist, [IsRel] um die Relevanz abgerufener Passagen zu bewerten, [IsSup] um zu überprüfen, ob die Antwort vom Kontext unterstutzt wird, und [IsUse] um den Gesamtnutzen zu bewerten.

Abrufentscheidung

Das Modell entscheidet, ob die Anfrage externes Wissen benötigt oder aus dem parametrischen Gedächtnis allein beantwortet werden kann.

Selbstkritik

Abgerufene Passagen werden auf Relevanz bewertet. Irrelevante oder qualitativ schlechte Ergebnisse werden vor der Generierung gefiltert.

Fundierte Generierung

Die Antwort wird mit expliziten Fundierungsprüfungen generiert. Das Modell überprüft, ob Aussagen vom abgerufenen Kontext unterstützt werden.

GraphRAG

GraphRAG kombiniert Vektor-Ähnlichkeitssuche mit Wissensgraph-Traversierung. Es erstellt einen Graphen von Entitäten und Beziehungen aus Ihren Dokumenten und ermöglicht sowohl semantische Suche als auch strukturiertes Reasoning.

Vektorsuche-Schicht

Traditionelle semantische Suche findet relevante Dokumentenchunks. Dies behandelt den "was ist meiner Anfrage ähnlich"-Teil des Abrufs.

Wissensgraph-Schicht

Entitäten und Beziehungen werden extrahiert und verknüpft. Ermöglicht Multi-Hop-Reasoning wie "Finde alle Produkte, die von Unternehmen erwähnt wurden, die mit X kooperiert haben".

Hauptvorteile

+Bessere Handhabung von Fragen, die Beziehungs-Reasoning erfordern
+Verbesserte Genauigkeit für Multi-Entitäts-Anfragen
+Ermöglicht globale Zusammenfassung über ganze Dokumentensammlungen

Anfrageerweiterung

Benutzeranfragen sind oft unvollständig oder schlecht für den Abruf formuliert. Anfrageerweiterungstechniken transformieren Anfragen vor der Suche, um die Abrufqualität zu verbessern.

HyDE (Hypothetische Dokument-Einbettungen)

Generiere zürst eine hypothetische Antwort, dann verwende die Einbettung dieser Antwort fur den Abruf. Dies überbrückt die Lücke zwischen Frage- und Dokument-Einbettungsraumen.

Anfrage: "Klimawandel Auswirkungen" -> Hypothetisches Dok. generieren -> Das einbetten -> Suchen

Anfrage-Zerlegung

Zerlege komplexe Anfragen in einfachere Teilanfragen. Jede Teilanfrage ruft unabhängig ab, dann werden die Ergebnisse kombiniert.

"Vergleiche A mit B" -> "Was ist A?" + "Was ist B?" -> Ergebnisse zusammenführen

Anfrage-Expansion

Füge Synonyme, verwandte Begriffe oder Umformulierungen zur ursprunglichen Anfrage hinzu. Erhöht den Recall durch Matching von Dokumenten mit unterschiedlicher Terminologie.

Anfrage-Umschreibung

Verwende ein LLM, um mehrdeutige oder umgangssprachliche Anfragen in klare, suchoptimierte Formen umzuschreiben. Behandelt Pronomen, Kontext und implizite Referenzen.

RAG-Evaluierung

Die Messung der RAG-Systemqualität erfordert spezialisierte Metriken, die sowohl Abruf als auch Generierung bewerten. RAGAS (Retrieval Augmented Generation Assessment) bietet ein Standard-Framework.

RAGAS-Framework

RAGAS verwendet LLM-basierte Evaluierung, um RAG-Systeme zu bewerten, ohne Ground-Truth-Labels fur jede Frage zu benötigen. Es misst mehrere Qualitätsdimensionen.

Treü (Faithfulness)

Enthalt die Antwort nur Informationen aus dem abgerufenen Kontext? Misst Halluzination—Behauptungen, die nicht von den bereitgestellten Dokumenten unterstützt werden.

Antwortrelevanz

Adressiert die Antwort tatsächlich die gestellte Frage? Eine treü Antwort kann immer noch irrelevant sein, wenn sie das Thema verfehlt.

Kontext-Recall

Hat der Abruf alle benötigten Informationen für die Antwort gefunden? Misst, ob relevante Passagen übersehen wurden.

Kontext-Precision

Sind die abgerufenen Passagen tatsächlich relevant? Hohe Precision bedeutet weniger Rauschen im Kontext, was Verwirrung reduziert.

Best Practices für die Evaluierung

1.Erstelle ein vielfältiges Testset, das verschiedene Anfragetypen und Schwierigkeitsgrade abdeckt
2.Verfolge Metriken uber die Zeit, während du Chunking, Einbettungen und Prompts iterierst
3.Kombiniere automatisierte Metriken mit menschlicher Bewertung fur nuancierte Qualitätsbeurteilung

Wichtige Erkenntnisse

1RAG ruft relevante Dokumente ab und fügt sie in den Prompt ein
2Es reduziert Halluzinationen, indem Antworten in echten Quellen verankert werden
3Chunking-Strategie und Einbettungsqualität sind entscheidend für guten Abruf
4RAG ist oft dem Fine-Tuning vorzuziehen, um Domänenwissen hinzuzufügen
5Fortgeschrittene Techniken wie Self-RAG und GraphRAG verbessern die Genauigkeit bei komplexen Anfragen
6Verwende RAGAS-Metriken, um deine RAG-Pipeline systematisch zu evaluieren und zu verbessern