GraphRAG Mit Graphdatenbanken die KI optimieren

Von Michael Hunger, Neo4j * 6 min Lesedauer

Anbieter zum Thema

Um mit Generativer KI etwas wirklich Nützliches zu tun, kann man sich nicht allein auf autoregressive LLMs verlassen. Retrieval Augmented Generation (RAG) entwickelt sich zu einem wichtigen Ansatz, um die Qualität generativer KI zu verbessern. Die Kombination mit Knowledge-Graphen (GraphRAG) liefert dafür das nötige kontextuelle Grounding.

Large Language Models (LLMs) sind leistungsfähig, doch oft fehlt ihnen spezifischer Kontext und Nachvollziehbarkeit. Retrieval Augmented Generation (RAG) erweitert LLMs um externe Datenquellen – doch stößt an Grenzen. GraphRAG kombiniert RAG mit Knowledge-Graphen für präzisere, erklärbare Antworten.(Bild:  Neo4j)
Large Language Models (LLMs) sind leistungsfähig, doch oft fehlt ihnen spezifischer Kontext und Nachvollziehbarkeit. Retrieval Augmented Generation (RAG) erweitert LLMs um externe Datenquellen – doch stößt an Grenzen. GraphRAG kombiniert RAG mit Knowledge-Graphen für präzisere, erklärbare Antworten.
(Bild: Neo4j)

Large Language Models (LLMs) zeichnen sich dadurch aus, dass sie natürliche Sprache verstehen und generieren können. Geht es jedoch um die Beantwortung spezifischer Fragen, stoßen die Modelle noch immer an Grenzen. Zum einen fehlt den Sprachmodellen oft ein branchen- oder unternehmensspezifischer Kontext. Zum anderen lassen sich die Ergebnisse in vielen Fällen nicht zurückverfolgen bzw. erklären. Da LLMs darüber hinaus auf statischen Trainingsdaten basieren, sind ihre Antworten selten aktuell.

Um diese Einschränkungen zu überwinden, kommen neue Ansätze zur Verbesserung zum Einsatz. Allen voran gilt Retrieval Augmented Generation (RAG) als ein vielversprechender Ansatz.

Was ist Retrieval Augmented Generation (RAG) und wie funktioniert es?

RAG ist eine Technik, um im Rahmen des LLM-Abfrageprozesses ergänzende Informationen aus externen Datenspeichern abzurufen und für die Generierung von Antworten zu nutzen. Externe Quellen können zum Beispiel Unternehmensdatenbanken, Dokumente oder Websites sein, die domänenspezifische, proprietäre Daten enthalten. Sie liefern dem LLM spezifische, kontextbezogene Informationen, die über den Datenpool hinausgehen, auf dem das LLM ursprünglich trainiert wurde.

Der RAG-Prozess verarbeitet die natürlichsprachliche Frage eines Nutzers, ergänzt sie um externe Informationen und übergibt beides gebündelt an das LLM. Auf dieser Basis generiert das Modell die finale Antwort unter Einbeziehung der Frage und der zusätzlichen Kontextinformationen. Dies gewährleistet nicht nur die Aktualität der Ergebnisse, sondern reduziert auch KI-Halluzinationen, ermöglicht den sicheren Umgang mit sensiblen Daten und unterstützt die Einhaltung von Security- und Compliance-Richtlinien.

Grenzen von RAG

Vektordatenbanken gelten als Standardtools zur Implementierung von RAG. Dabei wird unstrukturierter Text (z. B. PDFs) in kleinere Abschnitte unterteilt und in numerische Repräsentationen (Vektor-Embeddings) umgewandelt, die den Kern des jeweiligen Textes erfassen. In Vektordatenbanken gespeichert, ermöglichen diese Vektoren eine effiziente Ähnlichkeitssuche, um relevante Textabschnitte zur gestellten Frage zu identifizieren und dem LLM zuzuführen.

Es gibt jedoch Anwendungsfällen, bei denen vektorbasierte RAG an eine Grenze stößt. Microsoft umschreibt die inhärenten Einschränkungen wie folgt:

  • RAG kämpft damit, Informationen zu verbinden. Das ist vor allem dann der Fall, wenn die Beantwortung einer Frage es erfordert, unterschiedliche Informationen anhand ihrer gemeinsamen Attribute untersuchen zu müssen, um neue, synthetische Erkenntnisse zu gewinnen.
  • RAG schneidet außerdem schlecht ab, wenn es darum geht, zusammengefasste semantische Konzepte über große Datensammlungen oder sogar einzelne große Dokumente ganzheitlich zu verstehen.

RAG und Knowledge-Graphen (GraphRAG)

Bild 1: Beispiel einer Frage an eine GenAI Anwendung mit GraphRAG(Bild:  Neo4j)
Bild 1: Beispiel einer Frage an eine GenAI Anwendung mit GraphRAG
(Bild: Neo4j)

Knowledge-Graphen (KG) integrieren Daten aus verschiedenen Quellen und stellen diese als Knoten dar (z. B. Personen, Orte oder Ereignisse), die durch sogenannte Kanten miteinander verknüpft sind und damit Beziehungen abbilden. Diese Struktur beschreibt Daten auf eine Weise, die für Menschen intuitiv nachvollziehbar bleibt und gleichzeitig maschinell verarbeitet werden kann. Knowledge-Graphen liefern damit den für Generative KI dringend benötigten Kontext.

Hier kommt GraphRAG ins Spiel. Der Ansatz funktioniert wie RAG. Nur wird bei der Abfrage neben Vektoren zusätzlich ein Knowledge Graph genutzt. Entwickler können Graphen und Vektoren entweder separat in zwei verschiedenen Datenbanken speichern oder eine Graphdatenbank wie Neo4j verwenden, die eine Vektorsuche unterstützt. Dank GraphRAG können semantische Ähnlichkeiten in Texten erkannt werden und zugleich mit dem Kontext strukturierter Daten erweiter. Dadurch werden die vom LLM generierten Antworten gezielter und gehen präziser auf die ursprüngliche Frage ein.

Vorteile von GraphRAG

Die Vorteile von GraphRAG im Vergleich zu reinem Vektor-RAG lassen sich in drei Bereiche einteilen und werden im Folgenden beispielhaft beschrieben:

1. Höhere Qualität der Antworten

Bild 2: Vergleich der Antworten von GenAI mit RAG Und mit GraphRAG(Bild:  Neo4j)
Bild 2: Vergleich der Antworten von GenAI mit RAG Und mit GraphRAG
(Bild: Neo4j)

Die Genauigkeit von LLMs definiert sich nicht allein über die Korrektheit einer Antwort, sondern auch über ihre Relevanz bzw. Nützlichkeit für einen Anwendungsfall. Ein gutes Beispiel dafür stammt aus einem Workshop zu Generativer KI, den Neo4j gemeinsam mit Partnern bei GCP, AWS und Microsoft durchführte (Ressourcen über GitHub einsehbar). Das LLM sollte Fragen basierend auf SEC Filings beantworten. Unternehmen müssen diese standardisierten Dokumente seit den 30er Jahren bei der US-amerikanische Wertpapier- und Börsenaufsichtsbehörde einreichen. Die beispielhafte Frage lautete: Bei welchen Asset Managers ist das Risiko von Lieferengpässen bei Lithium am höchsten? Bei der Beantwortung unterschied sich die Detailtiefe und Relevanz zwischen LLM mit Vektor-RAG und LLM mit GraphRAG deutlich (siehe Bild 2).

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Während die Antwort mit Hilfe des Vektor-Ansatzes eher allgemeine Kriterien beschreibt, die zu einer Lithiumverknappung führen können, liefert das KI-Modell mit Hilfe von GraphRAG eine detaillierte Liste mit Namen von Unternehmen. Der konkrete Mehrwert für einen Anleger, der sein Portfolio angesichts volatiler Märkte neu ausrichten will, oder für einen Supply Chain Manager eines globalen Elektronikhersteller ist hier klar.

2. Einfaches Debugging

Bild 3: Abbildung von Daten und Datenbeziehungen in einem Knowledge Graphen.(Bild:  Neo4j)
Bild 3: Abbildung von Daten und Datenbeziehungen in einem Knowledge Graphen.
(Bild: Neo4j)

Knowledge-Graphen sind sowohl konzeptionell als auch visuell intuitiv. Durch das Knoten-Kanten-Modell lassen sich Daten sowie Datenbeziehungen speichern und abfragen. Das fördert nicht selten unbekannte Zusammenhänge, verborgene Muster und neue Erkenntnisse zu Tage. Ein für viele unerwarteter Nebeneffekt ist auch, dass Knowledge-Graphen, einmal modelliert, beim Aufbau und Debugging der eigenen Generativen-KI-Anwendungen helfen kann. Daten, die einer Anwendung oder einer Antwort zu Grunde liegen, lassen sich entlang der Verbindung kausal rückverfolgen und offenlegen.

Wie sich komplexe Daten abbilden lassen, zeigt ein Beispiel von LlamaIndex. Das vielseitige Framework unterstützt Entwickler in verschiedenen Phasen der Arbeit an LLMs und Generative KI Anwendungen. In einer Demo wurden vektorisierte Chunks mit LLM-extrahierten Entitäten in einem Graphen miteinander verknüpft (Kante „MENTIONS“). Das Ergebnis ist in Bild 3 zu sehen. An Komplexität bzw. Reichhaltigkeit haben die Daten dabei nicht verloren. Für Anwender aber eröffnet sich eine breite Palette, um Anwendungen zu entwickeln und zu debuggen.

3. Bessere Governance

Bild 4: Zugangsberechtigungen sind direkt im Graphen abgelegt(Bild:  Neo4j)
Bild 4: Zugangsberechtigungen sind direkt im Graphen abgelegt
(Bild: Neo4j)

LLMs können angehalten werden, beim Generieren von Antworten zwar auf zugrunde liegende Dokumente verweisen. Den Entscheidungsprozess selbst können sie jedoch nicht erklären. Zudem sind die Sprachmodelle dafür bekannt, Referenzen einfach zu erfinden. Knowledge-Graphen ermöglichen es, die Argumentationslogik innerhalb von KI-Pipelines klar nachzuzeichnen.

Die Daten sind navigierbar, lassen sich korrigieren, ergänzen und aktualisieren. Datenfehler können erkannt und bis zu ihrer Quelle zurückverfolgt werden. Informationen zur Herkunft liegen im Graphen mit ab, um beispielsweise die Vertrauenswürdigkeit von Antworten zu berechnen. All das verbessert die Governance und Qualitätssicherung. Sicherheit und Datenschutz stehen bei der Entwicklung von Prototypen einer Generativen KI zwar oft an zweiter Stelle. Sie sind aber zentral, wenn es in die Produktion geht. Der Zugang zu sensiblen Informationen lässt sich über Berechtigungen direkt im Graphen regeln (Bild 4).

Tools zum schnellen Erstellen von Knowledge-Graphen

GraphRAG macht die Ergebnisse einer Generativen KI genauer, präziser und aktueller. Dabei ist das Erstellen eines Knowledge-Graphen oft der schwierigste Schritt. Entwickler müssen Daten sammeln, bereinigen, strukturieren und verknüpfen. Die gute Nachricht: Mittlerweile ist das Tooling in diesem Bereich so weit fortgeschritten, dass sich Knowledge-Graphen relativ einfach erstellen lassen.

Ein solches Tool ist beispielsweise der Neo4j LLM Knowledge Graph Builder. Er erlaubt Entwicklern, unstrukturierte Inhalte in wenigen Schritten in einen Knowledge-Graphen verwandeln – ganz ohne Code-Kenntnisse. Der LLM KG Builder unterstützt sowohl Textdokumente, PDFs und Webseiten als auch Bilder sowie Texttranskripte von Youtube-Videos. Dokumente lassen sich in ihre einzelnen Bestandteile zerlegen, die mit Vektor-Embeddings versehen werden. Die erfassten Entitäten und Beziehungen werden mit Hilfe von Neo4j Graph-Features als Knoten und Kanten in das Datenmodell eines Graphen überführt und in der Neo4j Instanz gespeichert. Dabei bleiben die Entitäten mit den Ursprungsdokumenten korreliert. Zusätzlich lassen sich mittels Clustering über die Entitätsnetzwerken Querschnittszusammenfassungen aktivieren. Mittels verschiedener RAG GraphRAG Retriever lässt sich eine Frage über den Knowledge Graphen beantworten, die Ergebnisse können verglichen, die darunterliegenden Informationen dargestellt und Evaluationsmetriken berechnet werden. Das kostenlose Online-Tool ist Teil des Neo4j GraphRAG Ecosystems. Anwender benötigen lediglich eine Cloud-Instanz der Graphdatenbank (Neo4j Aura).

 (sg)

* Michael Hunger ist Head of Product Innovation & Developer Product Strategy bei Neo4j

(ID:50306603)