Mit Graphdatenbanken die KI optimieren

GraphRAG Mit Graphdatenbanken die KI optimieren

04.02.2025 Von Michael Hunger, Neo4j * 6 min Lesedauer

Anbieter zum Thema

Neo4j Germany GmbH

MicroConsult Academy GmbH

emlix GmbH

Parasoft® Deutschland GmbH

Um mit Generativer KI etwas wirklich Nützliches zu tun, kann man sich nicht allein auf autoregressive LLMs verlassen. Retrieval Augmented Generation (RAG) entwickelt sich zu einem wichtigen Ansatz, um die Qualität generativer KI zu verbessern. Die Kombination mit Knowledge-Graphen (GraphRAG) liefert dafür das nötige kontextuelle Grounding.

Large Language Models (LLMs) sind leistungsfähig, doch oft fehlt ihnen spezifischer Kontext und Nachvollziehbarkeit. Retrieval Augmented Generation (RAG) erweitert LLMs um externe Datenquellen – doch stößt an Grenzen. GraphRAG kombiniert RAG mit Knowledge-Graphen für präzisere, erklärbare Antworten.(Bild: Neo4j) — Large Language Models (LLMs) sind leistungsfähig, doch oft fehlt ihnen spezifischer Kontext und Nachvollziehbarkeit. Retrieval Augmented Generation (RAG) erweitert LLMs um externe Datenquellen – doch stößt an Grenzen. GraphRAG kombiniert RAG mit Knowledge-Graphen für präzisere, erklärbare Antworten.
(Bild: Neo4j)

Large Language Models (LLMs) zeichnen sich dadurch aus, dass sie natürliche Sprache verstehen und generieren können. Geht es jedoch um die Beantwortung spezifischer Fragen, stoßen die Modelle noch immer an Grenzen. Zum einen fehlt den Sprachmodellen oft ein branchen- oder unternehmensspezifischer Kontext. Zum anderen lassen sich die Ergebnisse in vielen Fällen nicht zurückverfolgen bzw. erklären. Da LLMs darüber hinaus auf statischen Trainingsdaten basieren, sind ihre Antworten selten aktuell.

Um diese Einschränkungen zu überwinden, kommen neue Ansätze zur Verbesserung zum Einsatz. Allen voran gilt Retrieval Augmented Generation (RAG) als ein vielversprechender Ansatz.

Was ist Retrieval Augmented Generation (RAG) und wie funktioniert es?

RAG ist eine Technik, um im Rahmen des LLM-Abfrageprozesses ergänzende Informationen aus externen Datenspeichern abzurufen und für die Generierung von Antworten zu nutzen. Externe Quellen können zum Beispiel Unternehmensdatenbanken, Dokumente oder Websites sein, die domänenspezifische, proprietäre Daten enthalten. Sie liefern dem LLM spezifische, kontextbezogene Informationen, die über den Datenpool hinausgehen, auf dem das LLM ursprünglich trainiert wurde.

Der RAG-Prozess verarbeitet die natürlichsprachliche Frage eines Nutzers, ergänzt sie um externe Informationen und übergibt beides gebündelt an das LLM. Auf dieser Basis generiert das Modell die finale Antwort unter Einbeziehung der Frage und der zusätzlichen Kontextinformationen. Dies gewährleistet nicht nur die Aktualität der Ergebnisse, sondern reduziert auch KI-Halluzinationen, ermöglicht den sicheren Umgang mit sensiblen Daten und unterstützt die Einhaltung von Security- und Compliance-Richtlinien.

Grenzen von RAG

Vektordatenbanken gelten als Standardtools zur Implementierung von RAG. Dabei wird unstrukturierter Text (z. B. PDFs) in kleinere Abschnitte unterteilt und in numerische Repräsentationen (Vektor-Embeddings) umgewandelt, die den Kern des jeweiligen Textes erfassen. In Vektordatenbanken gespeichert, ermöglichen diese Vektoren eine effiziente Ähnlichkeitssuche, um relevante Textabschnitte zur gestellten Frage zu identifizieren und dem LLM zuzuführen.

Es gibt jedoch Anwendungsfällen, bei denen vektorbasierte RAG an eine Grenze stößt. Microsoft umschreibt die inhärenten Einschränkungen wie folgt:

RAG kämpft damit, Informationen zu verbinden. Das ist vor allem dann der Fall, wenn die Beantwortung einer Frage es erfordert, unterschiedliche Informationen anhand ihrer gemeinsamen Attribute untersuchen zu müssen, um neue, synthetische Erkenntnisse zu gewinnen.

RAG schneidet außerdem schlecht ab, wenn es darum geht, zusammengefasste semantische Konzepte über große Datensammlungen oder sogar einzelne große Dokumente ganzheitlich zu verstehen.

RAG und Knowledge-Graphen (GraphRAG)

Bild 1: Beispiel einer Frage an eine GenAI Anwendung mit GraphRAG(Bild: Neo4j) — Bild 1: Beispiel einer Frage an eine GenAI Anwendung mit GraphRAG
(Bild: Neo4j)

Knowledge-Graphen (KG) integrieren Daten aus verschiedenen Quellen und stellen diese als Knoten dar (z. B. Personen, Orte oder Ereignisse), die durch sogenannte Kanten miteinander verknüpft sind und damit Beziehungen abbilden. Diese Struktur beschreibt Daten auf eine Weise, die für Menschen intuitiv nachvollziehbar bleibt und gleichzeitig maschinell verarbeitet werden kann. Knowledge-Graphen liefern damit den für Generative KI dringend benötigten Kontext.

Hier kommt GraphRAG ins Spiel. Der Ansatz funktioniert wie RAG. Nur wird bei der Abfrage neben Vektoren zusätzlich ein Knowledge Graph genutzt. Entwickler können Graphen und Vektoren entweder separat in zwei verschiedenen Datenbanken speichern oder eine Graphdatenbank wie Neo4j verwenden, die eine Vektorsuche unterstützt. Dank GraphRAG können semantische Ähnlichkeiten in Texten erkannt werden und zugleich mit dem Kontext strukturierter Daten erweiter. Dadurch werden die vom LLM generierten Antworten gezielter und gehen präziser auf die ursprüngliche Frage ein.

Vorteile von GraphRAG

Die Vorteile von GraphRAG im Vergleich zu reinem Vektor-RAG lassen sich in drei Bereiche einteilen und werden im Folgenden beispielhaft beschrieben:

1. Höhere Qualität der Antworten

Bild 2: Vergleich der Antworten von GenAI mit RAG Und mit GraphRAG(Bild: Neo4j) — Bild 2: Vergleich der Antworten von GenAI mit RAG Und mit GraphRAG
(Bild: Neo4j)

Die Genauigkeit von LLMs definiert sich nicht allein über die Korrektheit einer Antwort, sondern auch über ihre Relevanz bzw. Nützlichkeit für einen Anwendungsfall. Ein gutes Beispiel dafür stammt aus einem Workshop zu Generativer KI, den Neo4j gemeinsam mit Partnern bei GCP, AWS und Microsoft durchführte (Ressourcen über GitHub einsehbar). Das LLM sollte Fragen basierend auf SEC Filings beantworten. Unternehmen müssen diese standardisierten Dokumente seit den 30er Jahren bei der US-amerikanische Wertpapier- und Börsenaufsichtsbehörde einreichen. Die beispielhafte Frage lautete: Bei welchen Asset Managers ist das Risiko von Lieferengpässen bei Lithium am höchsten? Bei der Beantwortung unterschied sich die Detailtiefe und Relevanz zwischen LLM mit Vektor-RAG und LLM mit GraphRAG deutlich (siehe Bild 2).

Jetzt Newsletter abonnieren

Verpassen Sie nicht unsere besten Inhalte

Geschäftliche E-Mail

Bitte geben Sie eine gültige E-Mailadresse ein.

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Stand: 08.12.2025

Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.

Einwilligung in die Verwendung von Daten zu Werbezwecken

Ich bin damit einverstanden, dass die Vogel Communications Group GmbH & Co. KG, Max-Planckstr. 7-9, 97082 Würzburg einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von redaktionellen Newslettern nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.

Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.

Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.

Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.

Recht auf Widerruf

Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung, Abschnitt Redaktionelle Newsletter.

Während die Antwort mit Hilfe des Vektor-Ansatzes eher allgemeine Kriterien beschreibt, die zu einer Lithiumverknappung führen können, liefert das KI-Modell mit Hilfe von GraphRAG eine detaillierte Liste mit Namen von Unternehmen. Der konkrete Mehrwert für einen Anleger, der sein Portfolio angesichts volatiler Märkte neu ausrichten will, oder für einen Supply Chain Manager eines globalen Elektronikhersteller ist hier klar.

2. Einfaches Debugging

Bild 3: Abbildung von Daten und Datenbeziehungen in einem Knowledge Graphen.(Bild: Neo4j) — Bild 3: Abbildung von Daten und Datenbeziehungen in einem Knowledge Graphen.
(Bild: Neo4j)

Knowledge-Graphen sind sowohl konzeptionell als auch visuell intuitiv. Durch das Knoten-Kanten-Modell lassen sich Daten sowie Datenbeziehungen speichern und abfragen. Das fördert nicht selten unbekannte Zusammenhänge, verborgene Muster und neue Erkenntnisse zu Tage. Ein für viele unerwarteter Nebeneffekt ist auch, dass Knowledge-Graphen, einmal modelliert, beim Aufbau und Debugging der eigenen Generativen-KI-Anwendungen helfen kann. Daten, die einer Anwendung oder einer Antwort zu Grunde liegen, lassen sich entlang der Verbindung kausal rückverfolgen und offenlegen.

Wie sich komplexe Daten abbilden lassen, zeigt ein Beispiel von LlamaIndex. Das vielseitige Framework unterstützt Entwickler in verschiedenen Phasen der Arbeit an LLMs und Generative KI Anwendungen. In einer Demo wurden vektorisierte Chunks mit LLM-extrahierten Entitäten in einem Graphen miteinander verknüpft (Kante „MENTIONS“). Das Ergebnis ist in Bild 3 zu sehen. An Komplexität bzw. Reichhaltigkeit haben die Daten dabei nicht verloren. Für Anwender aber eröffnet sich eine breite Palette, um Anwendungen zu entwickeln und zu debuggen.

3. Bessere Governance

Bild 4: Zugangsberechtigungen sind direkt im Graphen abgelegt(Bild: Neo4j) — Bild 4: Zugangsberechtigungen sind direkt im Graphen abgelegt
(Bild: Neo4j)

LLMs können angehalten werden, beim Generieren von Antworten zwar auf zugrunde liegende Dokumente verweisen. Den Entscheidungsprozess selbst können sie jedoch nicht erklären. Zudem sind die Sprachmodelle dafür bekannt, Referenzen einfach zu erfinden. Knowledge-Graphen ermöglichen es, die Argumentationslogik innerhalb von KI-Pipelines klar nachzuzeichnen.

Die Daten sind navigierbar, lassen sich korrigieren, ergänzen und aktualisieren. Datenfehler können erkannt und bis zu ihrer Quelle zurückverfolgt werden. Informationen zur Herkunft liegen im Graphen mit ab, um beispielsweise die Vertrauenswürdigkeit von Antworten zu berechnen. All das verbessert die Governance und Qualitätssicherung. Sicherheit und Datenschutz stehen bei der Entwicklung von Prototypen einer Generativen KI zwar oft an zweiter Stelle. Sie sind aber zentral, wenn es in die Produktion geht. Der Zugang zu sensiblen Informationen lässt sich über Berechtigungen direkt im Graphen regeln (Bild 4).

Tools zum schnellen Erstellen von Knowledge-Graphen

GraphRAG macht die Ergebnisse einer Generativen KI genauer, präziser und aktueller. Dabei ist das Erstellen eines Knowledge-Graphen oft der schwierigste Schritt. Entwickler müssen Daten sammeln, bereinigen, strukturieren und verknüpfen. Die gute Nachricht: Mittlerweile ist das Tooling in diesem Bereich so weit fortgeschritten, dass sich Knowledge-Graphen relativ einfach erstellen lassen.

Ein solches Tool ist beispielsweise der Neo4j LLM Knowledge Graph Builder. Er erlaubt Entwicklern, unstrukturierte Inhalte in wenigen Schritten in einen Knowledge-Graphen verwandeln – ganz ohne Code-Kenntnisse. Der LLM KG Builder unterstützt sowohl Textdokumente, PDFs und Webseiten als auch Bilder sowie Texttranskripte von Youtube-Videos. Dokumente lassen sich in ihre einzelnen Bestandteile zerlegen, die mit Vektor-Embeddings versehen werden. Die erfassten Entitäten und Beziehungen werden mit Hilfe von Neo4j Graph-Features als Knoten und Kanten in das Datenmodell eines Graphen überführt und in der Neo4j Instanz gespeichert. Dabei bleiben die Entitäten mit den Ursprungsdokumenten korreliert. Zusätzlich lassen sich mittels Clustering über die Entitätsnetzwerken Querschnittszusammenfassungen aktivieren. Mittels verschiedener RAG GraphRAG Retriever lässt sich eine Frage über den Knowledge Graphen beantworten, die Ergebnisse können verglichen, die darunterliegenden Informationen dargestellt und Evaluationsmetriken berechnet werden. Das kostenlose Online-Tool ist Teil des Neo4j GraphRAG Ecosystems. Anwender benötigen lediglich eine Cloud-Instanz der Graphdatenbank (Neo4j Aura).

(sg)

* Michael Hunger ist Head of Product Innovation & Developer Product Strategy bei Neo4j

(ID:50306603)