Forschungsreife Antworten erfordern mehr als eine schnelle Suche. Sie beinhalten das Sammeln von Beweisen aus mehreren Quellen, die Verifizierung jeder einzelnen Tatsache und das Verfassen einer klaren, zusammenhängenden Darstellung. Die meisten QA-Benchmarks bleiben bei einfacher Faktenabfrage oder Einzel-Schritt-Abfragen stehen. SynthLink ändert das, indem es eine Open-Source-Suite mit 60 mehrstufigen Herausforderungen bietet, die reale Forschungsabläufe widerspiegeln. Damit können Sie KI-Systeme genau an den komplexen Fragestellungen testen, mit denen Analysten tagtäglich arbeiten.
Traditionelle QA-Benchmarks stoßen an ihre Grenzen
Die gängigen Benchmarks für Fragebeantwortung haben große Fortschritte in der KI ermöglicht, vereinfachen das Problem jedoch im Vergleich zur Realität. Viele bekannte Benchmarks prüfen Antworten anhand eines einzigen relevanten Dokuments oder weniger Absätze Kontext. Modelle finden die Lösung oft über Mustererkennung oder einfache Schlussfolgerungen.
Forschungsfragen verlangen dagegen echte Untersuchung. Das heißt, sie müssen in Teilfragen zerlegt, aus verschiedenen Quellen Informationen gesammelt und jede Aussage überprüft werden. Es ist mehrstufiges (Multi-Hop-)Schlussfolgern nötig, weil die Antwort nicht an einem Ort steht – das System muss Verbindungen zwischen verschiedenen Informationsstücken herstellen.
Ein typisches Benchmark-Beispiel lautet: „In welchem Jahr wurde Erfindung X gemacht?“ – per einmaligem Nachschlagen beantwortbar. Eine tiefgehende Forschungsfrage könnte lauten: „Wie beeinflusste die Erfindung der Druckerpresse die Alphabetisierungsraten und nachfolgende soziale Bewegungen?“ Hier genügt keine einzelne Tatsache. Man muss historische Entwicklungen zur Lese- und Schreibfähigkeit untersuchen und diese mit Ereignissen wie der Reformation verknüpfen.
Die meisten QA-Benchmarks testen nicht, ob ein Modell Synthese und Faktenprüfung beherrscht. Ein Modell kann also in diesen Tests gut abschneiden, fällt jedoch bei Forschung oder Berichtserstellung durch.
SynthLink geht einen anderen Weg. Es stellt komplexe Analysefragen, die echten Rechercheprozessen nachempfunden sind. Damit lässt sich messen, wie gut KI-Systeme bei Aufgaben abschneiden, die wie wirkliche investigative Forschung ablaufen – nicht nur einfache Faktenabfragen. So gewinnen Entwickler und Produktteams Einblick, wie ihre KI bei praxisrelevanten, anspruchsvollen Fragestellungen funktioniert.
Organisation des Benchmarks
SynthLink umfasst 60 anspruchsvolle Fragestellungen, die die Tiefenrecherche-Fähigkeiten eines KI-Systems testen. Jede Frage erfordert mehrstufiges (Multi-Hop-)Schlussfolgern: Das System muss Informationen aus verschiedenen Quellen finden und verknüpfen, um zur korrekten Antwort zu gelangen.
Die Fragen sind in sechs übergeordnete Kategorien eingeteilt, die reale Anwendungsbereiche widerspiegeln:
- Historische Analysen
- Wirtschaftliche und industrielle Veränderungen
- Umwelt- und Ökosystemauswirkungen
- Wissenschaftliche Durchbrüche
- Politische und gesellschaftliche Bewegungen
- Zukunftstechnologien und STEM
Diese Vielfalt stellt sicher, dass Modelle in unterschiedlichsten Szenarien geprüft werden – von der Untersuchung historischer Ereignisse bis hin zur Analyse technologischer Trends.
Was SynthLink besonders macht, ist die Aufgabenstellung selbst. Die Szenarien simulieren echte Forschungsprozesse statt einfacher Q&A-Paare. Für jede Frage muss ein Modell:
- Iteratives Verknüpfen: Relevante Informationen schrittweise über Dokumente hinweg zusammentragen.
- Synthese: Erkenntnisse aus den Quellen zu einer stimmigen, strukturierten Antwort verbinden.
- Faktenprüfung: Jede Aussage gegen die Originalquellen validieren, um unbelegte Behauptungen zu vermeiden.
- Herstellen neuer Verbindungen: Schlüsse ziehen, die nicht in einer einzelnen Quelle stehen, ohne dabei Fakten zu erfinden.
Auf diese Weise prüft SynthLink nicht nur die Informationsbeschaffung, sondern auch die Schlussfolgerungskompetenz und Transparenz in der Ableitung. Jede Frage enthält eine erwartete Antwortzusammenfassung und eine Liste relevanter Quellen. So lässt sich nicht nur feststellen, ob die Antwort korrekt ist, sondern auch, wie gut das System den Rechercheprozess nachvollzieht und reproduziert.
Bewertung mit fünf Metriken
Um alle Facetten komplexer Rechercheaufgaben abzudecken, verwendet SynthLink ein eigenes Punktesystem mit fünf Kennzahlen. Jede Antwort erhält für jede Metrik einen Wert zwischen 0 und 1. Anschließend werden diese Werte zu einem Gesamtscore kombiniert.
- F1-Score (Antwortgenauigkeit): Prüft, ob die Antwort alle wichtigen Punkte enthält. Der Token-basierte Vergleich zwischen Modellantwort und Referenzzusammenfassung honoriert vollständige Faktenabdeckung.
- Precision@5 (Relevanz der Quellen): Misst, wie viele der fünf obersten Dokumente wirklich relevant sind. Ein hoher Wert zeigt, dass das System nützliche Informationen findet statt irrelevanter Passagen.
- Reasoning Quality Score (RQS): Stellt sicher, dass alle definierten Teilschritte der Argumentation in der Antwort vorkommen. SynthLink legt vorher fest, welche Schritte ein vollständiges Ergebnis enthalten muss.
- Fact-Checking Score (FCS): Überprüft für jede Aussage, ob sie in den Referenzquellen nachweisbar ist. Dieser Wert verhindert Halluzinationen und sorgt dafür, dass das Modell nur belegte Behauptungen trifft.
- Iterative Efficiency (IE): Belohnt Systeme, die den richtigen Lösungsweg in wenigen Such- und Analysezyklen finden. Ein schneller konvergierender Suchprozess führt zu einer besseren IE-Bewertung.
Anhand dieser fünf Dimensionen entsteht ein umfassendes Bild: Ein Modell kann etwa eine hohe Genauigkeit (F1) erreichen, aber schlecht Fakten prüfen (niedriges FCS). Oder es findet relevante Dokumente (hohe P@5), verknüpft sie jedoch nicht korrekt (niedriger RQS). Die gewichtete Kombination – mit Schwerpunkt auf Genauigkeit und Argumentationsqualität – liefert einen einzelnen Score zwischen 0 und 1, der Gesamtleistung und Teilbereiche gleichermaßen sichtbar macht.
Integration von SynthLink in Ihren Workflow
SynthLink steht als Open-Source-Projekt zur Verfügung und lässt sich nahtlos in bestehende KI-Entwicklungsabläufe integrieren. Im MIT-lizenzierten SynthLink-Catalog-Repository finden Sie alle erforderlichen Komponenten: Benchmark-Fragen, erwartete Antworten und ein Scoring-Skript. Das Projekt ist auf GitHub verfügbar.
Nach dem Klonen des Repositories können Sie das bereitgestellte Scoring-Skript ausführen, um die Ergebnisse Ihres Modells zu bewerten – vorausgesetzt, Ihr System unterstützt Deep-Search-APIs wie Scalytics Connect. Das Scoring erwartet die Modellvorhersagen in einem einfachen JSON-Format. Jeder Eintrag in dieser Datei sollte folgende Felder enthalten:
- question_id: Die Kennung der Frage
- predicted_answer: Die vom Modell generierte Antwort
- retrieved_docs: Liste der vom Modell abgerufenen Dokumente oder Quellen
- iterations (optional): Details zu den Such- und Analysezyklen
Ein Beispiel für einen Eintrag könnte so aussehen::
{
"question_id": "HIA-01",
"predicted_answer": "The printing press made books cheaper, boosting literacy rates\
and eventually fueling movements like the Reformation.",
"retrieved_docs": ["https://en.wikipedia.org/wiki/Printing_press", ...],
"iterations": [ ... ],
"sources_verified": [ ... ]
}
(Das Repository enthält eine Vorlage und ein Beispiel für dieses Vorhersage-Format.) Sobald Sie die Antworten Ihres Modells in diesem Format vorliegen haben, berechnet das Scoring-Skript automatisch alle fünf Metriken für jede Frage und ermittelt einen Gesamtwert. Die Ausgabe umfasst einen detaillierten CSV-Bericht pro Frage, mit dem Sie nachvollziehen können, wo Ihr Modell gut abgeschnitten hat oder Schwächen aufweist, sowie eine Gesamtauswertung aller Ergebnisse.
Relevanz für die KI-Forschung und nächste Schritte
Wenn Sie als KI-Entwickler oder Produktmanager arbeiten, gibt Ihnen SynthLink die Gewissheit, dass Ihr Frage-Antwort-System anspruchsvolle, realistische Aufgaben bewältigen kann. Ob Sie eine KI für Forschungsunterstützung, einen Chatbot für Geschäftsdaten oder eine neue Suchmaschine entwickeln – die Fähigkeit, mehrstufige Anfragen mit verifizierten, zusammengefassten Antworten zu lösen, ist entscheidend. Ein hoher SynthLink-Score zeigt, dass Ihr System relevante Informationen zuverlässig findet und korrekt verknüpft, statt Vermutungen als Fakten auszugeben. So gewinnen wir ein besseres Verständnis für die Leistung und Grenzen offener Modelle und verbessern ihre komplexen Denkfähigkeiten – Frage für Frage.
Über Scalytics
Unser Hauptprodukt, Scalytics Connect, bietet intelligente Topics, kontinuierliches Lernen und KI-fähiges Messaging über das Model Context Protocol (MCP). Es verbindet verschiedene Datentypen und stellt sicher, dass Regeln eingehalten werden und die Privatsphäre geschützt wird, ohne dass die Pipelines, die Teams bereits nutzen, geändert werden müssen.
Mit Funktionen wie Autodiscovery und indexbasierter Suche bietet Scalytics Connect ein zukunftsweisendes, transparentes Framework, das schnelle Produktiteration, robuste Skalierung und erklärbare KI unterstützt. Durch die Kombination von Agenten, Datenflüssen und Geschäftsanforderungen hilft Scalytics Unternehmen, traditionelle Beschränkungen zu überwinden und die Möglichkeiten moderner KI voll auszuschöpfen.
Wenn Sie professionelle Unterstützung von unserem Team von branchenführenden Experten benötigen, können Sie sich jederzeit an uns über Slack oder E-Mail wenden.