Der epistemische Engpass: Warum KI Ingenieuren 10X bringt und Juristen 3X

Was KI-gestützte juristische Arbeit begrenzt, ist nicht die Verantwortlichkeit, nicht der berufsständische Konservatismus und nicht die abrechenbare Stunde. Es ist die Kostenstruktur der Verifikation, und sie wird auch besseren Modellen nicht weichen.

4. Juli 2026 · Quantum Nexus Ventures FZCO

Unter den Juristen, die KI ernsthaft eingeführt haben, nicht unter denen, die Vordenkerbeiträge darüber verfassen, sondern unter denen, die agentische Workflows tatsächlich in realen Mandaten betreiben, bildet sich still ein Konsens. Der Produktivitätsgewinn ist real. Er liegt irgendwo bei 3X. Und er weigert sich hartnäckig, zu dem 10X zu werden, das die Softwareentwicklung derzeit erlebt.

Der Vergleich verdient es, ernst genommen zu werden, denn beide Zahlen stammen von denselben zugrunde liegenden Modellen. Ein Ingenieur und ein Jurist, die dasselbe Frontier-Modell mit vergleichbarem Geschick in Prompting und Workflow-Design einsetzen, landen eine Größenordnung auseinander. Beide Werte sind als Archetypen zu lesen, nicht als präzise Messungen; das folgende Argument braucht nur den Abstand zwischen ihnen, nicht die exakten Zahlen. Was auch immer diesen Abstand erklärt: An der Leistungsfähigkeit der Modelle liegt es nicht.

Die meisten Ingenieure mit ernsthaften agentischen Setups lesen ihren Code nicht mehr Zeile für Zeile. Stattdessen laufen lange autonome Schleifen mit ganzen Agentenflotten; geprüft wird auf der Ebene von Verhalten und Architektur, und die Prüfinfrastruktur fängt auf, was dem menschlichen Blick entgeht. Ein Jurist hingegen, der KI auf höchstem Niveau einsetzt, liest nach wie vor jede Zeile des Rechtsrats, der unter seinem Namen das Haus verlässt.

Die interessante Frage ist, warum. Und die gängigen Antworten sind auf aufschlussreiche Weise falsch.

Die gängigen Erklärungen, und warum sie zweitrangig sind

Die am häufigsten gehörte Erklärung ist die Verantwortlichkeit. Auf dem Rechtsrat steht der Name des Anwalts. Geht etwas schief, ruft der Mandant eine Person an, keinen Chatbot. Das Berufsrecht erlegt Aufsichtspflichten über das Arbeitsprodukt auf. Die Berufshaftpflichtversicherung bepreist das Risiko. Gerichte haben an Anwälten, die von KI erfundene Zitate einreichten, Exempel statuiert, beginnend mit Mata v. Avianca im Jahr 2023 und fortgesetzt durch einen Bestand an Sanktionsentscheidungen, der inzwischen groß genug ist, dass öffentliche Datenbanken ihn erfassen.Quellen: Mata v. Avianca (S.D.N.Y. 2023) · AI Hallucination Cases database

All das trifft zu. Nichts davon ist die bindende Beschränkung.

Der Test dafür: Wäre die Verantwortlichkeit die fundamentale Grenze, wäre zu erwarten, dass sich der Abstand schließt, sobald sich berufsständische Normen anpassen, Versicherer KI-spezifische Produkte entwickeln und Gerichte wie Regulierer Rahmenwerke für delegierte Prüfung errichten. Fünf Jahre institutioneller Anpassung, und aus 3X würde 8X.

Genau das wird nicht geschehen, denn Verantwortlichkeit ist die Antwort des Rechtssystems auf eine tiefere Eigenschaft der Arbeit, nicht diese Eigenschaft selbst. Auch Ingenieure haften für das, was sie ausliefern. Luftfahrtsoftware, Medizinprodukte und Zahlungsinfrastruktur tragen eine Haftung, die mindestens so schwer wiegt wie ein fehlerhaft aufgesetzter Vertrag. Dennoch läuft die Verifikation in diesen Domänen mit Maschinengeschwindigkeit. Der Unterschied liegt nicht in der Höhe des Einsatzes. Er liegt in der Kostenstruktur des Prüfens.

Die Verifikationsasymmetrie

Die Softwareentwicklung hat sich ihr 10X über einen Umstand verdient, der so grundlegend ist, dass er leicht übersehen wird: Das Artefakt wird ausgeführt. Die Ground Truth für ein Stück Code ist die Maschine selbst. Ein Compiler weist Typfehler in Millisekunden zurück. Eine Testsuite kodiert die Verhaltensspezifikation und führt sie bei jedem Commit aus. Statische Analysewerkzeuge, Fuzzer und eigenschaftsbasierte Tests durchkämmen den Raum der Eingaben, auf die kein Mensch je käme. Fünfzig Jahre anhaltender Investitionen haben die Kosten der Codeverifikation gegen null getrieben und sie, das ist der entscheidende Punkt, billiger gemacht als das Generieren von Code.

Deshalb schließt sich die agentische Schleife in der Softwareentwicklung. Der Agent schreibt Code, führt den Verifizierer aus, liest den Fehlschlag und überarbeitet, tausende Male, unbeaufsichtigt. Das Belohnungssignal ist maschinell prüfbar. Der Agent kann seinen eigenen Prüfer betreiben.

Dem gegenüber steht, was die Verifikation einer einzigen juristischen Aussage verlangt. Man nehme einen so gewöhnlichen Satz wie "nach spanischem Recht beträgt die Verjährungsfrist für diesen vertraglichen Anspruch fünf Jahre". Um diesen Satz freizugeben, muss ein Prüfer fünf unabhängige Eigenschaften feststellen:

Existenz: Die zitierte Quelle (hier Artikel 1964.2 des Código Civil) existiert tatsächlich.

Quellentreue: Sie besagt, was behauptet wird, auf der Ebene der konkreten Passage, nicht auf der Ebene des allgemeinen Themas.

Aktualität: Sie ist noch geltendes Recht. Nicht aufgehoben, nicht geändert seit der Fassung, die das Modell gesehen hat, nicht durch Spezialgesetzgebung verdrängt, nicht durch maßgebliche Rechtsprechung neu ausgelegt. Genau dieser Artikel wurde 2015 geändert, und genau diese Art von Faktum gibt ein Modell, das auf Jahrzehnten juristischer Texte trainiert wurde, stillschweigend falsch wieder.Quellen: Ley 42/2015 (BOE)

Autorität: Die Quelle ist in dieser Jurisdiktion bindend, auf dieser Stufe der Hierarchie, für diese Art von Frage. Ein Urteil einer Audiencia Provincial ist nicht der Tribunal Supremo. Eine Kammerentscheidung ist nicht en banc. Ratio ist nicht obiter.

Anwendbarkeit: Sie erfasst diesen Sachverhalt, diesen Vertragstyp, dieses zeitliche Regime unter den Übergangsvorschriften.

Jede dieser Prüfungen ist ein Abgleich mit der Ground Truth. Doch anders als in der Softwareentwicklung ist die Ground Truth kein ausführbares Artefakt. Sie ist ein verteiltes Korpus, verstreut über Hunderte amtliche Gesetzblätter, Gerichtsregister und konsolidierte Gesetzeswerke, in Dutzenden Sprachen, über die Zeit versioniert, nach Jurisdiktion abgegrenzt und größtenteils nicht maschinell prüfbar. Also läuft der Abgleich über das einzige verfügbare Verifikationsinstrument: einen zugelassenen Menschen, der mit menschlicher Geschwindigkeit liest.

Dieser Mensch ist der serielle Anteil der Pipeline. Und serielle Anteile haben ihre eigene Mathematik.

Das Amdahlsche Gesetz für juristische Arbeit

Im parallelen Rechnen begrenzt das Amdahlsche Gesetz die Beschleunigung eines Systems durch jenen Teil, der sich nicht beschleunigen lässt. Wird ein Anteil p der Arbeit um den Faktor s beschleunigt, beträgt die Gesamtbeschleunigung 1 / ((1 − p) + p/s).

Angewandt auf ein juristisches Mandat: Angenommen, 70 Prozent der Arbeitszeit sind generativ: Recherchematerial zusammentragen, Entwerfen, Zusammenfassen, Formatieren, Erstanalyse. Und angenommen, KI beschleunigt diesen Teil nicht um 10X, sondern unendlich, auf null Zeit. Die Gesamtbeschleunigung beträgt 1 / 0.3, also rund 3.3X.

Die beobachtete Obergrenze von 3X ist kein kulturelles Artefakt. Sie ist das Amdahlsche Gesetz mit der Verifikation als seriellem Anteil.

Dieselbe Arithmetik zeigt auch, was nötig wäre, um 10X zu erreichen: Der unbeschleunigte Rest muss unter 10 Prozent der ursprünglichen Arbeitszeit fallen. Macht die Verifikation heute 30 Prozent der Arbeit aus, muss sie sich in absoluten Größen um den Faktor drei oder mehr komprimieren, während alles andere automatisiert wird. Keine noch so dramatische Verbesserung auf der Generierungsseite bewegt diese Zahl. Selbst wenn das Entwerfen keine Zeit mehr kostet: Die Obergrenze bleibt bei 3.3X.

Das ist der Teil der Debatte, den Modellveröffentlichungen immer wieder verdecken. Jeder Fähigkeitssprung komprimiert die 70 Prozent weiter, erzeugt eine Welle von Ankündigungen und lässt die 30 Prozent unberührt. Der Engpass liegt nicht dort, wohin die Investitionen fließen.

Warum bessere Modelle die Obergrenze nicht verschieben

Vier strukturelle Gründe, jeder für sich unabhängig von der Modellqualität.

Erstens: Kalibrierung überträgt sich nicht. Die sprachliche Flüssigkeit eines Modells korreliert nicht mit der juristischen Richtigkeit seiner Aussagen. Halluzinierte Zitate sind formal makellos, und genau das macht sie gefährlich. Ein leistungsfähigeres Modell produziert weniger Fehler, aber der prüfende Anwalt sieht nicht, welche Aussagen die Fehler sind, also bleibt der Prüfaufwand pro Aussage unverändert. Geprüft wird nicht weniger, weil die Fehlerquote von 4 Prozent auf 1 Prozent gefallen ist. Geprüft wird alles, denn 1 Prozent von hundert Aussagen ist immer noch ein sanktionierbarer Schriftsatz.

Zweitens: Die Fehlerverteilung macht Stichproben wirkungslos. Stichprobenkontrolle funktioniert, wenn Fehler zufällig verteilt sind. Modellfehler sind nicht zufällig. Sie häufen sich genau an den plausibel wirkenden Stellen: das Zitat, das perfekt zum Argument passt, die wörtliche Wiedergabe, die sagt, was die Passage hätte sagen sollen, der Präzedenzfall, den es in einem wohlgeordneten Rechtssystem gäbe, den es in diesem aber nicht gibt. Werden 10 Prozent von Aussagen kontrolliert, die wie von einem Gegner darauf zugeschnitten sind, korrekt auszusehen, fängt das praktisch nichts ab. Die Prüfung muss lückenlos sein, und das ist die teure Sorte.

Drittens: Veralterung ist strukturell, nicht zufällig. Ein Trainingsstichtag garantiert, dass das Modell weder die im letzten Monat aufgegebene Rechtsprechung noch die Gesetzesänderung der letzten Woche kennen kann. Skalierung behebt fehlende Aktualität nicht; ein Modell mit zehnmal so vielen Parametern weiß über gestern exakt genauso wenig. Retrieval-gestützte Generierung verschiebt das Problem, statt es zu lösen: Die Korrektheit hängt nun von der Vollständigkeit und Aktualität des Retrieval-Korpus ab und davon, dass das Retrieval das maßgebliche Material tatsächlich zutage fördert, und genau diese Eigenschaften verifiziert niemand.

Viertens: Die Verlustfunktion ist asymmetrisch und trifft einen Menschen mit Namen. Kostet der Fehler eines Coding-Agenten den Ingenieur ein fehlgeschlagenes Deployment und dreißig Minuten, ist Toleranz gegenüber unverifiziertem Output rational. Ist der Fehler ein erfundener Präzedenzfall in einem gerichtlichen Schriftsatz, stehen am Ende Sanktionen, berufsrechtliche Maßnahmen und eine Entscheidung mit dem Namen des Anwalts darin, veröffentlicht und dauerhaft. Bei asymmetrischem Verlust ist lückenlose Prüfung kein Konservatismus. Sie ist die richtige Strategie.

Das Auslassungsproblem

Es gibt einen Fehlermodus, der schlimmer ist als das Erfinden, und er erhält nur einen Bruchteil der Aufmerksamkeit: das Auslassen.

Ein erfundenes Zitat ist wenigstens überprüfbar. Es steht auf der Seite, es behauptet etwas, und ein sorgfältiger Prüfer kann ihm nachgehen. Eine ausgelassene maßgebliche Autorität hinterlässt auf der Seite überhaupt keine Spur. Der Output ist flüssig, belegt, in sich stimmig und falsch, weil die Entscheidung, die die Sache gegen die eigene Position entscheidet, schlicht nie aufgetaucht ist.

Abwesenheit zu verifizieren ist kategorisch schwerer, als Anwesenheit zu verifizieren. Zu bestätigen, dass keine maßgebliche Autorität der Analyse widerspricht, erfordert eine erschöpfende Suche über ein vollständiges, aktuelles, nach Jurisdiktion abgegrenztes Korpus. Kein menschlicher Prüfer leistet das tatsächlich. Erfahrene Juristen behelfen sich mit Mustererkennung und Zitierdiensten, doch diese Abhilfe ist probabilistisch, und sie verschlechtert sich genau dann, wenn Mandate in unvertraute Jurisdiktionen oder sich schnell bewegende Rechtsgebiete hineinreichen.

Das verdient eine sorgfältige Formulierung, denn es kehrt die übliche Rahmung um. Erschöpfende Vollständigkeit ist das eine, worin Maschinen Experten überlegen sind, genau dann, wenn Korpus und Retrieval-Schicht dafür gebaut sind. Recall ist in einem juristischen Retrieval-System keine Information-Retrieval-Metrik, die gegen Latenz abgewogen werden kann. Er ist eine Sicherheitseigenschaft. Ein System, das erschöpfende Abdeckung der maßgeblichen Autorität nachweisen kann, leistet etwas, das keine menschliche Prüfung leisten kann, statt lediglich anzunähern, was menschliche Prüfung ohnehin tut.

Fehler potenzieren sich lautlos

Der Engpass verschärft sich, je weiter die juristische Arbeit nach vorn blickt. Risikobewertungen, Transaktionsstrukturen, Regulierungsstrategie: Das ist Schlussfolgern, errichtet auf rückwärtsgerichteten Prämissen darüber, was das Recht gegenwärtig ist.

Der epistemische Status einer Schlussfolgerung ist durch ihre schwächste Prämisse begrenzt. Ein einziger korrumpierter Input, ein halluzinierter Präzedenzfall, eine als geltend behandelte aufgehobene Vorschrift, eine ausgelassene Linie gegenläufiger Autorität, verdirbt lautlos jedes darauf errichtete Urteil. Und diese Korruption ist im Output unsichtbar, weil jede nachgelagerte Folgerung lokal vernünftig ist. Liegt die Argumentation erst drei Schritte hinter der schlechten Prämisse, bringt kein noch so gründliches Lesen des fertigen Memos den Defekt mehr ans Licht. Der Fehler kündigt sich nicht an. Er potenziert sich.

Deshalb ist "menschliche Prüfung des KI-Outputs" eine schwächere Absicherung, als es klingt. Der Mensch prüft die Schlussfolgerung, und die Schlussfolgerung sieht einwandfrei aus. Der Defekt sitzt in der Provenienz, und Provenienz ist genau das, was heutiger KI-Output nicht mitführt.

Was die Kompression der Verifikation tatsächlich erfordert

Wird die Obergrenze durch die Verifikationskosten gesetzt, ist das ingenieurtechnische Programm eindeutig: jede der fünf Prüfungen maschinell ausführbar machen. Konkret heißt das Infrastruktur, mit deren Aufbau der Großteil der Legal-AI-Branche noch nicht begonnen hat.

Auflösbare Identifikatoren. Jede juristische Aussage in generiertem Output sollte einen maschinell auflösbaren Verweis auf eine kanonische Quelle tragen, gestützt auf die Identifikatorsysteme, die bereits existieren: ECLI für europäische Rechtsprechung, ELI für Gesetzgebung, Akoma Ntoso als Dokumentmodell. Die Existenzprüfung wird damit zu einer deterministischen Auflösung, nicht zu einer menschlichen Suche.Quellen: ECLI (Council conclusions, 2011) · ELI (EUR-Lex) · Akoma Ntoso

Verankerung auf Passagenebene. Quellentreue sollte gegen die wörtliche Passage verifiziert werden, nicht gegen das Dokument im Allgemeinen. Eine Aussage wird auf einen Quellenausschnitt abgebildet; der Ausschnitt enthält entweder eine Stütze für die Aussage oder nicht. Semantische Ähnlichkeit ist keine Stütze. Eine Passage kann exakt zum Thema gehören und der Aussage widersprechen, und die Embedding-Distanz verrät nicht, welcher Fall vorliegt.

Zeitliche Gültigkeitsgraphen. Gesetzgebung sollte als versionierter Graph repräsentiert werden: Änderungsketten, Derogationen, Inkrafttreten, Übergangsregime. Für die Rechtsprechung braucht es Kanten nach Art der Zitierdienste: gefolgt, abgegrenzt, eingeschränkt, aufgegeben. Dann wird die Aktualitätsprüfung zur Graphtraversierung, einer Operation im Millisekundenbereich, statt zu einer Rechercheaufgabe. Das ist die maschinennative Fassung dessen, was Shepard's und KeyCite seit über einem Jahrhundert in einer Handvoll Jurisdiktionen leisten, verallgemeinert auf alle.

Autoritätsrangfolge als Daten. Die Normenhierarchie, Verfassungsnorm über Gesetz über Verordnung, und die Gerichtshierarchie jeder Jurisdiktion, kodiert, sodass ein System zwei einander widersprechende Autoritäten in eine Rangfolge bringen kann, statt beide mit gleicher Zuversicht zu präsentieren.

Entailment mit Rückweisungszone. Modelle für Natural Language Inference können mit kalibrierter Konfidenz beurteilen, ob eine Passage eine Aussage stützt. Der Designpunkt, auf den es ankommt, ist die Grauzone: Aussagen, bei denen das Entailment wirklich unsicher ist, werden an den Menschen weitergeleitet. Der Anwalt hört auf, 100 Prozent der Aussagen zu prüfen, und beginnt, über die 10 bis 20 Prozent zu entscheiden, die tatsächlich strittig sind. So sieht die Kompression des seriellen Anteils in der Praxis aus.

Verifikation der Abwesenheit. Erschöpfendes Retrieval über nachweislich vollständige Korpora, bei dem widersprechende Autorität proaktiv zutage gefördert wird statt erst auf Anfrage. Abdeckung wird zu einer gemessenen, auditierbaren Eigenschaft des Systems.

Nichts davon ist spekulative Informatik. Jede Komponente existiert. Was im Großteil des Marktes nicht existiert, ist die Bereitschaft, dafür Geld in die Hand zu nehmen, denn nichts davon führt sich so eindrucksvoll vor wie ein flüssiger Entwurf.

Der Compiler, den das Recht nie gebaut hat

Mit genügend Abstand betrachtet hat das 10X der Softwareentwicklung eine einfache Erklärung: Es ist die Rendite aus fünfzig Jahren Investition in Verifikationsinfrastruktur. Compiler, Typsysteme, Test-Harnesse, Continuous Integration, statische Analyse. Das Generieren wurde schnell, weil das Prüfen zuerst billig geworden war. Die agentische Revolution in der Software hat dieses Fundament nicht geschaffen. Sie hat es eingelöst.

Die Legal-AI-Branche ist die entgegengesetzte Wette eingegangen. Nahezu die gesamte Investitionswelle floss in die Generierung: flüssiges Entwerfen, Zusammenfassungen, konversationelle Oberflächen über Dokumenten. Die Generierung war aber schon der billige Teil. Das Ergebnis ist exakt das, was das Amdahlsche Gesetz vorhersagt: spektakuläre Beschleunigung der 70 Prozent, unberührte 30 Prozent und ein branchenweites Plateau bei 3X, das jeder ernsthafte Bericht über die KI-Einführung aufs Neue entdeckt.

Der 3X-Anwalt ist real, und es lohnt sich, dieser Anwalt zu sein. Aber 3X ist eine Obergrenze, kein Etappenziel. Noch flüssigere Generierung nähert sich ihr asymptotisch und bleibt dort stehen. Der 10X-Anwalt wird erst möglich, wenn die Verifikation mit Maschinengeschwindigkeit läuft, wenn Existenz, Quellentreue, Aktualität, Autorität und Anwendbarkeit deterministisch geprüft werden und menschliches Urteilsvermögen den Fragen vorbehalten bleibt, die es wirklich erfordern.

Jede Branche, die sich industrialisierte, durchlief dieselbe Verschiebung: Der Engpass wanderte vom Herstellen der Dinge zum Prüfen der Dinge, und die Unternehmen, die die nächste Ära gewannen, waren jene, die das Prüfen industrialisierten. Das Recht ist als Nächstes an der Reihe. Die Größenordnung gehört dem, der die Verifikation komprimiert.

Dies ist ein Meinungs- und Thought-Leadership-Beitrag. Er stellt keine Rechts- oder Finanzberatung dar.

Weitere Beiträge

← Zurück zu Insights