Der Benchathon 2026: Ein Werkstattbericht von der Human Baseline

Die Autorin hat am Benchathon 2026 teilgenommen und teilt im Folgenden ihre persönlichen Erfahrungen sowie Wahrnehmung aus dem Austausch mit anderen Teilnehmenden. Dabei wurde ihr schnell klar: In einer Zeit, in der KI juristische Fälle in Sekunden löst, wird menschliche Geduld zu einer neuen Schlüsselqualifikation.

Am 14. und 15. März 2026 fand der Benchathon statt – ein Benchmarking-Event im deutschsprachigen Raum, bei dem ich gemeinsam mit anderen Teilnehmenden die Plattform BenGER nutzte, um Aufgaben zu lösen und Ergebnisse zu vergleichen. Teilnehmende kamen aus Berlin, München und online zusammen.

Warum?
Hinter der Plattform steht das Forschungsprojekt BenGER an der Technischen Universität München (TUM), das misst, wie gut verschiedene KI-Modelle juristische Aufgaben lösen. Das zentrale Problem dabei: Diese Ergebnisse lassen sich kaum einordnen, solange kein menschlicher Vergleichswert existiert. Der Benchathon sollte genau diese sogenannte Human Baseline erstmals systematisch und wissenschaftlich belastbar erheben – also den Ausgangswert, der beschreibt, wie gut Menschen dieselben Aufgaben lösen, die KI-Modelle bereits im Vorfeld bearbeitet hatten.

Wer?
Die Teilnahme war offen für alle Interessierten: Studierende, Absolvent:innen, Praktiker:innen und eine Gruppe juristischer Laien kamen zusammen. Diese Diversität ermöglichte einen aufschlussreichen Vergleich zwischen Menschen mit und ohne juristische Vorbildung, insbesondere im Hinblick auf den Einsatz von KI-Werkzeugen.

Wie? Ablauf und die drei Vergleichsgruppen
Für das Event wurden 15 Aufgaben von verschiedenen Professor:innen bereitgestellt (Bearbeitungszeit: zwei Stunden). Ein wissenschaftlich zentrales Element war der Vergleich von drei Gruppen, wofür die Ergebnisse der menschlichen Teilnehmenden in den Kategorien ohne KI, mit KI sowie die reinen KI-Lösungen gegeneinander gestellt werden. Rund 30 Sprachmodelle hatten die Fälle vorab gelöst; die menschlichen Ergebnisse lieferten nun den Maßstab zur Einordnung.

Wertvolle Takes
Besonders wertvoll war für mich die Infoveranstaltung “KI als Werkzeug im Jurastudium” von Sebastian Nagel. Meine wichtigsten Erkenntnisse daraus sind:

KI aktiv nutzen: Nicht nur ergänzend, sondern als zentrales Werkzeug mit individuellen Workflows.
KI als Korrektor: Die Möglichkeit, KI als Feedbackgeber zu nutzen, der gezielte Rückmeldungen zu eigenen Lösungen gibt.
Kompetenzaufbau: Unabhängig von der Lehre an der Universität sollte KI-Kompetenz frühzeitig aufgebaut werden, da sie im späteren Arbeitsleben eine Notwendigkeit darstellt.
Methodik schulen: KI kann effektiv helfen, juristische Methodik zu üben – ein Bereich, der in der klassischen Lehre oft zu kurz kommt und künftig wieder verstärkt diskutiert werden wird.

KI und klassische Hilfsmittel im Vergleich
Nach jeder Aufgabe folgte ein Feedback-Format: Ich wurde gefragt, ob ich als Mensch auch wirklich hinter dem erzielten Ergebnis stehe. Kann ich mit gutem Gewissen sagen, dass diese Lösung meine eigene ist, die ich verstehe und verantworten kann?

Bemerkenswert waren dabei insbesondere die Ergebnisse juristischer Laien, die mit KI teils außergewöhnlich hohe Punktzahlen erzielten. Das zeigt das Potenzial, wirft aber Fragen auf: Eine gute Punktzahl ist nicht gleichbedeutend mit juristischer Kompetenz. Haftung und Verantwortung können letztlich nur bei denjenigen verbleiben, die das Recht auch wirklich verstehen.

Reflexion
Ein bedeutender praktischer Vorteil der KI-Nutzung war die Zeitersparnis beim Erschließen von Aufgaben. Gleichzeitig wurde eine Gefahr deutlich: die Tendenz, KI-Lösungen zu schnell und unkritisch zu übernehmen. Mir wurde im Rahmen des Feedbackbogens noch einmal bewusst, dass ich hinter einem Ergebnis nur stehen kann, wenn ich es vollständig gelesen, reflektiert und mit eigenem Wissen ergänzt habe. Gerade weil die KI so schnell ist, wird die menschliche Geduld zur neuen Schlüsselqualifikation. Wer dem Zeitdruck der KI standhält und sich die Zeit für eine kritische Validierung nimmt, sichert die Qualität, für die wir als Juristinnen und Juristen am Ende haften. Gründlichkeit vor Geschwindigkeit ist gerade beim regelmäßigen Einsatz von KI notwendig, um sich gegen die Nachlässigkeit zu schützen, die durch KI-Effizienz entstehen kann.

Zudem eine persönliche Beobachtung und ein Vorschlag, die Formate für zukünftige Veranstaltungen zu trennen: KI-unterstützte Aufgaben lassen sich deutlich schneller lösen (10 Minuten können für 18 Punkte reichen!) und dieses Tempo setzt sich als impliziter Maßstab fest. Wechselt man zur Aufgabe ohne KI, arbeitet man unweigerlich gegen diese Erwartungshaltung an. Für künftige Formate würde ich daher eine zeitliche Trennung vorschlagen, damit die klassische Bearbeitung wirklich unter klausurgemäßen Bedingungen stattfindet.

Der Benchathon 2026 hat gezeigt, wie produktiv KI im juristischen Kontext sein kann, wenn der Einsatz reflektiert geschieht. Die Risiken (verkümmernde Eigenleistung, unkritische Übernahme) sind real, aber die Chancen überwiegen deutlich: KI bietet eine Unterstützung, die gerade dort nützlich ist, wo individuelle Betreuung selten verfügbar ist. Der Benchathon war ein gelungener Impuls für die Weiterentwicklung einer zeitgemäßen juristischen Ausbildung.

Ich hoffe, dass dieses Format künftig – womöglich in enger Zusammenarbeit mit Universitäten – als fester Bestandteil des Studiums etabliert wird.

Related Stories

Worklean: Store, share and communicate – Interview with Dr. Oliver Waldburg

Interview with Bernhard Fiedler – a new Breed of innovative Lawyers.

Die fünf Schlüssel zum Transformationserfolg für Kanzleien – Teil 1

Legal Tech Startup helpcheck sammelt 11 Millionen Euro in neuer Finanzierungsrunde ein