Wie entdeckt man die Leitideen eines neu zu kodifizierenden Rechtsgebiets? Indem man zunächst diejenigen Gesetze ausmacht, die von ähnlichen Themen handeln und sodann ihre normativen Regelungsprogramme vergleicht. Beim ersten Schritt, so behaupten nun der R|E-Autor Tobias Gumpp und sein Mitstreiter Marc Pierre Schneider, können uns computergestütze Methoden helfen. Für eine empirische Studie in der neuen “Zeitschrift für Digitalisierung und Recht” (ZfDR) wendeten Gumpp und Schneider einen Algorithmus des maschinellen Lernens auf alle deutschen Bundesgesetze an. Die Studie ist vorbildlich dokumentiert,1 Daten und Quellcode öffentlich zur Verfügung gestellt. Nur der Studienbericht selbst ist leider beim Beck-Verlag hinter eine Paywall gesperrt, deshalb bleibt zu hoffen, dass die Autoren spätestens in einem Jahr von ihrem Zweitverwertungsrecht Gebrauch machen.
Kurz gefasst argumentieren die Autoren, dass maschinelles Lernen dabei helfen könnte, das “äußere System” des Rechts im Sinne Bydlinskis zu rekonstruieren und die gesetzesübergreifenden Leitideen kodifizierungsbedürftiger Rechtsgebiete (wie Arbeits- und Gesellschaftsrecht) zu identifizieren. Hierfür schlagen die Autoren einen Algorithmus zum sog. topic modelling vor, der auch ohne menschliche Anleitung – allein aufgrund von Vokabularähnlichkeiten – große Textsammlungen in zusammengehörige Untergruppen kategorisieren kann. Das ist ein spannender Ansatz, und die Autoren erläutern ihn anregend und gut lesbar. Ihre Darstellung der für diese Analyse zentralen und keineswegs trivialen Technologie des “Probabilistic Topic Modelling” gelingt ausnehmend anschaulich und bietet bis auf Weiteres die konziseste und beste Einführung in die Materie für interessierte Jurist:innen.
Besonderen Beifall verdient der Versuch der Autoren, die Technologien der sog. “künstlichen Intelligenz” zu “entmystifizieren”, indem sie sie auf große Mengen von Rechtstexten (in diesem Fall: Gesetzen) konkret anwenden. Diese “Methode der interdisziplinären Rechtswissenschaft”, so stellen sie eingangs ihres Beitrags fest, habe “bisher wenig Aufmerksamkeit in der deutschen Rechtswissenschaft erfahren”, obwohl Ansätze freilich durchaus zu erkennen wären. Immerhin referieren die Autoren sehr gründlich die Beiträge (nicht nur) deutscher Autoren zur internationalen Literatur (Fn. 4), was für einen deutschsprachigen Aufsatz bemerkenswert ist. Andernorts hätte einschlägiges Schrifttum vielleicht noch gründlicher rezipiert werden können, wenn die Autoren etwa den Begriff des Bayes’schen Netzes einführen (bei Fn. 37), aber die juristischen Pionierstudien zu Bayes-Netzen in der Beweiswürdigung und zu Bayesschen Netzen in der Rechtsprechung unerwähnt lassen.
In der Sache ist der Beitrag freilich uneingeschränkt zur Lektüre (und Nachahmung) zu empfehlen. Dem Leser winken interessante Einsichten und Beobachtungen, wenn beispielsweise der für das Topic Modelling genutzte LDA-Algorithmus über verschiedenste Gesetze hinweg eine zusammengehörige Kategorie identifiziert, die die Autoren als “Organrecht” bezeichnen, weil sie all jene Konzepte versammelt, die für die Beschlussfassung und Vertretung durch juristische Organe relevant sein könnten (darunter bspw. “Ausschuss”, “gewählt”, “Vorsitzende”, “Geschäftsordnung”, “Sitzungen”). Die Autoren verwerfen zwar leichthin die Kodifizierung eines solchen “Organrechts” de lege ferenda, weil “es sich um Querschnittsthematiken handelt”. Immerhin aber halten sie de lege lata für denkbar, dass “beim Fehlen einer Organregel in einem Gesetz evtl. Analogien aus dem anderen geschlossen werden”.
Dabei könnte die aufgezeigte Methodik noch viel weitergehend dazu anregen, ganz neu über die Definition von Rechtsgebieten und die computergestützte Abgrenzbarkeit von zusammengehörigen Regelungsmaterien nachzudenken. Was uns jetzt vielleicht als disparate Querschnittsmaterie erscheint, mag ja durch eine Kodifizierung überhaupt erst eigenständige Geschlossenheit gewinnen. Schließlich war auch die Rechtsgeschäftslehre einst eine Querschnittsmaterie – doch heute zweifelt niemand mehr an der Sinnhaftigkeit ihrer (weitgehenden) Kodifizierung im ersten Buch des BGB. Insofern könnte die computergestützte Mustererkennung im Textbestand des deutschen Rechts ganz neue Grenzziehungen ermöglichen, die nicht mehr entlang der traditionellen intradisziplinären Fachsäulen (Zivilrecht, Strafrecht, öffentliches Recht) verlaufen, sondern Querschnittsmaterien als solche abgrenz- und kodifizierbar machen. Das wären echte neue “Leitideen” im Sinne der Studienautoren.
Der Text regt also unmittelbar zum Nach- und Weiterdenken an. Es handelt sich um eine der innovativsten Anwendungen aktueller Informatik im deutschen Recht, die das Zeug zum Klassiker hat. Auch die finale abschließende These der Autoren liest sich geradezu programmatisch:
5. Das Verwenden von Methoden der Künstlichen Intelligenz wie etwa des Probabilistic Topic Modelling erweist sich demnach für die Rechtswissenschaft insbesondere als vorteilhaft, wenn große Datenmengen bestehen, da die Auswertung effizient erfolgt und eine nachfolgende wertende Analyse erleichtert. Daneben führen quantitative Methoden wie die des Maschinellen Lernens aus wissenschaftstheoretischer Sicht eine Ebene der Reproduzierbarkeit ein und können die intersubjektive Nachvollziehbarkeit erhöhen, welche auch für die Rechtswissenschaft wünschenswerte Paradigmata darstellen. Dennoch ist eine menschliche Wertung in der juristischen Forschung unerlässlich, sodass die Methoden des Maschinellen Lernens daher allenfalls eine flankierende Unterstützung leisten können.
Auf weitere Arbeiten der Autoren zu diesen Themen darf man also überaus gespannt sein.
- [EDIT 26.7.] Nachträglich fiel ein erwähnenswertes Manko der Studie auf: Die Autoren berichteten in ihrer Publikation, “eine kompilierte Version des gesamten deutschen Bundesrechts von der Website gesetze-im-internet des BMJV” ausgewertet zu haben (S. 158), “abrufbar unter https://zenodo.org/record/3934926” (Fn. 24). Nur wer diese URL aufrief, konnte erkennen, dass die Daten tatsächlich nicht selbst erhoben und kompiliert worden waren, sondern von einem anderen (namentlich nicht genannten) Autor stammten. Es handelte sich dabei um das verdienstvolle “Corpus des Deutschen Bundesrechts (C-DB)” von Seán Fobbe, der in der Tat auf seine Namensnennung verzichtet hatte (Lizenz CC0). Dennoch gebieten wissenschaftliche Standards ein vollständiges Zitat, um sowohl relevante Forschungsbeiträge korrekt zu attribuieren als auch den irreführenden Eindruck zu vermeiden, dass originär amtliche Primärdaten von gesetze-im-internet.de ausgewertet wurden.