Geförderte Projekte

CLEAR - Comprehensible Learning for Entity Anonymization and Recognition

|   Call 2024

Generische, transparente, vertrauenswürdige und nachhaltige KI-Lösungen für die Erkennung von Entitäten und ihre Anwendung auf die Identifikation von personenbezogenen Daten.

Sollen Texte, die personenbezogene Daten (pb Daten) enthalten, für das Training von KI-Systemen, für Forschungs- und Schulungszwecke verwendet oder veröffentlicht werden (z.B. parlamentarische Materialien bzw. Gerichtsentscheidungen), müssen sie vorher anonymisiert oder pseudonymisiert werden. Voraussetzung dafür ist eine verlässliche und nachvollziehbare Identifikation der Personenbezüge. 

CLEAR entwickelt und erforscht generische, transparente, vertrauenswürdige und nachhaltige (KI-)Lösungen für die Erkennung von Entitäten und ihre Anwendung auf die Identifikation von personenbezogenen Daten. Dabei werden regelbasierte und auf Machine-Learning basierende Methoden zur Realisierung ihrer Vorteile bei gleichzeitiger Vermeidung der Nachteile kombiniert.

State-of-the-Art-Lösungen für die Erkennung von Entitäten beruhen auf der Feinabstimmung großer neuronaler Sprachmodelle, die hochwertig annotierte Trainingsdaten erfordern, aber sich schlecht verallgemeinern lassen. Die Anfälligkeit für Halluzinationen führt dazu, dass das Vertrauen der Nutzer:innen sinkt bzw. Desinformation verstärkt wird. Ihre inhärente „Black Box“-Natur konfrontiert Anwender:innen mit Entscheidungen, welche unvorhersehbar und nicht erklärbar sind. Die Modelle sind nicht konfigurierbar und anfällig für Bias. Darüber hinaus stellt das Training eine erhebliche Umweltbelastung dar. Herkömmliche regelbasierte Systeme hingegen müssen auf auch nur geringfügig abweichende Gegebenheiten neu angepasst werden. 

Das Projekt CLEAR adressiert einen hybriden Ansatz einer akkuraten NER (Named Entity Recognition) auf deutschsprachige (Fließ-)Texte:

(1) Lernen von Regeln für die Erkennung von Entitäten durch Prompting bzw. Finetuning von LLM-basierten Modellen.

(2) Generieren von bewerteten Entitätenkandidaten durch Deep-Learning-Modelle und Auswahl der passendsten Kandidaten durch einen (trainierten) anwendungsspezifischen Regelsatz. 

CLEAR basiert auf dem Human-in-the-Loop-Lernparadigma für juristische NER, der die oben genannten Schwächen überwinden soll. Die Erklärbarkeit und Vorhersehbarkeit ist gegeben, die erstellten Regeln sind für Fachanwender:innen verständlich, prüfbar und einfach konfigurierbar. CLEAR bietet ein NLP-Paradigma, das die Umweltkosten sowie den Trainingsaufwand für LLMs erheblich zu senken vermag.

Im rechtswissenschaftlichen Bereich sind wichtige Fragen zum Begriff der Anonymisierung offen. Es gilt eine praktikable und rechtlich sichere Anonymisierungsstrategie zu identifizieren, da die DSGVO ebenso wie neue EU-Rechtsakte (etwa der Data Act und der Data Governance Act) auf dem Konzept der Anonymisierung aufbauen, ohne dieses vollends zu definieren. Zusätzlich sind für die Nutzung von Trainingsdaten für KI ungeklärte Randbedingungen, wie urheberrechtliche Aspekte, zu beachten. Ebenso sollen Fragen der neue KI-Verordnung der EU im europäischen Rechtsrahmen behandelt werden (z.B. zur Forschungsausnahme oder zur Risikoeinstufung von KI-Systemen).

Die flexible, trainierbare, vertrauenswürdige NER-Architektur kann in einer Reihe von weiteren Anwendungsfällen zum Einsatz kommen, etwa in der digitalen Forensik und zur Bekämpfung von Cyber Crime. 

ProjektleiterIn
Doris Ipsmiller, m2n – consulting and development gmbh

Auflistung der weiteren Projekt- bzw. KooperationspartnerInnen
Bundesministerium für Finanzen
Bundesministerium für Justiz 
Republik Österreich Parlamentsdirektion
Universität Wien Institut für Innovation und Digitalisierung im Recht 
Technische Universität Wien Institut für Information Systems Engineering 

Kontakt
Doris Ipsmiller
m2n – consulting and development gmbh
Knagg 1, 3034 Maria Anzbach
Telefon: +43 660 711987 2
office(at)m2n.at
www.m2n.at 

Bundesministerium für Finanzen
Österreichische Forschungsförderungsgesellschaft - FFG