Geförderte Projekte

NERMAN – Named-Entity-Recognition Modelle zur Anonymisierung von deutschen Texten

|   Call 2024

Entwicklung von Modellen zur Identifikation von personenbezogenen Informationen in

deutschsprachigen Texten und Methoden für eine Anonymisierung der identifizierten Inhalte.

Mit der Einführung der Europäischen Datenschutz-Grundverordnung (DSGVO) im Jahr 2018 haben personenbezogene Daten dramatisch an Aufmerksamkeit gewonnen, und der Umgang mit diesen Daten ist genau zu hinterfragen. Anonymisierte Daten hingegen sind von der DSGVO ausgenommen, da sie keine Rückschlüsse auf natürliche Personen zulassen. Das Interesse an Datenanonymisierung ist deshalb stark gestiegen und führte zur Entwicklung verschiedenster Anonymisierungstechniken. Besonders beim Einsatz von KI, wie Prompting für Chatbots oder Training von Large Language Modellen (LLM), ist die Anonymisierung personenbezogener Daten gefragt. Das erfordert geeignete Modelle, um ein zuverlässiges und datenschutzkonformes Ergebnis zu gewährleisten. Während für die englische Sprache bereits sehr gute Modelle existieren, ist deren Performance oft mangelhaft, wenn sie auf deutschsprachige Texte angewendet werden.

Übergeordnetes Ziel des Projekts NERMAN ist die Erforschung von Modellen zur

  • Identifikation von personenbezogenen Informationen in deutschsprachigen Texten und darauf aufbauend
  • Entwicklung von Methoden für eine angemessene Anonymisierung der identifizierten Inhalte.

Kernaufgabe ist deshalb die Erforschung von Named-Entity-Recognition-(NER)-Modellen zur Detektion personenbezogener Inhalte. Dies soll anhand von zwei im Projekt zu definierenden Use Cases umgesetzt werden. Im Speziellen ist die Entwicklung eines NER-Modells geplant, das die Anonymisierung von Texten des BMI ermöglicht, wobei der Fokus auf E-Mail- und Chat-Korrespondenz liegen soll.

Wesentliche Voraussetzung für die Modellentwicklung ist die Gewinnung geeigneter Trainings- und Testdaten. Dabei sollen echte Beispieldaten mit Web-Scraping von öffentlichen Informationen und synthetischer Datengenerierung kombiniert werden. Diese Daten müssen hinsichtlich ihrer Repräsentativität und Eignung bewertet werden. Das soll mittels statistisch-linguistischer Kennzahlen erfolgen. Da aktuell keine zufriedenstellenden deutschsprachigen Datensätze verfügbar sind, ist die Generierung eines deutschsprachigen Benchmark-Datensatzes für ein möglichst breites Spektrum an Anwendungsfällen vorgesehen.

Die entwickelten Modelle werden umfassend validiert und bewertet. Die Bewertung umfasst neben technischen Kriterien wie Performance, Effizienz oder Ressourceneinsatz auch rechtliche und ethische Faktoren. Das rechtliche und ethische Framework für personenbezogene Daten und Anonymisierungstechniken beim Einsatz von KI soll Metriken zur Bewertung der Qualität einer Anonymisierung beinhalten. Als Proof-of-Concept werden die besten Modelle in einen zu entwickelnden Demonstrator integriert.

Wesentliche Innovation des Projekts NERMAN ist ein NER-Modell, das speziell für die Anwendung auf überwiegend deutschsprachige Chat- und E-Mail-Daten zugeschnitten ist. Eine weitere Neuheit von NERMAN ist die Erstellung von Datensätzen mit ähnlichen linguistischen Eigenschaften wie Chats und E-Mails und dabei speziell die Anwendung von LLMs für die Generierung synthetischer Daten. Erstmals sollen repräsentative, synthetische Testdatensätze, die komplett datenschutzkonform sind, für einen hochsensiblen Sektor wie die Sicherheitsverwaltung generiert und bereitgestellt werden. Schließlich sollen erstmals quantitative Kriterien erarbeitet werden, die eine möglichst zuverlässige Prüfung des Personenbezugs von Daten und der Qualität von Anonymisierungsvorgängen ermöglichen.

Projektleitung
DI Ulrike Kleb
JOANNEUM RESEARCH Forschungsgesellschaft mbH
POLICIES – Institut für Wirtschafts-, Sozial- und
Innovationsforschung

Projektpartner:
Bundesministerium für Inneres
Axtesys GmbH
Universität für Weiterbildung Krems - Department für E-Governance in Wirtschaft und Verwaltung

Kontakt
DI Ulrike Kleb
JOANNEUM RESEARCH Forschungsgesellschaft mbH
POLICIES – Institut für Wirtschafts-, Sozial- und
Innovationsforschung
Leonhardstraße 59
8010 Graz
Tel.: +43 316 876-1555
E-Mail: ulrike.kleb(at)joanneum.at 
Web: https://www.joanneum.at/policies/ 

Bundesministerium für Finanzen
Österreichische Forschungsförderungsgesellschaft - FFG