Forschungsprojekt Protect our Privacy: Künstliche Intelligenz trifft auf Datenschutz

Im Frühjahr 2019 gab das Bundesministerium für Bildung und Forschung (BMBF) für das Forschungsprojekt PoP (Protect our Privacy) grünes Licht, indem es den Antrag auf Forschungsförderung bei der Fördermaßnahme „KMU-Innovationsoffensive IKT“ bewilligte. Heute können wir bereits spannende Forschungsergebnisse vorweisen.

Das Forschungsprojekt PoP befasst sich mit dem Schutz von personenbezogenen Daten. Ganz konkret bedeutet das: Gemeinsam mit dem Verbundpartner Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS entwickelt CIB ein KI-basiertes Softwaretool zur automatischen Anonymisierung und Pseudonymisierung von personenbezogenen Daten in digitalisierten Dokumenten.

Vorgehensweise und Motivation

Um eine Softwarelösung entwickeln zu können, erforscht PoP Methoden und Werkzeuge zur automatischen Identifikation, Benennung und Maskierung schützenswerter Inhalte in digitalisierten Schriftstücken. Das Fraunhofer-Institut IAIS befasst sich dabei mit der Identifikation von sensiblen Daten, zum Beispiel, an welchen Stellen sich diese im Dokument befinden. Bei CIB selbst findet die Umsetzung der Anonymisierung und Pseudonymisierung statt. Im Fokus steht dabei insbesondere die Gewinnung von datenschutzkonformen Trainings- und Testdaten, um weitere KI-Projekte vorantreiben zu können.

Anonymisierung und Pseudonymisierung

Anonymisierung ist einigen Usern sicherlich schon bekannt, denn dabei lassen sich Textpassagen schwärzen. Bei der Pseudonymisierung hingegen gehen wir noch einen Schritt weiter. Hierbei werden sensible Daten in Dokumenten nicht entfernt oder anonymisiert (also geschwärzt), sondern durch fiktive Angaben ersetzt. Ziel ist es, den Personenbezug zu beseitigen. Dabei ist es jedoch wichtig, dass die eigentliche Bedeutung des Inhalts erhalten bleibt. Die fiktiven Angaben und Dokumente sollen realistisch erscheinen, sodass sie für das KI-Training geeignet sind. Bei der Pseudonymisierung von Namen wird beispielsweise darauf geachtet, dass Geschlecht und Wortlänge des ursprünglichen Namens beibehalten werden.

Aktuelle Entwicklungen und Ziele

Auf Seiten von CIB gibt es schon einige interessante Ergebnisse. Bei unserem webbasierten Multifunktions-Viewer CIB doXiview haben User bereits die Möglichkeit, Textpassagen zu schwärzen und auch andere Bereiche dauerhaft unkenntlich zu machen. Außerdem sind in Zukunft weitere Schritte geplant. So soll beispielsweise das im Projekt entwickelte KI-System zur Erkennung von Entitäten zum Einsatz kommen und die Nutzerführung ausgebaut werden. Zusätzlich werden neue Features eingebaut, wie z.B. das Entfernen von Texten bei realistischer Rekonstruktion des Hintergrundes.  
 
Es bleibt also spannend und wir freuen uns schon auf noch mehr Datenschutz mit KI.

Let’s CIB!

Teile diesen Post:

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.