Forschungsprojekt Protect our Privacy: Künstliche Intelligenz trifft auf Datenschutz

Im Frühjahr 2019 gab das Bundesministerium für Bildung und Forschung (BMBF) für das Forschungsprojekt PoP (Protect our Privacy) grünes Licht, indem es den Antrag auf Forschungsförderung bei der Fördermaßnahme „KMU-Innovationsoffensive IKT“ bewilligte. Heute können wir bereits spannende Forschungsergebnisse vorweisen.

Das Forschungsprojekt PoP befasst sich mit dem Schutz von personenbezogenen Daten. Ganz konkret bedeutet das: Gemeinsam mit dem Verbundpartner Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS entwickelt CIB ein KI-basiertes Softwaretool zur automatischen Anonymisierung und Pseudonymisierung von personenbezogenen Daten in digitalisierten Dokumenten.

Vorgehensweise und Motivation

Um eine Softwarelösung entwickeln zu können, erforscht PoP Methoden und Werkzeuge zur automatischen Identifikation, Benennung und Maskierung schützenswerter Inhalte in digitalisierten Schriftstücken. Das Fraunhofer-Institut IAIS befasst sich dabei mit der Identifikation von sensiblen Daten, zum Beispiel, an welchen Stellen sich diese im Dokument befinden. Bei CIB selbst findet die Umsetzung der Anonymisierung und Pseudonymisierung statt. Im Fokus steht dabei insbesondere die Gewinnung von datenschutzkonformen Trainings- und Testdaten, um weitere KI-Projekte vorantreiben zu können.

Anonymisierung und Pseudonymisierung

Anonymisierung ist einigen Usern sicherlich schon bekannt, denn dabei lassen sich Textpassagen schwärzen. Bei der Pseudonymisierung hingegen gehen wir noch einen Schritt weiter. Hierbei werden sensible Daten in Dokumenten nicht entfernt oder anonymisiert (also geschwärzt), sondern durch fiktive Angaben ersetzt. Ziel ist es, den Personenbezug zu beseitigen. Dabei ist es jedoch wichtig, dass die eigentliche Bedeutung des Inhalts erhalten bleibt. Die fiktiven Angaben und Dokumente sollen realistisch erscheinen, sodass sie für das KI-Training geeignet sind. Bei der Pseudonymisierung von Namen wird beispielsweise darauf geachtet, dass Geschlecht und Wortlänge des ursprünglichen Namens beibehalten werden.

Aktuelle Entwicklungen und Ziele

Auf Seiten von CIB gibt es schon einige interessante Ergebnisse. Bei unserem webbasierten Multifunktions-Viewer CIB doXiview haben User bereits die Möglichkeit, Textpassagen zu schwärzen und auch andere Bereiche dauerhaft unkenntlich zu machen. Außerdem sind in Zukunft weitere Schritte geplant. So soll beispielsweise das im Projekt entwickelte KI-System zur Erkennung von Entitäten zum Einsatz kommen und die Nutzerführung ausgebaut werden. Zusätzlich werden neue Features eingebaut, wie z.B. das Entfernen von Texten bei realistischer Rekonstruktion des Hintergrundes.  
 
Es bleibt also spannend und wir freuen uns schon auf noch mehr Datenschutz mit KI.

Let’s CIB!

Teile diesen Post:

CIB does OCR

OCR steht für Optical Character Recognition, das heisst, Texterkennung oder optische Zeichenerkennung.

Der CIB-Baustein CIB ocr ist in unseren Lösungen CIB doXiview, CIB doXisafe app (Google Play / App Store), CIB doXisafe, CIB doXima sowie auf unserer Crowdsourcing-Plattform ocr.team integriert und kann kostenlos und ohne Registrierung verwendet werden.

Warum OCR?

Schon einmmal während einer Präsentation als Mitschrift Fotos der Slides gemacht? Aus all den Slides dann den einen bestimmten Abschnitt gesucht? Und den darin enthaltenen Text dann mühsam abgetippt?

Mit CIB ocr kann eine gescannte Unterlage, ein PDF-Dokument oder einfach nur ein Bild auf darin enthaltenen Text durchsucht werden! Der gefundene Text kann übernommen und sogleich in einem Textverarbeitungsprogramm eingebunden werden.
Das bedeutet, Schluss mit Abtippen! Einfach mit Hilfe von OCR den Text extrahieren und verwenden.

Und dann wurde es deepER:

CIB hat in Zusammenarbeit mit dem Fraunhofer Institut und dem Bundesministerium für Forschung und Innovation (BMFI) ein OCR-System auf Basis von künstlicher Intelligenz, unser CIB deepER entwickelt.

CIB deepER ermöglicht die Texterkennung von fotografierten oder gescannten Bildern. Der enthaltene Text wird dabei mit Hilfe einer  Künstlichen Intelligenz (KI) extrahiert und kann über CIB doXiview korrigiert werden. Die zugrunde liegende KI lernt mit jedem Bild und jeder Datei die verarbeitet wird und verbessert sich damit fortlaufend – bis hin zur perfekten Texterkennung.

In diesem Sinne: Mitmachen und let’s CIB!

Teile diesen Post: