Immer mehr Unternehmungen setzen für die Identifikation ihrer Kunden eine Lösung für Video-Identifikation ein. Im Zusammenhang mit immer öfters auftauchenden sogenannte «Deepfakes» stellt sich für diese Organisationen die Frage, ob diese verwendet werden könnten, um die Video-Identifikation zu täuschen. Redguard hat sich das Thema aus diesem Gesichtspunkt heraus genauer angeschaut, um den Sachverhalt zu prüfen und Antworten, insbesondere bezüglich Machbarkeit und Wahrscheinlichkeit, von Angriffen auf Video-Identifikationen mittels Deepfakes aufzubereiten. Der vorliegende Blog-Beitrag fasst die wichtigsten Erkenntnisse zusammen.
Um den Fokus auf die grundlegende Fragestellung nicht zu verlieren und mit möglichst geringem Aufwand die benötigten Resultate zu erzielen, wurden insbesondere nachfolgende Themen aus der Analyse bewusst ausgeklammert:
Immer mehr Organisationen setzen zur Identifikation ihrer Kunden über online Kanäle (neben klassischen Login-Verfahren) auf die sogenannte Video-Identifikation. Eine Video-Identifikation erlaubt es beispielsweise dem Helpdesk eine Person zu identifizieren, um diese bei Problemen mit ihrem Konto zu unterstützen oder einem Kundenberater einen neuen Kunden zu «on-boarden» bzw. ein Konto für diesen zu initialisieren. Bei einer Video-Identifikation wird ein Live-Bild des (potentiellen) Kunden an einen Mitarbeitenden übertragen. Eine solche Videoübertragung erfolgt beispielsweise über die in Smartphones eingebaute Frontkamera.
Für die eigentliche Identifikation muss die zu identifizierende Person ihr Gesicht sowie ein amtliches Ausweisdokument mit Foto wie beispielsweise eine Identitätskarte oder einen Reisepass klar erkennbar ins Blickfeld der Kamera halten. Seitens Anbieter (beispielsweise eine Bank) wird dann durch eine dem Video zugeschaltete Person die Authentizität des amtlichen Ausweisdokuments über optische Sicherheitselemente geprüft. Danach wird geprüft, ob das Foto auf dem amtlichen Ausweisdokuments mit der Person, welche vor der Kamera steht, übereinstimmt. Ist dies der Fall, gilt die Person als erfolgreich identifiziert.
Auszug des Artikels zum Thema Deepfake aus der Deutschen Wikipedia:
Deepfakes beschreiben realistisch wirkende Medieninhalte (Foto, Audio und Video), welche durch Techniken der künstlichen Intelligenz abgeändert und verfälscht worden sind. Obwohl Medienmanipulation kein neues Phänomen darstellt, nutzen Deepfakes Methoden des maschinellen Lernens, genauer künstliche neuronale Netzwerke, um Fälschungen weitgehend autonom zu erzeugen. Der erste und derzeit häufigste Einsatz von Deepfakes findet im Bereich des „face swapping“ statt. Hierbei wird in visuellem Material (z. B. Videos oder Fotos) das Gesicht einer Person mit einem generierten Gesicht einer anderen Person getauscht um eine Zielperson in einem anderen Kontext darzustellen. … Deepfakes gehen allerdings weit über die Anwendung des „face-swapping“ hinaus und beinhalten die Manipulation auditorischer Inhalte (z. B. „voice swapping“) und die als „body-puppetry“ bekannte Übertragung von Körperbewegungen auf andere Personen in Videomaterial.Auszug aus Wikipedia
Insbesondere «body-puppetry» (oder auch «Facial Manipulation») eignet sich als Angriffsmethode gegen Video-Identifikationslösungen. Die Idee hinter einem solchen Angriff ist es, das Video-Signal für die verwendete Mobile App oder Web Applikation statt direkt von der physischen Kamera erst durch eine Software laufen zu lassen, welche das Aussehen der Person vor der Kamera digital so verändert, dass diese wie eine andere Person aussieht.
Die einfachste (jedoch für die Video-Identifikation ungeeignete) Art von visuellen Deepfakes ist das Ersetzen von Gesichtern in einzelnen Standbildern. Die bekannteste Anwendungsart dieser Technik sind sogenannte Face-Swaps, also das Austauschen von Gesichtern zweier (oder mehr) Personen auf einem Bild.
Original:
Face-Swap:
Quelle: Hot Fuzz (Universal Pictures)
Die nach heutigem Forschungsstand entwickelten ML Modelle sowie die verfügbare Rechenleistung erlauben es in relativ kurzer Zeit, nicht mehr vom menschlichen Auge als unecht identifizierbare hochauflösende Deepfake-Bilder zu erzeugen.
Neben Einzelbildern können mit den gleichen zugrundeliegenden Techniken auch Deepfake-Videos erstellt werden, da Videos technisch gesehen nichts anderes als aneinandergereihte Bilder sind. Insbesondere ist der maschinelle Rechenaufwand natürlich ungleich höher als bei einem einzelnen Bild. Mit der entsprechenden Rechenpower oder alternativ genügend Zeit können jedoch analog der Einzelbilder sehr hochauflösende Deepfake-Videos erstellt werden.
Im Unterschied zu einem Standbild gilt es bei einem Deepfake-Video jedoch einige weitere Elemente zu beachten. So müssen beispielsweise nicht nur auf jedem Frame (Einzelbild) innerhalb des Videos die Gesichter ausgetauscht werden, sondern muss auch eine natürliche Bewegung beziehungsweise ein Übergang zwischen den Frames beibehalten werden. Wenn dies nicht mit hoher Qualität umgesetzt wird, ist ein Deepfake-Video problemlos von Auge zu erkennen, da unnatürliche Artefakte entstehen.
Beispiel für einen schlecht gemachten Deepfake:
Quelle: https://www.watson.ch/videos/!31634Beispiel für einen gute gemachten Deepfake (links Original, rechts Deepfake):
Quelle: https://www.tiktok.com/@deeptomcruiseSozusagen die Königsdisziplin der Deepfakes sind Live-Deepfakes. Hierbei wird eine Videoaufnahme direkt zum Zeitpunkt der Aufnahme selbst über entsprechende Software und trainierte ML Modelle in einen Deepfake verwandelt. Diese Live-Deepfakes können dadurch insbesondere dazu verwendet werden, um mit dem Aussehen einer Drittperson in Echtzeit mit einer anderen Partei beispielsweise über eine Video-Conferencing Lösung zu interagieren. Live-Deepfakes sind somit auch das ideale Angriffswerkzeug in Bezug auf die Video-Identifikation.
Um realitätsnahe Live-Deepfakes zu generieren, gibt es zwei Grundbedingungen. Erstens müssen möglichst gute ML Modelle verwendet werden, welche im Idealfall für das Zusammenspiel zwischen der real aufgenommene Person und der vorzugebenden Person optimiert, beziehungsweise trainiert wurden und zweitens wird erheblich Rechenleistung, insbesondere durch sogenannte GPUs (Graphics Processing Units), benötigt. Ist beides ausreichend vorhanden, können qualitativ hochwertige Live-Deepfakes erzeugt werden.
Die nachfolgenden Beispiele basieren auf aktuellen Forschungsergebnissen. Links ist jeweils der Autor des vorliegenden Blog-Beitrags sichtbar, rechts davon eine fiktive, durch einen Algorithmus generierte Person, welche basierend auf einem einzelnen Bild in einem Live-Deepfake gesteuert wird. Die verwendete Technik funktioniert grundsätzlich basierend auf jedem frontal aufgenommenen Foto einer Person, unabhängig von deren Geschlecht, Alter oder Hautfarbe.
Wie unschwer zu erkennen ist, ist die Qualität bereits relativ gut, jedoch noch nicht an einem Punkt, an welchem von einer nahezu perfekten Fälschung gesprochen werden kann. Selbst von blossem Auge lassen sich, insbesondere bei einem flüssig laufenden Video-Stream, kleinere Artefakte erkennen. Auf den Standbildern in diesem Report sind diese wesentlich weniger auffällig, als wenn beispielsweise bei der Verwendung als Live-Deepfake damit gesprochen wird, da insbesondere die Mundbewegungen teilweise unnatürlich wirken können. Diese Artefakte entstehen insbesondere dann, wenn aussergewöhnliche Bewegungen erfolgen, mit denen der Algorithmus in der ihm zur Verfügung stehenden Zeit (wenige Millisekunden damit das Bild echt wirkt) nicht oder nur zum Teil umgehen kann und werden durch eine hohe Pixeldichte / Bildauflösung weiter erschwert.
Aktuell wird sehr aktiv an der Verbesserung von Deepfakes geforscht und es ist deshalb davon auszugehen, dass sich der Stand des Möglichen in diesem Feld stetig weiterentwickelt. Was somit heute noch ein Problem für die eingesetzten ML Modelle darstellt, wird wohl über kurz oder lang ausgemerzt, um dem perfekten (Live-)Deepfake stets ein wenig näher zu kommen.
Nachfolgend werden nicht abschliessend Massnahmen aufgezeigt, welche es erlauben, Deepfake-Angriffe auf Video-Identifikationsprozesse zu erkennen und damit zu verhindern. Die aufgeführten Massnahmen beziehen sich jeweils ausschliesslich auf Live-Deepfakes sowie den aktuellen und öffentlichen Forschungsstand (19. März 2021).
Aktuell ist es insbesondere bei Live-Deepfakes normalerweise noch relativ einfach möglich, diese als solche von blossem Auge zu erkennen.
Grundsätzliche Beispiele zur manuellen Erkennung von Live-Deepfakes sind:
Es gilt zu beachten, dass verschiedene der oben genannten Erkennungsmerkmale beispielsweise auch das Ergebnis einer schlechten Internetverbindung sein können. Es ist deshalb entscheidend, im Sinne eines guten Kunden-Service, nicht vorschnell auf einen Live-Deepfake zu schliessen.
Zudem können beispielsweise nachfolgende Techniken eingesetzt werden, um Situationen zu erzeugen, mit denen die meisten ML Modelle insbesondere bei Live-Deepfakes ihre Mühe haben.
Bereits heute aber insbesondere in der Zukunft wird es dem menschlichen Auge praktisch unmöglich sein, gut gemachte Deepfakes als solche zu erkennen. Die effizienteste Art Deepfakes zu erkennen, ist, ebenfalls auf Machine Learning zu setzen. ML Modelle können darauf trainiert werden, Bilder und auch Videos praktisch in Echtzeit und mit hoher Gewissheit als echt oder Deepfake zu identifizieren. Hierbei gilt es jedoch zu beachten, dass wie in fast allen Sicherheitsbereichen mit einem Katz und Maus Spiel zwischen Anbietern und Kriminellen sowie nicht zuletzt der akademischen Forschung, welche sich sowohl mit der immer besseren Erzeugung wie aber auch Erkennung von Deepfakes befasst, zu rechnen ist. Technische Sicherheitsmassnahmen gegen Deepfakes sind bereits heute hocheffektiv, müssen jedoch stetig weiterentwickelt werden. Neuste Ansätze konzentrieren sich beispielsweise auf Dinge wie Lichtreflektionen in den Augen einer gezeigten Person, um die Echtheit eines Videos zu überprüfen.
Zusammenfassend kann gesagt werden, dass die Büchse der Pandora in Bezug auf Deepfakes längst geöffnet wurde. Sowohl einzelne Bilder wie aber auch Video- und Tonaufnahmen können bereits heute nicht mehr zuverlässig vom menschlichen Auge (beziehungsweise Ohr für Audio) als echt oder Fälschung beziehungsweise Deepfake erkannt werden. Die letzte Hürde stellen aktuell Live-Deepfakes dar, da diese keine Fehler verzeihen und zeitoptimiert berechnet werden müssen. Bereits heute kann jedoch gesagt werden, dass der Hauptschutz gegen Live-Deepfakes im Kontext von Video-Identifikation aktuell darin besteht, dass nicht bekannt wäre, das Kriminelle aktiv ML Modelle für diesen spezifischen Einsatz trainieren und dass zudem auch das jeweils vorzuzeigende amtliche Ausweisdokument durch die visuellen Sicherheitselemente einen zusätzlichen Schutz bietet. Dieser «Schutz» ist jedoch nur temporär und wir rechnen aktuell mit einem Zeitraum von etwa zwei Jahren bevor erste echte und skalierende Angriffe (Einzelfälle und Proof-of-Concepts ausgenommen) in diesem Kontext erfolgen.
Wir empfehlen daher unseren Kunden zum jetzigen Zeitpunkt aufgrund der Möglichkeiten, welche durch den Einsatz von Video-Identifikation geschaffen werden, an dieser festzuhalten und diese höher zu gewichten als die aktuelle Gefahr durch Live-Deepfakes. Das Restrisiko sollte jedoch intern erfasst und überwacht werden. Letzteres insbesondere durch das Verfolgen der weiteren Entwicklungen in diesem Bereich.
Haben Sie Fragen oder benötigen Sie Unterstützung in Bezug auf Deepfakes? Gerne unterstützen wir Sie.