© Youtube / Ctrl Shift Face

Deepfake-Videos

Es gibt immer mehr gefälschte Videos im Internet – so erkennst du sie

von Teresa Wolny
etwa 9 Min. Lesedauer

Schau dir einmal diesen Ausschnitt aus einem Video an:

https://gifs.com/embed/deepfakewarrenrealuncropped-r8VWxp

Das ist Elizabeth Warren, eine aussichtsreiche Kandidatin der Demokratischen Partei für die US-Präsidentschaftswahlen im nächsten Jahr. Und jetzt diesen Ausschnitt:

https://gifs.com/embed/dfmckinnonfullscreen2-VAnqZX

Das ist die US-Schauspielerin und Komikerin Kate McKinnon, verkleidet als Elizabeth Warren. So parodiert man normalerweise berühmte Persönlichkeiten. Und jetzt noch diesen Ausschnitt:

https://gifs.com/embed/dfwarrenmckinnonmorphfullscreen2-K19N7x

Das ist IMMER NOCH Kate McKinnon. Zumindest ihr Haar, ihr Oberkörper und ihre Mimik. Das Gesicht gehört der echten Elizabeth Warren und wurde mit Kate McKinnons Gesicht getauscht. So parodiert man heute – digital. Die Technik dahinter heißt Deepfake. Sie wird gefeiert und gefürchtet.

Deepfake-Videos sind bearbeitete Videos, die mithilfe künstlicher Intelligenz erstellt werden. Oft wird dabei das Gesicht einer Person ausgetauscht. Wie ihr oben seht, kann das ziemlich glaubwürdig aussehen. Stell dir vor, was man damit machen kann: Irgendein Gesicht, das auf jeden beliebigen Körper in jeder beliebigen Situation montiert werden kann. Donald Trump wie er auf den roten Knopf drückt, Angela Merkel, die ankündigt, aus der EU auszutreten. Oder auch Nicolas Cage als Gollum, Meister Yoda und so ziemlich in jeder anderen Hauptrolle.

Es gibt ganze Youtube Kanäle, die sich darauf spezialisiert haben, die Besetzung in bekannten Filmen zu tauschen.

Ja, das kann zu unschönen Situationen führen. Und diese Gefahr haben auch Politiker:innen erkannt.

Wenn wir nicht aufpassen, könnten wir bald alle in einer ziemlich abgefuckten Dystopie leben, sagt Barack Obama. Sagt wer? Unwahrscheinlich, dass der Ex-US-Präsident in einer Rede an die Öffentlichkeit tatsächlich den Begriff „fucked up“ verwenden würde. Hat er auch nicht. Das Deepfake-Video von Obama, der mit der Stimme des Schauspielers Jordan Peele spricht, ist eine der bekanntesten Deepfakes im Internet. Das Video warnt vor genau den Manipulationsmethoden, mit deren Hilfe es produziert wurde:

https://www.youtube.com/watch?v=cQ54GDm1eL0

In gewisser Weise sind Deepfake-Videos gerade der Gipfel der Fake News. Damit du mich nicht falsch verstehst: Videos zu manipulieren ist schon ziemlich lange möglich. Ein ziemlich alter Fake (von 1994) ist zum Beispiel diese Szene aus dem Film „Forrest Gump“, in der Forrest (Tom Hanks) ins Weiße Haus geladen wird und dort US-Präsident John F. Kennedy bei einem Empfang die Hand schüttelt. Die Szene an sich ist echt, das Gesicht von Tom Hanks wurde reingebaut. Forrest trinkt in der Szene zu viel Dr. Pepper und erzählt dem Präsidenten während des Händeschüttelns, dass er dringend aufs Klo muss. So etwas konnte man vor 25 Jahren schon basteln:

https://www.youtube.com/watch?v=JSEdBNslGOk

Diese klassischen Fakes waren sehr mühsam. Eine Menge Leute mussten sich da reinknien, früher mit Photoshop oder ganz früher mit Schere, Kleber und Filmstreifen. Alles aufwendig und teuer, deswegen war das Fälschen bisher vor allem der milliardenschweren Filmindustrie vorbehalten.

In diesem Making-of könnt ihr sehen, wie aufwändig die kurze Szene aus Forrest Gump im Weißen Haus war.

Neu an den Deepfakes ist nur das deep. Es sind Fälschungen mithilfe von Künstlicher Intelligenz. Algorithmen werden mit Daten (Aufnahmen von Gesichtern, sprechenden Mündern, zusammengezogenen Augenbrauen und so weiter) gefüttert und lernen dabei, Gesichter Schritt für Schritt selbstständig auszutauschen. Auf diese Weise bauen sie eine Art perfekte Maske (dazu gleich mehr).

Zuerst tauchten Pornoclips mit den Gesichtern bekannter Personen auf

Der Begriff dahinter: Deep Learning. Vereinfacht gesagt ist das der Selbstlernprozess künstlicher Intelligenz durch Prozesse, die denen im menschlichen Gehirn nachempfunden sind. Ähnlich wie im Gehirn bestehen Deep-Learning-Algorithmen aus künstlichen neuronalen Netzen mit mehreren hintereinander geschalteten Schichten. Im Falle von Videos könnte so ein künstliches Netzwerk in der ersten Schicht zum Beispiel die Farbe kodieren: Wenn schwarz zu sehen ist, wird Neuron A aktiviert, bei weiß Neuron B. Die nächste Schicht könnte dann kodieren, welche Form das Gesehene hat, und so weiter. Das Besondere: Man gibt das dem künstlichem Netzwerk nicht vor, es lernt das von selbst – vor allem bei großen Datenmengen. Denn genauso, wie du besser Geige spielst, je mehr du übst, wird der Algorithmus besser, je mehr Daten er bekommt. Das Prinzip dahinter ist dasselbe.

Was in unserem Gehirn passiert, wenn wir etwas lernen, hat Bent Freiwald in diesem Artikel beschrieben.

Deepfake-Videos nutzen verschiedene Techniken. Die gängigste Methode ist das sogenannte Faceswapping, bei dem einer sprechenden Person quasi eine digitale Maske aufgesetzt wird (so wie Kate McKinnon die Maske von Elizabeth Warren). Man kann sich das wie eine sehr mächtige Maske aus einem Agententhriller vorstellen. Die Maske selbst ist ausdruckslos und passt sich der Mimik der Person an, der sie aufgesetzt wird.

Bekannt wurden die Fake-Videos zum ersten Mal Ende 2017. Auf der Plattform Reddit tauchten damals Pornoclips mit den Gesichtern bekannter Schauspielerinnen und Musikerinnen auf. Obwohl die Videos ziemlich leicht zu enttarnen waren, stießen sie eine große Debatte an.

Ich rufe beim Fraunhofer Institut für sichere Informationstechnologie an, bei Martin Steinebach. Steinebach ist Informatiker und beschäftigt sich mit Kriminalität im Netz. Er unterscheidet einen engen und einen weiter gefassten Deepfake-Begriff. Der weite Begriff umfasst schlicht alle Fake-Videos, die mithilfe von KI erzeugt wurden. Im engen Sinn beschreibt Deepfake eine Software, die mithilfe einer Sammlung von Porträtfotos zum Beispiel einer Schauspielerin die abgebildete Person zum Beispiel in ein Pornovideo programmieren kann. So wurden die Clips auf Reddit gebaut. Das Gesicht der Pornodarstellerin wird durch das auf den Porträtfotos ersetzt. Das erledigt die KI, die auf diesen Prozess programmiert ist, quasi von alleine. Je mehr Fotos es von der Schauspielerin gibt, desto besser ist das Ergebnis.

Anhand der Fotos lernt das System, wie die Person aussieht, die in das Video eingefügt werden soll. Durch die KI können Schritte, die früher in Kleinstarbeit lange am Computer zusammengefriemelt werden mussten, automatisiert werden. Der Code und die entsprechende Software dazu ist frei im Netz verfügbar. Durch Open Source Programme wird sie ständig verbessert. „Man kann von einer Demokratisierung der Bild- und Videomanipulation sprechen“, sagt Steinebach.

Sogenannte Rachepornos sind verboten

Können wir jetzt also alle anfangen, wild Videos zu fälschen und unliebsame Ex-Partner:innen in Pornos einzubauen? Theoretisch schon, praktisch muss man natürlich trotzdem ein bisschen Zeit investieren. Ganz zu schweigen von möglichen Strafen. Sogenannte Rachepornos (vom englischen „revenge porn“) sind verboten.

Deepfakes werden schnell immer besser, es gibt sogar schon Live-Fakes. Und sie werden mehr: Das Deeptracelab, ein Unternehmen, das sich mit manipulierten Videos beschäftigt, zählte im Dezember 2018 knapp 8.000 Deepfake-Videos. Im September 2019 waren es schon über 14.500.

Viele Videos, besonders kurze Clips, die in den sozialen Medien kursieren, sind aber alles andere als perfekt und können auch ohne technische Hilfsmittel als Fälschung erkannt werden. Es gibt einige Methoden, mit denen ihr diese Videos leichter als Fake erkennen könnt. Die Liste erhebt keinen Anspruch auf Vollständigkeit:

  1. Achte auf den Haaransatz: In Videos, in denen ein Gesicht durch ein anderes ersetzt wurde, hat er oft eine andere Hautfarbe als die Gesichtsmitte

  2. Achte auf den Raum um das Gesicht herum: Dort werden manchmal Weichzeichner eingesetzt. Dieser Bereich wirkt dann verschwommen oder unnatürlich.

  3. Achte auf den Hintergrund: Manchmal gibt es auch dort Dinge, die nicht stimmig sind, zum Beispiel abgeschnittene Gebäude. Oder die Lichtverhältnisse sind anders als im Gesicht der Person.

  4. Der Mund: Selbst wenn die Lippenbewegungen realistisch aussehen, haben Algorithmen manchmal ein Problem damit, die Mundhöhle und die Zähne gut darzustellen.

  5. Gleiches gilt für das Blinzeln: Algorithmen tun sich schwer damit, geschlossene Augen darzustellen. Als sich dieser Tipp verbreitete, wurde das Problem aber ziemlich schnell behoben.

Das klingt doch eigentlich nicht so schwer: Einfach die Liste durchgehen und schon weiß ich, ob ich es mit einem Fake zu tun habe. Naja – nein. Spätestens beim letzten Punkt wird deutlich, wie schnell die Technik voranschreitet, und dass die Liste höchstens Anhaltspunkte für schlechte Deepfakes liefern kann.

Es gibt auch heute schon Videos, bei denen keiner der oben genannten Punkte zutrifft und die mit bloßem Auge längst nicht mehr als Fälschung zu erkennen sind. Wie beeindruckend echt so etwas aussehen kann, zeigt die erste Minute dieser Doku der Schweizer Tagesschau. Eine weitere Einschränkung: Dinge, die auf einem großen, professionellen Monitor als Fake zu entlarven sind (etwa weil die Haut trotz gleicher Farbe eine unterschiedliche Porigkeit hat), können auf dem winzigen Smartphone-Bildschirm echt wirken. Dementsprechend ist die Erkennung von Deepfakes bei Videos von geringer Qualität auch schwieriger als bei solchen von hoher Qualität.

Jedes fünfte Deepfake-Video gibt Anlass zur Sorge

Laut einem Report des Deeptracelabs kommen ganze 96 Prozent der Deepfake-Videos im Netz aus dem pornografischen Bereich. Die Gesichter von Frauen werden dabei auf die Körper von Pornodarstellerinnen gesetzt, ja, ausschließlich die Gesichter von Frauen (vermutlich findet man auch ein paar Videos mit dem Gesicht von Nicolas Cage). Von den Deepfake-Videos wiederum, die nicht auf Pornowebsites, sondern auf Youtube zirkulieren, fallen 81 Prozent in den Bereich „Entertainment“.

Eine aktuelle Entwicklung ist die chinesische App Zao, die bisher auch nur in China verfügbar ist und mit der man sein eigenes Gesicht in bestimmte Filmszenen reinkopieren kann.

Die restlichen 19 Prozent teilen sich in Politik, Medien und Business auf. Und diese 19 Prozent sind es, die vielen Sorgen bereiten.

Viele Expert:innen befürchten, dass Deepfake-Videos zukünftig Wahlen beeinflussen könnten. Das US-Verteidigungsministerium hat die Technologie mittlerweile auf dem Schirm und fördert Universitätsprojekte, die sich der Erkennung der Fake-Videos widmen.

Je besser die Deepfakes werden, desto besser werden auch die Erkennungsmethoden. Auch dafür gibt es verschiedene Ansätze. Am Fraunhofer Institut funktioniert die Technik laut Martin Steinebach so, dass die Pixel eines Videos untersucht werden. Wenn dann die Pixel eines Gesichts vom Rest abweichen, kann mithilfe einer sogenannten Fehleranalyse festgestellt werden, ob es sich um eine Deepfake handelt. Wie wichtig das ist, zeigt die „Ibiza-Affäre“ in Österreich. Auch dieses politisch extrem brisante Video wurde vom Fraunhofer-Institut vor der Veröffentlichung auf seine Echtheit geprüft. Fazit: Echt.

„Sometimes you have to watch twice“ („Manchmal muss man zweimal hinschauen“) ist das Motto des Twitter-Kanals DeepfakeDigger, einem Projekt, das mithilfe spezieller Technologie Deepfakes aufspürt. Vielleicht müsste man hinzufügen: „Manchmal muss man zweimal nachdenken.“

Genau darum soll es in meinem nächsten Text gehen: Was heißt diese Technologie für unseren Umgang mit Sozialen Medien und unser Vertrauen in so etwas wie Beweismaterial? Welche politischen Auswirkungen haben Deepfake-Videos in der Vergangenheit schon gehabt und welche könnten sie künftig haben? Außerdem will ich mir anschauen, wie man falsche Videos mit brisanten Inhalten an ihrer Verbreitung hindern kann.

Welche Fragen habt ihr zu dem Thema? Schreibt mir eine E-Mail an teresa.wolny@krautreporter.de


An dieser Stelle ein großes Danke an die KR-Mitglieder Stefan und Alex für ihre Mails und Hinweise

Redaktion: Philipp Daum; Schlussredaktion: Vera Fröhlich; Bildredaktion: Martin Gommel.

Prompt headline