Das ganze Gespräch: Deep Fakes verändern unsere Welt

Shownotes

Das ganze Gespräch: Deep Fakes verändern unsere Welt

Zu Gast: Martin Förtsch

Beschreibung:

Was wäre, wenn das, was wir sehen und hören, nicht echt ist? Was wäre, wenn Stimmen, Gesichter und ganze Persönlichkeiten digital nachgebildet werden könnten, so täuschend echt, dass wir es nicht mehr unterscheiden können? Diese Fragen sind nicht länger reine Science-Fiction. Es sind Deep Fakes.

Egal, ob du ein Technik-Enthusiast, ein Neuling in der Welt der Technologie oder einfach neugierig auf die Zukunft und Innovationen bist, diese Folge bietet dir spannende Informationen und Einblicke in die Welt von überMORGEN.

Links:

https://innovation-hacking.com/

Unsere Podcast-Nachbarn CasaCasi:

https://www.casacasi.de

Feedback und Kontakt:

Wir freuen uns über dein Feedback! Schreibe uns einfach eine E-Mail an podcast@inside.digital oder folge uns auf Instagram unter @inside_digital. Wenn du Fragen oder Ideen für zukünftige Episoden hast, lass es uns wissen.

Wenn dir die Folge gefallen hat, abonniere unseren Podcast und hinterlasse uns eine Bewertung. Deine Unterstützung hilft uns, den Podcast zu verbessern und mehr Inhalte zu produzieren. Freu dich auf morgen!

Disclaimer:

Die in dieser Episode geäußerten Meinungen sind die der Hosts und Gäste und spiegeln nicht unbedingt die Meinungen von inside digital wider.

Produktion:

Mit freundlicher Unterstützung von TON.EINS.

https://toneins.de

Transkript anzeigen

00:00:00: Übermorgen.

00:00:02: Dein Podcast von "Inside Digital".

00:00:06: Was wäre, wenn das, was wir sehen und hören, nicht echt ist?

00:00:16: Was wäre, wenn Stimmen, Gesichter und ganze Persönlichkeiten

00:00:20: digital nachgebildet werden könnten?

00:00:23: So träuschend echt, dass wir es nicht mehr unterscheiden können.

00:00:28: Das ist nicht der relevante, denn je.

00:00:30: Denn heute geht es um ein Thema, bei dem die Grenzen zwischen Realität

00:00:34: und Fiktion immer weiter verschwimmen. Diebfakes.

00:00:37: Hallo zu unserer Spezialfolge am Samstag, das ganze Gespräch.

00:00:41: Wie weit reicht die Macht der KI wirklich?

00:00:44: Und welche Verantwortung tragen wir im Umgang mit ihr?

00:00:47: Das kann uns Martin Furch beantworten.

00:00:50: Martin ist IT-Berater bei TNG Technology Consulting. Hallo Martin.

00:00:54: Hallo Johanna.

00:00:57: Hallo, ich bin der Herr von der KI.

00:00:59: Ich bin der Herr von der KI.

00:01:02: Ich bin der Herr von der KI.

00:01:05: Ich habe eine neue Konferenz mit dem Internet.

00:01:08: Du bist auf internationalen Konferenzen unterwegs.

00:01:12: Du drehst über künstliche Intelligenz, das Internet der Dinge.

00:01:16: Und über Diebfakes.

00:01:18: Heute gibt es in dieser Welt Einblicke.

00:01:22: Kannst du dich noch daran erinnern, wann du das erste Mal

00:01:26: über die kommunöse Reddit-Thread geöffnet wurde,

00:01:29: wo eine Person namens Diebfaker die ersten Videos veröffentlicht hat,

00:01:33: wo Diebfakes vorkamen?

00:01:36: Was hast du gedacht, dass du das gesehen hast?

00:01:39: Ja, verrückt.

00:01:42: Absolut verrückt.

00:01:45: Und natürlich auch buff gewesen, was da möglich ist.

00:01:48: Man muss dazu sagen, die Videos, die zuerst veröffentlicht wurden,

00:01:53: haben wir versucht, die Lieblings-Schauspielerinnen,

00:01:56: die ihr da so hatte, in ein anderes Genre zu verfrachten,

00:02:00: wo sie eigentlich nicht hingehören.

00:02:03: Du hast es sehr konservativ ausgedrückt.

00:02:06: So habe ich das ausgesagt.

00:02:09: Die nächste Frage ist ganz interessant.

00:02:12: Wie bist du darauf gekommen, zu sagen,

00:02:15: mit genau dieser Technologie möchte ich mich beschäftigen?

00:02:20: Ich habe mich in den letzten Videos genauer angeschaut.

00:02:23: Wir wollten dann einfach verstehen, wie funktioniert das überhaupt.

00:02:27: Irgendwann wurde die Software DeepfaceLab bei GitHub hochgeladen.

00:02:31: Sie war dann frei verfügbar.

00:02:34: Wir haben in unserem sogenannten Innovation Hacking Team,

00:02:38: bei uns in der Consulting Firma TNG,

00:02:41: überlegt, ja, Moment mal, könnten wir das eventuell echt zeitfähig machen?

00:02:46: Ja, ich nenne es jetzt mal ein Post-Processing-Prozess.

00:02:49: Das heißt, du brauchtest erstmal ein Video,

00:02:53: ein Originalvideo, und dann brauchtest du ein Video,

00:02:57: praktisch von einer Person bestenfalls,

00:03:00: mit guten Aufnahmen von dem Gesicht, mit verschiedenen Mimiken,

00:03:04: damit man ein neuronales Netz trainieren konnte, also eine KI trainieren konnte.

00:03:08: Und damit das dann nachträglich, nachdem das alles trainiert wurde,

00:03:12: konnte man dieses gefälschte Video erzeugen.

00:03:15: Und wir haben uns die Frage gestellt, ja, Moment,

00:03:17: können wir das Ganze in echt Zeit machen?

00:03:20: Ohne, dass zum Beispiel jetzt, wenn du von der Kamera stehst,

00:03:24: extra das neuronale Netz auf dein Gesicht in irgendeiner Weise vorbereitet wäre.

00:03:29: Und das war praktisch so ein bisschen unser Forschungsdrang an der Stelle.

00:03:33: Wir wollten einfach wissen, geht das?

00:03:37: Das hat tatsächlich auch zu Diskussionen bei uns geführt,

00:03:42: dass wir uns absolut darüber im Klaren waren,

00:03:44: dass das jetzt kein Thema ist, was man einfach leichtfertig bearbeitet.

00:03:49: Und wir haben dann halt beschlossen, nach einer längeren Diskussion,

00:03:53: wenn wir da was machen.

00:03:55: Und vielleicht wird etwas herausfinden,

00:03:58: dass wir das dann auf jeden Fall auch veröffentlichen müssen.

00:04:01: Also, dass wir die Ergebnisse veröffentlichen in Form von Achtung.

00:04:05: Das geht, wir haben ein Beweis, damit wir auch die Menschen aufklären können.

00:04:10: Und das Grund ist, wir halten es da wie Karl Bergström,

00:04:13: Professor Karl Bergström von der University of Washington,

00:04:16: der damals gesagt, wenn der Technologie, wie diese herauskommt,

00:04:19: dann ist halt die gefährlichste Zeitspanne,

00:04:23: die, wenn die Technologie draußen ist, aber die Öffentlichkeit

00:04:27: nicht weiß, dass sie existiert, weil dann kann sie am effektivsten benutzt werden.

00:04:32: Das heißt, das haben wir intern diskutiert, haben uns darauf geeinigt,

00:04:36: dass wir das dann machen würden und so ist es dann auch geschehen.

00:04:39: Jetzt hast du ja schon so gut angeteasert, ob ihr das geschafft habt

00:04:42: oder nicht in eurer Initiative Innovation Hacking.

00:04:45: Kannst du es kurz beantworten, bevor ich die nächste Frage stelle?

00:04:48: Wir haben es tatsächlich geschafft.

00:04:50: Wir haben im Jahr 2018 damit begonnen, den gesamten Quellcode

00:04:54: von DeepFaceLab zu analysieren, zu verstehen, was da passiert ist.

00:04:58: Was teilweise sehr schwierig, der Code war teilweise sehr schwer verständlich

00:05:02: und haben uns dann da reingefuchst bei einem Firmen Retreat.

00:05:07: Wir haben dann ein Hotelzimmer und haben dann wirklich die Köpfe

00:05:10: zusammengesteckt und haben dann im Jahr 2019,

00:05:16: wenn ich mich richtig erinnere, dann die ersten Pressemeldungen

00:05:20: sind dann tatsächlich gekommen, wo dann praktisch gesagt wurde, ja, es geht.

00:05:24: Genau, dir zeigt das ja auch.

00:05:26: Ihr habt ja auch einen eigenen YouTube-Kanal, wo man das auch anschauen kann.

00:05:29: Eure Arbeit ist das, was du gerade so beschrieben hast.

00:05:32: Ist das so die Idee eurer Initiative von Innovation Hacking

00:05:36: oder geht es auch nicht nur um die Technik,

00:05:39: sondern auch um diese Diskussion, was machen wir damit

00:05:41: und welche Verantwortung haben wir vielleicht auch damit?

00:05:43: Ja, also das Innovation Hacking hat sich bei uns gegründet

00:05:47: aus einem dummen Zufall.

00:05:48: Es war im Jahr 2012.

00:05:50: Ich habe eine Hardware von einem Start-up-Unternehmen zugeschickt bekommen,

00:05:53: eine 3D-Kamera.

00:05:55: Und die meisten Leute haben dann immer so Minority-Report,

00:05:59: das Software geschrieben.

00:06:01: Das heißt, mit der 3D-Kamera irgendwelche Windows-Fenster verschieben

00:06:05: und mein Kollege Thomas Endres, der ja auch jetzt aktuell Geschäftsführer

00:06:09: in der Firma ist, der war damit dabei und hat das Gerät gesehen

00:06:12: und hat gefragt, Martin, was ist denn das?

00:06:14: Ich sage eine 3D-Kamera.

00:06:16: Und ja, was willst du damit machen?

00:06:18: Hab ich gemeint, ja, ich will ein Synthesizer damit fernsteuern.

00:06:20: Dann habe ich im Prinzip einen Theramine auf Basis einer 3D-Kamera.

00:06:23: Ganz toll.

00:06:25: Und er hatte zu dem Zeitpunkt ein Quattro-Copter dabei.

00:06:28: Also was haben wir gemacht?

00:06:30: Wir haben in vier Stunden eines Software geschrieben,

00:06:33: wir haben dann berührungslos einen Quattro-Copter,

00:06:35: also ein echt, ein real-world-Object sozusagen, fernsteuern,

00:06:40: berührungslos ohne Fernbedienung.

00:06:42: Und daraus ist das entstanden, weil auf einmal kam die Nachfrage nach,

00:06:46: ey, kannst du mal einen Vortrag darüber halten, wie ihr das gemacht habt?

00:06:48: Und dann kamen noch mehr 3D-Kameras hinzu und dies und das.

00:06:51: Und dann war es ein Selbstläufer.

00:06:53: Das Innovation Hacking.

00:06:55: Wir haben typischerweise 10% unserer Arbeitszeit frei zur Verfügung,

00:06:58: wo wir an solchen Themen arbeiten können.

00:07:01: Und das hat sich zugegeben bei Thomas und mir ist es vielleicht ein bisschen

00:07:03: mehr geworden in der Zeit.

00:07:05: Und seit 2017 sind wir ganz stark im Bereich der KI dann tätig.

00:07:09: Du hast gerade gesagt, vier Stunden.

00:07:11: Und eben hast du erzählt, ihr habt für die Echtzeit Deepfacts

00:07:14: euch mal eingeschlossen für ein Retreat.

00:07:16: Das klingt alles so nach, das ging ziemlich schnell.

00:07:19: Also hat euch irgendwie euer eigener Fortschritt bei Innovation Hacking

00:07:22: auch irgendwie ein bisschen überrascht.

00:07:24: Also von ein paar Jahren waren Deepfacts recht einfach zu erkennen.

00:07:26: Und mittlerweile hat sich die Technologie ja so schnell entwickelt,

00:07:30: dass es sich schneller als erwartet, auch bei euch.

00:07:31: Ja, wenn wir den ersten Prototypen gebaut haben,

00:07:35: da ist richtig Zeit reingeflossen.

00:07:37: Da waren wirklich viele Kollegen und Kolleginnen involviert,

00:07:41: um erst mal zu verstehen, wie funktionieren diese Deepfacts

00:07:45: mit dem alten Deepfacelab-Ansatz.

00:07:49: Wir haben da doch sehr, sehr viel Zeit reingesteckt.

00:07:52: Also ich kann jetzt nicht sagen,

00:07:54: wie viele Personen Jahre es am Ende sind.

00:07:56: Aber das ist schon ordentlich gewesen.

00:07:59: Was überraschend war, war den Qualitätssprung,

00:08:02: den wir ja bei TNG erarbeitet haben im Innovation Hacking Team.

00:08:07: Wir hatten 2019 den Prototypen öffentlich vorgestellt.

00:08:12: Und da hat man noch sehr, sehr gut gesehen, dass das Deepfacts sind,

00:08:17: die zwar in Echtzeit sind, aber das hat man sofort gesehen,

00:08:20: dass da viele Sachen nicht gestimmt haben.

00:08:23: Die Details in der Haut, die waren faktisch gar nicht richtig vorhanden.

00:08:28: Wenn man mal gelächelt hat oder mal so ein bisschen stärker das Gesicht

00:08:32: verzogen hat, da gab es dann komische Verzerrungen.

00:08:35: Oder auch wie zum Beispiel die Haare.

00:08:38: Stellt euch mal vor, ich habe jetzt also eine Klatze.

00:08:41: Und jetzt stellt man sich vor, man hätte den Donald Trump

00:08:44: als Deepfake in Echtzeit, dann würden dem seine Haare

00:08:48: auf meine Klatze projiziert werden.

00:08:50: Das sah so unecht aus, das war unfassbar.

00:08:53: Und dann haben wir natürlich, ich habe ja schon gesagt,

00:08:57: darauf hinzuweisen, was jetzt auf uns zukommt.

00:09:00: Weil das war ja klar, das ist ja nur ein aktueller Snapshot.

00:09:04: Das ist ein Schnapschuss vom aktuellen.

00:09:07: Und zwar völlig klar, dass es weitergehen wird.

00:09:10: Aber wo wir richtig daneben lagen war bei der Einschätzung der Geschwindigkeit.

00:09:14: Wir haben also einen Vortrag gehalten auf so einer sogenannten

00:09:17: Nerd-Night oder so einem Science-Lam.

00:09:20: Das sind wir auch gerne mal unterwegs, weil da erreicht man auch mal Leute,

00:09:23: die vielleicht nicht nur IT-spezifisch unterwegs sind,

00:09:26: sondern auch naturwissenschaftlich interessiert

00:09:28: oder sozialpädagogisch interessiert.

00:09:31: Oder einfach die so ein bisschen weltoffen sind.

00:09:34: Und da waren Redakteure vom ZDF von Lesch's Kosmos dabei.

00:09:37: Und die haben gefragt, wow, das ist ja der Hammer,

00:09:40: was ihr da gemacht habt.

00:09:42: Da könnten wir doch mal eine Folge mit dem Professor Dr. Harald Lesch machen.

00:09:46: Und wie natürlich, ja klasse, das ist ja cool.

00:09:49: Jetzt kommen wir endlich ins Fernsehen.

00:09:51: Und dann kam Corona.

00:09:54: Es gab dann erstmal andere Folgen, die wichtiger waren,

00:09:56: wie zum Beispiel über den Coronavirus.

00:09:58: Und dann wurde ungefähr ein Jahr lang nicht mehr viel gemacht,

00:10:02: sag ich jetzt mal.

00:10:04: Also da gab es halt jetzt keine größeren, also Sachen,

00:10:07: die wir, es gab zwei andere Sender, RTL aktuell kam mal vorbei,

00:10:10: NTV kam mal vorbei, für ihre Nachrichtensendungen und so weiter.

00:10:14: Aber die Lesch's Kosmos Sendung wurde erstmal hinten angestellt.

00:10:18: Und jetzt kommt der Knaller.

00:10:20: Das heißt, wir haben jetzt auf einmal ungefähr einen Jahr lang

00:10:23: mehr Zeit gehabt, uns das Thema anzugucken.

00:10:25: Und in der Zeit sind auf einmal neue, ja ich nenn's jetzt mal

00:10:30: neuronale Netze rausgekommen, zum Beispiel von Google gab's dann

00:10:34: dieses Media Pipe, das ist eine Software, die sehr, sehr gut zum

00:10:40: Beispiel in der Gesichtserkennung ist.

00:10:42: Und dann haben wir also diesen Ansatz der Erstellung von

00:10:48: Echtzeit Deepfakes, also die Architektur dahinter komplett

00:10:52: aufengeworfen und neu gemacht, die dann rechtzeitig dann zu der

00:10:58: Lesch's Kosmos Folge dann führen sollte.

00:11:01: Und das war dann, glaube ich, im Jahr 2021, wenn ich mich richtig

00:11:05: erinnere.

00:11:06: Und da haben wir ein Qualitätsvorsprung erreicht, den hatten

00:11:10: wir eigentlich gesehen in einem Zeitraum von fünf bis zehn

00:11:15: Jahren später.

00:11:17: Das heißt, wir haben jetzt in zwei, drei Jahren einen

00:11:21: Vorsprung gehabt, den wir eigentlich in zehn Jahren gesehen

00:11:24: haben.

00:11:25: Das heißt, so sind wir auch nicht mehr so viel weiter von

00:11:28: Echtzeit Deepfakes mit futurrealistischen Ergebnissen.

00:11:32: Vermutlich.

00:11:34: Es bleibt abzuwarten, wie sich's weiterentwickelt.

00:11:36: Ich möchte hinzufügen, dass wir die Software nicht veröffentlicht

00:11:39: haben.

00:11:40: Das war auch die Entscheidung, wir wollen das auf gar keinen

00:11:43: Fall öffentlich zur Verfügung stellen.

00:11:46: Wir wollten unsere Erkenntnisse teilen, damit wir auch einfach

00:11:49: unseren Anteil leisten können, in der Bevölkerung davor

00:11:53: vorzubereiten, was da kommen könnte.

00:11:56: Darum soll's jetzt nämlich auch gehen, weil sowohl bei Deepfakes

00:12:00: das erste, woran man denkt, sind irgendwie genau die

00:12:03: Nachrichten, was geht alles, wo kann man manipulieren, wo gibt's

00:12:06: vielleicht auch Gefahren.

00:12:07: Was braucht man für Deepfakes Martin?

00:12:10: Hast du mal so ein Rezept?

00:12:12: Ja, was braucht man für Deepfakes?

00:12:15: Wenn ich jetzt einfach mal unseren Ansatz sozusagen

00:12:18: anschaue, wir brauchen im Prinzip Videomaterial von den

00:12:23: Personen, die wir gerne faken möchten.

00:12:27: Und das sollten dann idealerweise Aufnahmen sein, die

00:12:31: qualitativ sehr hochwertig sind, die am besten auch

00:12:35: unter verschiedenen Beleuchtungsszenarien aufgenommen

00:12:39: werden.

00:12:40: Und was auch sehr, sehr wichtig ist, die Gästigen, die

00:12:44: die Mimiken, die man machen kann.

00:12:46: Man sollte da wirklich alles durchspielen, von Weinen

00:12:50: bis Traurigsein bis Zorniggucken und so weiter und so fort,

00:12:53: weil je mehr verschiedene Mimiken wir von der Person, die

00:12:57: wir faken möchten, haben, desto realistischer können

00:13:01: die Fakes auch werden.

00:13:03: Damals bei Lesch's Cosmos hatten wir die Aufgabe, dass wir

00:13:07: Harald Lesch mit dem Gesicht, also auf das Gesicht von

00:13:12: Dirk Steffens legen.

00:13:13: Dirk Steffens von Terra X.

00:13:15: Und das heißt, wir brauchen jetzt von beiden qualitativ

00:13:18: hochwertige Aufnahmen.

00:13:20: Das ist natürlich für ein Studio wie ZDF überhaupt kein Problem.

00:13:23: Das konnten die uns problemlos in einer absoluten Topqualität

00:13:27: liefern.

00:13:28: Und wir haben natürlich auch andere Leute trainiert sozusagen,

00:13:32: also andere neuronale Netze mit bestimmten Personen.

00:13:35: Und was halt aufgefallen ist, wenn man die Leute fragt, ja,

00:13:40: komm, stelle dich mal vor die Kamera und schau mal, seh mal aus wie

00:13:43: Harald Lesch.

00:13:45: Das erste, was Leute aus Reflex ganz oft machen, ist die Zunge

00:13:49: rausstecken.

00:13:51: Und das neuronale Netz weiß natürlich an der Stelle nicht,

00:13:55: was es jetzt machen soll.

00:13:57: Ich sage es mal in Anführungsstrichen, nur statistisch raten.

00:14:01: Was es machen soll, ist, wenn man dann die Leute aus dem

00:14:06: Internet aufnehmen kann, ich sage es mal in Anführungsstrichen,

00:14:10: nur statistisch raten.

00:14:12: Was es machen soll, und das sieht dann meistens halt total

00:14:15: unecht aus.

00:14:17: Aber ja, okay, wir haben die Aufnahmen oder bezüglich der

00:14:21: Bilder mittlerweile.

00:14:23: Und dann wird ja eigentlich nur noch die Software.

00:14:26: Und mittlerweile ist es ja auch so, dass es im Internet dafür ja

00:14:30: auch schon kostenfreie Software gibt.

00:14:34: Und dann wird es ja auch schon ein normales Laptop.

00:14:36: Damit kann ich auch schon jetzt mittlerweile ganz gute Deepfakes

00:14:39: erstellen, oder?

00:14:41: Ja, genau, richtig.

00:14:43: Die meisten Deepfakes, die man so kennt, die mit, also Deepface

00:14:47: Lab, ja, das sagt man ja, dass ungefähr 95 Prozent weltweit der

00:14:51: erzeugten Deepfakes wird mit Deepface Lab gemacht, weil die

00:14:54: Qualität, die ist unbeschreiblich gut.

00:14:57: Aber das ist halt dieser Post Processing Ansatz.

00:15:00: Also das ist das, was man danach macht.

00:15:03: Und dann kannst du erst das finale Video erzeugen.

00:15:05: Und das je länger man das trainieren lässt, desto besser ist die

00:15:09: Ausgabe, das Ergebnis.

00:15:11: Bei Deepfakes muss man immer ein bisschen aufpassen.

00:15:14: Nicht alles, wo ich einen fremden Kopf draufsetze, das ist

00:15:17: nicht gleich ein Deepfake.

00:15:19: Das Deepfake, der Begriff, rührt daher, dass es von einem

00:15:22: sogenannten Deep Neural Network erzeugt wird.

00:15:26: Deep Learning ist praktisch das, was zu einer Explosion

00:15:32: von der künstlichen Intelligenz seit den späten 2000,

00:15:35: 2010er Jahren oder, nee, früher 2010er Jahre im Prinzip

00:15:39: geführt hat.

00:15:41: Da gab es ja das Paper von der University of Toronto über

00:15:44: Deep Learning im Jahr 2006.

00:15:46: Und danach ging es ja dann los, die Grafikkarten wurden immer

00:15:49: besser.

00:15:51: Wir hatten die Möglichkeit, dann sogenannte Tensoren zu benutzen

00:15:54: für die KI, für die Infarenz.

00:15:57: Jetzt benutze ich schon wieder zu viele Betriffligkeiten.

00:16:01: Aber da hat sich einfach unglaublich viel getan.

00:16:03: Und jetzt haben wir ja gesagt, das Rezept, also einerseits

00:16:06: brauchen wir Videomaterial von den Leuten, die befaken wollen,

00:16:09: aber der einfache Ansatz, wie er bei uns geschieht, ist folgendes.

00:16:12: Wir nehmen ein Videoframe her aus dem Echtzeit-Video Stream.

00:16:16: Darauf machen wir eine Gesichtserkennung mit diesen

00:16:19: sogenannten Media Pipe, das habe ich ja schon vorhin kurz erwähnt.

00:16:22: Und damit kann man, ich möchte mich gerade nicht festlegen,

00:16:25: ich glaube, es waren 468 Bildpunkte im Gesicht, kann man

00:16:28: feststellen.

00:16:30: Und auch, wo der Mund ist, wo die Augen, die Augenlieder und so weiter.

00:16:33: Und dann machen wir eine sogenannte Face Segmentation.

00:16:36: Das bedeutet, wir versuchen jetzt jeden Pixel herauszufinden,

00:16:39: der zum Kopf gehört.

00:16:41: Also, das, was gehört alles zum Kopf?

00:16:44: Die Haare, wenn man welche hat, nicht so wie ich.

00:16:47: Der Bart vielleicht noch, ja.

00:16:49: Und alles, was halt dazu gehört, vielleicht noch so hier bis zum

00:16:52: Halsansatz.

00:16:54: Und wenn wir das dann haben, dann können wir das Original,

00:16:58: den Original Kopf auslöschen.

00:17:00: Aus dem Live-Video Stream.

00:17:03: Ja, und dann nimmt man unser vortrainiertes Neuronales Netz her.

00:17:07: Und das macht dann Bob einfach in Harald Lesch drauf,

00:17:09: in Dirk Steffens oder was immer man auch haben möchte.

00:17:12: Und tatsächlich...

00:17:14: Und das alles im Live-Video, ganz genau.

00:17:17: Und das jeweilige Gesicht des Nutzers, des Nutzenden,

00:17:20: der gerade davor steht, der muss, das Neuronale Netz

00:17:24: muss nicht darauf vorbereitet sein, dass zum Beispiel

00:17:27: du, Johanna davor stehst oder ein X-Beliebiger.

00:17:30: Andere Besuchende eines zum Beispiel Museums,

00:17:33: weil wir haben tatsächlich im Deutschen Museum Bonn

00:17:36: das Ganze als, wie sagt man,

00:17:39: Exponat dort stehen zum Ausprobieren.

00:17:42: Ich bin ganz ehrlich, ich finde, das klingt ein bisschen gruselig.

00:17:45: Ja, natürlich.

00:17:47: Natürlich.

00:17:49: Das ist auch das, worüber wir natürlich groß jetzt mal sprechen wollen.

00:17:52: Das große Stichwort Gefahren Manipulation, das liegt ja auf der Hand.

00:17:56: Wie groß ist denn die Gefahr wirklich?

00:17:58: Ich persönlich halte die Gefahr insbesondere für Menschen,

00:18:02: die vielleicht nicht an der sogenannten Bleeding Edge of Technology sind,

00:18:07: die wirklich regelmäßig Podcasts hören, wie zum Beispiel Euren

00:18:11: oder die typischen IT-Newsseiten verfolgen.

00:18:14: Für die halte ich es besonders gefährlich.

00:18:17: Und ich möchte da gerne ein Beispiel bringen.

00:18:20: Es war im Februar 2024, da wurde jemand,

00:18:25: in einem Zoom-Meeting von zwölf Echtzeit Deepfakes begrüßt.

00:18:30: Und das führte zu einer Banküberweisung in Höhe von,

00:18:34: wenn ich mich recht erinnere, 25 Millionen US-Dollar.

00:18:38: Wow.

00:18:40: Ja.

00:18:42: Und ein ganz aktueller Fall war der CEO von Ferrari.

00:18:45: Auch hier ging es wieder natürlich um irgendwelche Geldtransfers.

00:18:49: Auch dort wurde wieder ein Deepfake benutzt.

00:18:53: Und der CEO war geistesgegenwärtig und hatte den Manager,

00:18:57: der das praktisch angefragt hatte, also diesen gefakten Manager gefragt.

00:19:02: Welches Buch hast du mir letztens noch mal empfohlen?

00:19:05: Da haben wir doch darüber geredet.

00:19:07: Und damit ist dann der Schwindel sozusagen aufgeflogen.

00:19:11: Könnte man als eine schwache Form der zwei Faktor-Authentifizierung sehen,

00:19:16: die praktisch ungeplant war.

00:19:18: Aber diese Angriffe gibt es,

00:19:22: die gab es und die wird es weiterhin geben.

00:19:24: Und sie werden immer, immer schwieriger erkennbar.

00:19:28: Zum Vergleich, wir können ja nicht nur Köpfe fälschen,

00:19:31: wir können mittlerweile aus sehr, sehr wenig Sprachmaterial

00:19:34: auch stimmen, Natur, Getreu, Faken.

00:19:38: Ich möchte da gerne eine kleine Anekdote erzählen,

00:19:41: also wenn es erlaubt ist über Audio Deepfakes.

00:19:43: Meine Kollegen haben ein Sprachsample genommen von mir,

00:19:48: um ungefähr 20, 30 Sekunden,

00:19:50: und haben eine KI-generierte Präsentation erzeugen lassen,

00:19:54: wo ich allerlei Schmahnen erzähle.

00:19:57: Ja, das war ein bisschen witzig, diese KI-generierte Präsentation.

00:20:00: Aber sie hatte halt meine Stimme.

00:20:02: Und das Witzige war,

00:20:04: dass man meinen kleinen dialektischen Einschlag, den ich habe,

00:20:06: den konnte man sehr gut raushören.

00:20:08: Dieser künstlich generierte Vortrag war ein deutscher Sprache.

00:20:12: Und auf die Frage, womit habt ihr das trainiert,

00:20:14: haben sie mir erzählt, ja,

00:20:17: das Sprachsample, das haben wir aus einem Vortrag,

00:20:19: den hast du auf der Deafox UK in London gehalten.

00:20:22: Da habe ich gemeint, ja, moment mal,

00:20:24: aber der war doch ein englischer Sprache.

00:20:26: Ja, und?

00:20:28: Ja, und dann habe ich halt, also da war ich ja völlig perplex.

00:20:30: Ja, habe ich dann natürlich noch meine Eltern mal gleich erzählt,

00:20:32: dass wenn irgendjemand hektisch anruft und behauptet,

00:20:35: mir ging es nicht gut oder sonst irgendwas.

00:20:37: Ja, das sind nämlich die nächsten Beispiele, die mir kamen,

00:20:40: weil deine waren natürlich sehr groß,

00:20:42: dort, wo dann Millionenbeträge zu holen sind.

00:20:44: Richtig, richtig, ja.

00:20:46: Und dann kommt das kleine Rundherr zum Beispiel,

00:20:48: ich denke so an die Ausweiseidee oder auch an Enkeltrickbetrüger,

00:20:50: die anrufen.

00:20:52: Ja, absolut.

00:20:54: Das geht ja in jede Richtung, also du hast eben schon gesagt,

00:20:56: so eine Art Codewort.

00:20:58: Ich finde, im ersten Augenblick schmunzelig da ein bisschen,

00:21:00: muss man so ein bisschen drüber lachen,

00:21:02: wenn man jemand anruft und sagt, okay, nenn mir das Codewort.

00:21:04: Ja, das ist wirklich das letzte Buch, das ich gelesen habe,

00:21:06: aber der Hintergrund ist ja schon ernst.

00:21:08: Also, kann man vor sowas sicher sein,

00:21:10: oder was sind deine Tipps, wie man sich vor sowas schützen kann?

00:21:14: Ja, also, wenn sich etwas falsch anfühlt oder komisch anfühlt,

00:21:16: merkwürdig anfühlt, dann ist es das wahrscheinlich auch.

00:21:19: Und dann ist es natürlich legitim,

00:21:22: einfach nochmal sich rück zu versichern,

00:21:24: dass vielleicht man nochmal eine Frage stellt,

00:21:27: die typische Weise nur die eine Person kann.

00:21:29: Man muss ja nicht damit beginnen,

00:21:31: nennen wir das Codewort oder so,

00:21:33: aber wenn sich was Fischi anfühlt, merkwürdig anfühlt,

00:21:38: dann ist da vielleicht auch ganz gut,

00:21:40: wenn man mal so eine Frage stellen kann,

00:21:43: wo die Antwort halt nicht typische Weise jeder weiß.

00:21:46: Bei Deepfakes ist es aktuell so,

00:21:48: also die jetzt im Video Stream live funktionieren,

00:21:52: da gibt es jetzt aktuell noch die Möglichkeit,

00:21:55: das gegenüber zu fragen, ja, nimm doch mal deine Hand

00:21:59: und halte die jetzt und streich mal mit der Hand,

00:22:02: wisch mal mit der Hand von unten nach oben über das Gesicht,

00:22:06: so dass die Hand kurzzeitig mal zwischen Kamera und Gesicht ist.

00:22:11: Weil dann würde diese Gesichtserkennung und alles brechen

00:22:13: und dann würde man ganz komische Verzerrungen sehen

00:22:16: und dann könnte man halt relativ schnell und sicher feststellen,

00:22:20: okay, das scheint ein Deepfake zu sein im Video Stream,

00:22:24: aber auch hier die Warnung, das ist eine aktuelle Limitierung.

00:22:28: Das kann in fünf Jahren hinfällig sein, diese Limitierung

00:22:32: oder vielleicht sogar auch früher, das wissen wir nicht.

00:22:35: Das heißt, wir müssen eigentlich mit der Technik mitgehen

00:22:37: und unsere Schutzmechanismen auch weiterentwickeln.

00:22:40: Richtig.

00:22:41: Ich war gerade ein bisschen vor, dass du, als du das gemacht hast,

00:22:44: du hast es eben gemacht, wir sehen uns ja auch,

00:22:46: ist das da alles gut gegangen, ist die Verpusser eigentlich?

00:22:48: Ja, genau.

00:22:50: Und bei, was haben wir jetzt noch mal, Audio Deepfakes war ja auch noch

00:22:53: das Thema gewesen, ja, gut, da kann man natürlich dann entsprechend

00:22:56: spezielle Fragen stellen, was hat man jetzt noch gehabt?

00:22:59: Die Ausweis-ID zum Beispiel, genau, das wäre aber so ein Fall,

00:23:02: wo es dann eben, wo nachgerüstet werden muss.

00:23:05: Also ich meine, die Person am anderen Ende, die dich begutachtet,

00:23:09: Ja, tatsächlich hab ich ein Video-Identverfahren gemacht vor ein paar Jahren.

00:23:13: Und ich meine, das war gewesen, noch bevor wir unseren ersten Echtzeit-Deepfake gezeigt haben,

00:23:20: also entwickelt haben, wo er fertig war, als Prototyp.

00:23:23: Und ich meine, da wurde ich schon beim Video-Identverfahren gefragt,

00:23:28: mal zur Seite zu schauen oder mal mit der Hand übers Gesicht zu wischen.

00:23:31: Das fand ich sehr spannend, dass die da auch schon so weit waren.

00:23:35: Aber es bleibt abzuwarten, wie es sich weiterentwickelt.

00:23:38: In diesem Jahr hat ja auch noch ein anderes Thema besondere Relevanz,

00:23:42: und zwar die Wahlen in den USA.

00:23:44: Wie schätzt du da die Rolle von Deepfakes ein?

00:23:46: Ja gut, also inwieweit die Deepfakes in den USA eine Rolle spielen,

00:23:52: ist gar nicht so einfach zu beantworten.

00:23:54: Ich würde es generell nicht ausschließen, dass die eine oder andere Missinformation,

00:23:59: Fake-News generiert wird, um bestimmte, ich nenn's jetzt mal,

00:24:04: Informationsbubbles in die Irre zu führen,

00:24:06: ich versuch's mal neutral auszudrücken.

00:24:08: Aber zum Beispiel für den indischen Wahlkampf,

00:24:11: da gab's definitiv Leute, da wurden auch Zeitungsartikel veröffentlicht

00:24:14: in Online-Medien, wo Menschen interviewt wurden,

00:24:18: die tatsächlich kommerziell Deepfakes erzeugt haben

00:24:22: für den politischen Wahlkampf in Indien.

00:24:24: Also gerade auf TikTok zum Beispiel, Instagram, Facebook ja auch,

00:24:28: gibt's ja schon sehr, sehr viele Videos, die erkennt man schon,

00:24:32: aber es wird immer schwieriger und dann geht es ja nicht nur in diese Richtung,

00:24:36: in die Richtung Fälschung, sondern auch in die andere Richtung.

00:24:38: Also zum Beispiel in Deepfake als Ausrede zu nutzen,

00:24:40: wenn ein wahres Video dann als Fälschung bezeichnet wird.

00:24:43: Also wenn man das Ganze mal umdreht, haben wir ja auch ein Problem.

00:24:46: Genau, dieses Problem existiert leider in beiden Richtungen

00:24:51: und das würde mich jetzt tatsächlich schon auf das Thema bringen.

00:24:54: Ja, gibt es denn eine Software, die uns helfen könnte,

00:24:57: um die Deepfakes zu entdecken.

00:25:00: Und ja, im Jahr 2019/20, da waren wir noch der Auffassung,

00:25:05: dass das in der Theorie möglich sein könnte,

00:25:08: weil bestimmte Teile der Software, mit dem wir die Deepfakes erzeugen können,

00:25:15: da kommt eine spezielle Technik zum Einsatz,

00:25:18: der ein oder andere KI-Kennner beim Podcast,

00:25:21: dem sagt das vielleicht was, Generative Adversarial Networks,

00:25:25: heißt das Ganze.

00:25:27: Und das kann man sich vorstellen wie ein neuronales Netz,

00:25:30: ein Bestandteil eines Netzes,

00:25:32: welches als Diskriminator sozusagen fungiert.

00:25:36: Man gibt diesen neuronalen Netz sozusagen, echte Bilder und gefälschte Bilder.

00:25:40: Und der muss dann entscheiden, ist echt, ist gefälscht, ist echt, ist gefälscht.

00:25:44: Dadurch kann man nämlich das Training wesentlich effizienter gestalten.

00:25:47: Das geht dann einfach viel, auch generell viel, viel besser,

00:25:50: die Gesichter, die generiert werden sind,

00:25:53: die Köpfe werden wesentlich glaubwürdiger.

00:25:55: Und da hatten wir noch die Theorie, naja gut, diesen Garn nennt man das abgekürzt,

00:26:01: den könnte man ja eigentlich nehmen und dann einfach sagen, naja,

00:26:05: der könnte doch das jetzt identifizieren, was gefälscht ist und was nicht.

00:26:09: Aber das Problem ist, das funktioniert dann halt auch nur mehr oder weniger

00:26:13: auf unsere erzeugten Deepfakes.

00:26:15: Würde man das jetzt wieder auf ein Echtzeit-Deepfake anwenden,

00:26:19: der eben nicht auf Basis unserer neuronalen Netze basiert,

00:26:23: dann könnte die Sache schon wieder ganz anders aussehen.

00:26:25: Also was haben wir gemacht?

00:26:27: TNG steht ja auch für Testen nicht glauben,

00:26:30: in offizielle Abkürzung, kleiner Schatz am Rande.

00:26:33: Und wir haben dann einfach mal Software runtergeladen im Internet,

00:26:37: die von sich behauptet, sie könnte Deepfakes erkennen.

00:26:41: Und das funktioniert gar nicht mal so gut.

00:26:45: Also wir haben dann wirklich auch den Olaf Scholz Deepfakes

00:26:49: von "Political Incorrect" oder wie die heißen,

00:26:53: das Zentrum für politische Schönheit, schuldigung, genau.

00:26:56: Und die haben einen Olaf Scholz Deepfake generiert,

00:26:59: wahrscheinlich haben sie Deepface Lab benutzt,

00:27:01: wenn ich mir die Qualität anschaue,

00:27:03: haben aber auch die Stimme mitgefaked, also alles, das Komplettpaket.

00:27:08: Es sieht wirklich, wirklich gut gemacht aus.

00:27:11: Also haben wir das genommen

00:27:13: und haben das auch durch alle Softwareprodukte,

00:27:15: die wir finden konnten.

00:27:17: Das freie Produkte waren, Open Source Produkte,

00:27:20: wir haben alles durchgejagt.

00:27:22: Das Beste, was wir finden konnten, waren 62 Prozent,

00:27:26: wie sagt man's, das Bisches.

00:27:28: Also zu 62 Prozent, der sieht es verdächtig aus.

00:27:31: Und das war der höchste Ausschlag.

00:27:33: Und jetzt meine Frage in die Runde, also auch an die Podcast,

00:27:37: "Zuhörer und Zuhörerinnen".

00:27:39: Was bringt uns das, wenn wir eine Software haben,

00:27:42: die uns nie sicher sagen kann, ist es jetzt wirklich Fake oder eben nicht.

00:27:47: Das bringt uns eigentlich überhaupt nichts.

00:27:50: Weil irgendeine Seite kann dann immer noch sagen,

00:27:53: ja, das ist ja nur 62 Prozent verdächtig, also wo ist das Problem?

00:27:58: Selbst wenn die Software sagen würde, sieht zu 99 Prozent verdächtig aus.

00:28:03: Ja, was ist es, wenn es genau das nicht ist?

00:28:05: Dieses eine Video ist aber tatsächlich echt, ja, dieses eine Prozent.

00:28:10: Und dann haben wir diesen Ausschlag in beide Richtungen,

00:28:13: in die Fake News Richtung und in die andere Richtung.

00:28:17: Und das ist halt sehr, sehr problematisch.

00:28:19: Die nächste Frage liegt eigentlich auf der Hand.

00:28:21: Also wie erkennen ich denn dann Deepfakes, wenn schon Software nichts bringt?

00:28:26: Ja, ja. Also aktuell kann man Deepfakes unter anderem

00:28:30: mit diesem einen Trick erkennen, in Videokonferenzen,

00:28:33: wie ich sagte, die Hand einfach mal vor das Gesicht durchgleiten lassen

00:28:36: und gucken, ob da irgendwas bricht.

00:28:38: Das wäre eine Möglichkeit, die relativ schnell geht.

00:28:42: Ansonsten die Hautdetails gehen teilweise vor Lorn.

00:28:46: Es gibt Verzerrungen bei bestimmten Mimiken, ja.

00:28:50: Also man stellt sich vor, man hat Trainingsmaterial von einer Person,

00:28:53: die nicht so oft lacht, nehmen wir zum Beispiel Angela Merkel mal.

00:28:56: Da kann es schon schwierig, also da kann in Lächeln dazu führen,

00:28:59: dass das neuronale Netz Schwierigkeiten hat,

00:29:02: weil sie meistens gar nicht so viel lächelt.

00:29:04: Es gibt viel, viel mehr Daten, wenn sie halt so diesen typischen

00:29:08: neutralen bis crumpys, bis ihr draufhat, ja.

00:29:13: Mal so Salop formuliert.

00:29:15: Und die Zähne sind teilweise auch ein Problem.

00:29:18: Also weil der Mund beim Reden auf und zu geht,

00:29:21: da könnte man natürlich, wenn man eine forensische Analyse macht,

00:29:24: auch mal schauen, ändert sich vielleicht auch die Zahnstellung

00:29:27: zwischen den einzelnen offenen Mündern sozusagen.

00:29:32: Wäre auch eine Möglichkeit.

00:29:34: Die Augen teilweise, die haben nicht so dieses typisch menschliche,

00:29:39: die sehen manchmal so ein bisschen leer aus.

00:29:43: Also man sagt ja immer, die Augen sind die Spiegel der Seele des Menschen.

00:29:47: Und das kann auch ein Hinweis sein, wenn die irgendwie so komisch,

00:29:51: so glasig vielleicht auch ausschauen, je nachdem,

00:29:53: unter welchen Bedingungen das Trainingsmaterial erzeugt wurde

00:29:56: oder mit was es trainiert wurde, generell bei auffälligen Mimiken.

00:30:01: Also bei übertriebenen Mimiken.

00:30:04: Dass da auch irgendwelche komischen Verzerrungen auf einmal auftreten.

00:30:08: Auch im Randbereich des Kopfes ist es immer mal wieder gut hinzuschauen.

00:30:13: Weil wir haben ja, ich habe ja gesagt, bei uns wird ja der Original-Kopf weggelöscht.

00:30:17: Damit der nicht übersteht, falls ich mal ein Schmaler in den Kopf draufsetze.

00:30:22: Da kann es auch Artefakte am Rand des Kopfes geben.

00:30:25: Aber es gibt immer noch eine Sache, die man beachten muss.

00:30:28: Wenn ich mein Echtzeit-Deepfake habe und der geht durch das Netz,

00:30:33: durch die verschiedenen Komprimierungsverfahren in Video-Konferenzen,

00:30:38: da geht halt sehr viel Information verloren durch die Komprimierung.

00:30:42: Und das hilft natürlich qualitativ nicht so ganz, ganz tollen Echtzeit-Deepfakes.

00:30:48: Verhilft das dann eine gewisse Glaubwürdigkeit wieder zu gewinnen,

00:30:51: weil das sieht man auf der anderen Seite gar nicht so gut.

00:30:54: Ja, das stimmt. Das ist das nächste Ding.

00:30:57: Auf die Details achten ist eigentlich das einzige, was man für uns sozusagen kann,

00:31:01: für uns Normalverbraucherinnen und Verbraucher, die draufgucken.

00:31:05: Was hältst du denn von politischer Regulierung?

00:31:08: Was hältst du, glaubst du, dass das irgendwie sinnvoll wäre?

00:31:11: Also vielleicht Content zu markieren mit irgendwie unsichtbaren Metadaten.

00:31:15: Also bei realen Videos wäre es ja sinnvoll,

00:31:17: niemand würde ja sein Fake-Video automatisch mit unsichtbaren Metadaten kennzeichnen.

00:31:22: Aber zumindest, dass wir erkennen können, was echt ist, wäre das sinnvoll?

00:31:26: Also es hört sich erst mal sinnvoll an. Die Frage ist halt nur,

00:31:30: behebt es das Problem?

00:31:32: Also bei Lesh's Cosmos damals war ja auch die Idee,

00:31:35: vielleicht mit so einer Art Blockchain benutzen könnte,

00:31:38: um Videomaterial zu authentifizieren und so weiter und so fort,

00:31:42: mit diesen Metadaten, die unsichtbar sind.

00:31:45: Alles ist möglich.

00:31:47: Aber auf der anderen Seite muss man auch immer wieder sagen,

00:31:50: Leute, die betrügen wollen, die werden es weiterhin tun

00:31:54: und denen ist auch irgendeine Blockchain und irgendwelche unsichtbaren Metadaten

00:31:58: vermutlich egal und das macht es halt alles so schwierig.

00:32:02: Wie würdest du denn die Regierung beraten, wenn sie sich an dich wendet

00:32:05: und sagt, hey, hast du mal eine Hilfe, wie wir hier reagieren könnten?

00:32:09: Was wären deine Ideen?

00:32:11: Meine Ideen, also das ist wirklich sehr, sehr schwer zu sagen,

00:32:14: was da meine Ideen wären.

00:32:16: Also wenn jetzt so eine Anfrage käme, würde ich die erst mal einladen

00:32:19: und einfach mal zeigen, guckt mal an, so und so wird das gemacht.

00:32:22: Das ist die Qualität, die wir aktuell haben.

00:32:25: Man kann darüber fabulieren, extrapolieren,

00:32:28: was wird denn in den nächsten Jahren auf uns zukommen

00:32:31: und da haben wir schon die Befürchtung,

00:32:34: dass wir uns dem Foto-Realismus auf jeden Fall annähern werden

00:32:37: und dass vielleicht auch bestimmte Limitierungen nicht mehr funktionieren,

00:32:40: also mit dem, wenn wir der Hand übers Gesicht streifen und so weiter

00:32:44: und dass man dann einfach gemeinsam verschiedene Technologien auch mal erklärt,

00:32:48: was kann man mit was verhindern und so weiter

00:32:51: und was man sich dann voranürrt, so wie es in der Wissenschaft ja typisch ist

00:32:54: und dann diskutiert.

00:32:56: Also ich habe kein, wie sagt man, Rezept out of the box, wo ich sagen würde,

00:33:01: das löst alle unsere Probleme.

00:33:04: Dann hätten wir auch die krasseste Podcast-Folge, muss ich sagen.

00:33:07: Ja, wahrscheinlich, wahrscheinlich, genau, richtig, genau.

00:33:10: Also wir haben so viel jetzt gesprochen auch über Gefahren und so viel Negatives.

00:33:14: Die Technologie, du beschäftigst dich ja mit ihr, weil sie dir ja auch was Positives bringt.

00:33:18: Sie kann ja auch Gutes. Was kann die Technologie, denn Gutes?

00:33:22: Also das wird man natürlich auch oft gefragt.

00:33:24: Ja toll, jetzt habt ihr da an diesen Echtzeit-Deepfakes damals gearbeitet,

00:33:28: aber warum, ich meine gut, warum, das haben wir schon ein bisschen erklärt,

00:33:32: dass wir damit an die Öffentlichkeit gehen wollten,

00:33:34: weil ich sage es jetzt ganz ehrlich, als wir damals unsere Echtzeit-Deepfakes

00:33:38: gezeigt hatten, öffentlich vorgestellt hatten,

00:33:41: keine zwei, drei Wochen später hat ein Unternehmen aus Israel

00:33:47: auch Echtzeit-Deepfakes vorgestellt. Das war bald zwei, drei Wochen nach uns.

00:33:52: Ja gut, die haben es, glaube ich, dann sogar unter Open Source gestellt.

00:33:55: Ich weiß es nicht mehr genau. Was willst du machen?

00:33:57: Also irgendjemand hätte es eh gemacht. Aber was können wir jetzt damit machen?

00:34:02: Ich sehe hier ein ganz großes Potential in Hollywood.

00:34:05: Oh ja.

00:34:06: Bei der Filmproduktion sehe ich ein sehr, sehr großes Potential.

00:34:10: Machen wir uns nichts vor. Retro ist geil.

00:34:13: Und den einen oder anderen längst verstorbenen Schauspieler oder Schauspielerin

00:34:18: vielleicht auch mal wieder auf die Leinwand zu holen, ist eine tolle Sache.

00:34:21: Jetzt könnte man natürlich argumentieren, Moment, das geht doch heute schon.

00:34:24: Ja, aber es ist extrem teuer, weil wenn wir mit CGI arbeiten,

00:34:29: das ist ein Aufwand, den kann man sich nicht vorstellen,

00:34:32: mit was für Tricks und Technologien man da arbeiten muss.

00:34:36: Man braucht einen Schauspieler, der wird dann mit solchen CGI,

00:34:40: mit solchen Markern im Gesicht zugekleistert, der kriegt dann eine spezielle Kamera

00:34:45: auf sein Gesicht installiert und muss dann auch entsprechende Mimiken machen und so.

00:34:50: Daraus wird dann ein 3D-Modell generiert und dann muss über 3D-Software das Ganze nachträglich,

00:34:56: ja, am Rechner alles dann praktisch manuell manipuliert, verfeinert werden,

00:35:02: damit es gut aussieht.

00:35:03: Und das Schöne bei den Deepfakes ist,

00:35:05: dass ein ganz großer Teil dieser Aufwände einfach wegfällt.

00:35:10: Das heißt, wir verbrennen einfach nur noch sehr viel Energie,

00:35:13: um diese Netze zu trainieren.

00:35:15: Und man hat relativ schnell wirklich Ausgabequalität, die überzeugend ist,

00:35:23: die wirklich qualitativ überzeugend ist.

00:35:25: Und sie ist so überzeugend, dass Lukas Arztfilm einen bekannten YouTuber

00:35:31: tatsächlich auch eingestellt hat.

00:35:34: Der hatte vom Mandalorian Star Wars Mandalorian,

00:35:37: hatte der nämlich Deepfakes erzeugt, die Mindestens genauso gut,

00:35:43: wenn nicht sogar im Detail wesentlich besser ausgeschaut haben.

00:35:47: Da wäre ich sofort dabei.

00:35:48: Ich würde ja auch noch was von dem Schritt weitergehen

00:35:51: und sagen, das Premium-Paket bei Amazon und Netflix, wo du mitspielen kannst.

00:35:56: Also wenn ich den Ring nach Mordor bringen kann.

00:35:58: Ja, genau.

00:35:59: Bewegen wir uns jetzt einfach mal weg von Retro-Hype und solchen Sachen.

00:36:04: Und wir bewegen uns in Selbstdarstellung, Instagram, Facebook.

00:36:09: Ja, natürlich, die Leute filmen sich dabei ab,

00:36:12: wie sie ihre Alltagshandlungen machen,

00:36:14: ob das ein Geschirrspüler-Einräum ist oder Blumen kaufen.

00:36:16: Was weiß ich?

00:36:17: Aber natürlich, ich meine, du hast ein spezielles Abo, du drückst einen Knopf

00:36:23: und dann kannst du dir den aktuellen Terminator-Film angucken,

00:36:27: mit dir als Hauptcharakter.

00:36:29: Vielleicht sogar mit deiner eigenen Stimme.

00:36:32: Das wäre ja mittlerweile auch möglich.

00:36:34: Wie viele Jahre gibst du uns, bis das kommt?

00:36:37: Ich kann mir schon vorstellen,

00:36:39: dass wir innerhalb der nächsten fünf bis zehn Jahre

00:36:42: solche Produkte unter Umständen sehen könnten.

00:36:46: Es ist eine vorsichtliche Erschätzung.

00:36:48: Ich möchte mich da, wie gesagt, auf gar keinen Fall festlegen.

00:36:52: Vielleicht geht es noch viel, viel schneller,

00:36:54: als ich jetzt vermutet habe.

00:36:56: Was glaubst du, wo könnte das noch zum Einsatz kommen?

00:36:59: Da würde ich tatsächlich einen echten Fall jetzt nehmen

00:37:02: von einem unserer Kunden, die haben nämlich gefragt,

00:37:05: du sag mal, wir würden gerne eine Datenschutzrechtskonforme

00:37:09: Videoüberwachung haben.

00:37:11: Und was bedeutet das?

00:37:13: Die Idee war irgendwie, dass man eine Videokamera hat,

00:37:16: also die überwacht irgendetwas.

00:37:19: Und dass man praktisch die Persönlichkeitsrechte der Menschen

00:37:22: sozusagen schützen kann.

00:37:24: Wie macht man das?

00:37:26: Die KIs können ja heute wunderbar ganze Menschen erkennen,

00:37:29: Menschengruppen, Gesichter, alles erkennen.

00:37:32: Und warum diese Segmentierung, die wir bei den Deepfakes benutzen,

00:37:35: warum diese Segmentierung, die nur auf dem Kopf funktioniert,

00:37:38: auf den ganzen Körper anwenden.

00:37:40: Das haben wir gemacht.

00:37:42: Das heißt, wir haben eine KI trainiert,

00:37:45: die Software läuft direkt auf der Kamera

00:37:48: und die Menschen werden anonymisiert angezeigt

00:37:53: in diesem Video Stream.

00:37:55: Jetzt fragt ihr euch natürlich die Zuhörer und Zuhörerinnen.

00:37:58: Fragen sich jetzt, was bringt mir dann die Überwachung?

00:38:01: Na ja, in dem Moment, wo vielleicht irgendwas Auffälliges passiert,

00:38:04: zum Beispiel, keine Ahnung, wir sind in einer Industriehalle

00:38:07: und eine Person liegt auf dem Boden und bewegt sich nicht.

00:38:10: Könnte ein Hinweis sein, dass da was nicht stimmt.

00:38:12: Dann drückt dann der Security-Pier-Amt den Knopf,

00:38:15: dann kommt der Beigabe und man kann dann das echte Bild sehen.

00:38:20: Findet das jetzt schon Anwendung?

00:38:22: Ja, tatsächlich. Schon mehrere Jahre tatsächlich.

00:38:24: Was gibt es da für Feedback? Funktioniert es gut?

00:38:26: Das funktioniert gut.

00:38:28: Das funktioniert sogar so gut, dass wir diesen Fall erweitern können.

00:38:31: Dass wir zum Beispiel sagen könnten, na ja, lasst das Ganze

00:38:34: nicht nur auf Menschen laufen, sondern denken wir mal an

00:38:37: sogenannte ISU-Projekte.

00:38:39: Da geht es nämlich darum, um Geheimhaltung.

00:38:42: Man kann sehr, sehr aufpassen, wer Gebäude betritt und dies und das

00:38:45: und so weiter. Könnte man sogar soweit gehen auch sagen, zu sagen,

00:38:48: man könnte auch generell alles, was nach Bildschirmen aussieht

00:38:51: oder so, einfach komplett anonymisieren.

00:38:54: Ohne, dass man es auch freigeben dürfte und so weiter,

00:38:57: um eine gewisse höhere Geheimhaltung vielleicht auch zu ermöglichen.

00:39:00: Das heißt, die Technologie, die uns teilweise ein bisschen unsicherer macht,

00:39:04: kann uns aber auch sicherer machen, das ist für eigentlich.

00:39:06: Absolut, das ist wie immer ein, es ist wie immer das Dual-Ust-Dilemma.

00:39:09: Das Dual-Ust-Dilemma ist gerade im Bereich der KI immer wieder anzutreffen.

00:39:15: Es kann verdammt tolle Sachen machen, es kann aber auch verdammt

00:39:19: schlechte Sachen machen.

00:39:21: Vielleicht zum Ende hin kann ich dir noch eine philosophische Frage.

00:39:24: Vielleicht passt es ja da richtig gut rein, mal stellen,

00:39:27: was machten das mit uns, was glaubst du?

00:39:29: Also du schaust ja jetzt durch deinen Kamera-Fed vielleicht und schaust

00:39:32: Dinge an, die wirklich passiert sind.

00:39:34: Es gibt zum Beispiel auch schon eine Funktion, glaube ich, Google hat das

00:39:37: jetzt angekündigt für sein Handy, dass du ein Foto machen kannst

00:39:40: von einer Person, dann tauscht du das Handy, stellt sich dorthin,

00:39:43: wo die Person stand und dann fügt das Bild euch zusammen,

00:39:46: dann brauchst du niemanden Drittes, der ein Foto von dir macht.

00:39:49: Aber der Moment ist ja an sich eigentlich gar nicht passiert.

00:39:52: Wie weit gehen wir da?

00:39:54: Wie weit wollen wir da vielleicht auch noch gehen,

00:39:56: wenn die Medienlandschaft nicht mehr die Wirklichkeit widerspiegelt?

00:39:58: Also da muss ich ganz ehrlich sagen, das Problem haben wir im Prinzip

00:40:02: jetzt schon und eigentlich auch schon viel länger.

00:40:05: Es gibt eine Studie vom MIT aus dem Jahr 2018

00:40:10: und da wurde überprüft, da wurde analysiert,

00:40:13: ja wie viel künstlich generierten Texttraffic von Bots

00:40:19: erzeugten Traffic haben wir eigentlich.

00:40:22: Und die Frage könnte ich jetzt mal so als Schätzfrage an dich

00:40:25: ja übergeben, was würdest du jetzt glauben,

00:40:28: wie viel KI generierten Content gab es im Jahr 2018 ungefähr?

00:40:33: Oh Gott, wenn du mich so fragst, war es bestimmt richtig viel.

00:40:36: 30. Das wäre schon richtig operativ.

00:40:39: Da bist du aber schon echt auf dem richtigen Weg.

00:40:42: Also man sprach damals von 50 Prozent,

00:40:45: generierte im Content im Jahr 2018, das ist natürlich schon eine harte Nummer.

00:40:50: Genau und aktuelles gibt noch andere Studien,

00:40:53: die auch ein bisschen aktueller sind.

00:40:55: Ich meine, die war von Minerva, die spricht jetzt schon von 70 Prozent.

00:40:59: Und da brauchen wir uns gar nichts vormachen,

00:41:02: der Generative AI Hype, der aktuell stattfindet

00:41:05: oder jetzt fast am Platzen ist,

00:41:07: möglicherweise, das wird sich zeigen in nächsten Wochen und Monaten.

00:41:09: Diese generative KI, die führt wahrscheinlich dazu,

00:41:13: dass wir bis Ende des Jahrzehnts weit über 90 Prozent KI generiert haben,

00:41:19: wenn nicht sogar 99 Prozent.

00:41:21: Wahnsinn.

00:41:22: Vielleicht bringt das ja aber auch so ein Gegentrenn mit sich.

00:41:24: So eine Aufschwung hat ja meistens immer so Gegentrenns.

00:41:26: Vielleicht sollten wir in analoge Kameras investieren jetzt.

00:41:29: Es könnte passieren, dass vielleicht eine Art alternatives Internet entsteht

00:41:33: oder so was.

00:41:34: Das ist halt die Frage.

00:41:36: Es kann natürlich keiner beantworten.

00:41:38: Es gibt Theorien, welche natürlich Eintritt bleibt offen.

00:41:43: Perfekt, Überleitung von dem Martin zu unserer letzten Frage.

00:41:46: Für heute, was glaubst du denn mit so Blick in die Zukunft gerichtet?

00:41:50: Wie wird sich die Technologie gerade auch so im Bereich der Deep Facts

00:41:53: in den nächsten fünf bis zehn Jahren entwickeln?

00:41:55: Die wird sich weiterentwickeln.

00:41:57: Die wird immer besser werden.

00:41:59: Sie wird immer überzeugender werden.

00:42:01: Die Limitierungen werden Stück für Stück auch verschwinden.

00:42:05: Und möglicherweise wird diese Technologie auch noch einfacher zu benutzen.

00:42:10: So dass es zum Beispiel auch Länder, die ein großes Interesse haben,

00:42:17: Deep Facts auch für die Kriegsführung einzunutzen,

00:42:20: dass die dann auch die selbst besser erzeugen können.

00:42:24: Wir denken an den Deep Fake von Zelensky,

00:42:27: der auf eine ukrainische News-Seite hochgeladen wurde,

00:42:30: wahrscheinlich von russischen Hackern und Hackerinnen.

00:42:33: Und der war halt einfach schlecht.

00:42:36: Da sieht man richtig, also man sah eigentlich mit,

00:42:39: was sie es trainiert haben.

00:42:41: Also Deep Facelab wahrscheinlich sehr sicher.

00:42:43: Und sie haben es halt einfach nicht lang genug trainiert.

00:42:46: Das konnte man so gut sehen.

00:42:49: Aber das wird auch für diese Herstellenden immer wahrscheinlicher,

00:42:55: dass sie das dann auch besser machen können, zukünftig.

00:42:58: Zwei Seiten einer Medaille, du hast es vorhin gesagt.

00:43:01: Ansonsten, ich rechne schon damit, dass das, wie gesagt,

00:43:04: Filmproduktion auf jeden Fall, also das muss ja gut werden,

00:43:08: weil die können ja dann nicht mit irgendwelchen Halbseiten,

00:43:11: Halbgarnen Zeug dann da ankommen.

00:43:14: Und vielleicht wird es auch für die Regisseure auch nochmal interessant,

00:43:17: wenn die schon beim Filmen in Eindruck gewinnen können,

00:43:20: wie der spätere Deep Fake dann aussehen wird.

00:43:23: Das heißt, vielleicht würden die da so eine vorberechnete Version sehen,

00:43:27: also so eine Art Echtzeit-Deep Fake, ja.

00:43:29: Aber in den Hollywood-Studios würde man dann halt einfach das entsprechend

00:43:32: mit dem Post-Processing-Ansatz machen,

00:43:34: der immer besser ist als der eine, der in Echtzeit geht.

00:43:37: Aber vielleicht hat der Regisseur da ein Werkzeug

00:43:39: und kann schon mal ungefähr gucken, ah, so sieht das dann aus, geil.

00:43:42: Und die andere Form der Deep Fakes, es ist jetzt halt kein Deep Fake,

00:43:45: aber das ist dann halt das sogenannte Text-To-Video oder Bild-To-Video,

00:43:50: gibt es auch.

00:43:52: Die Eingabe von Text führt dazu, dass ein Video generiert wird.

00:43:55: Damit könnte man auch in Anführungsstrichen Deep Fakes generieren,

00:43:58: das sind jetzt halt nicht das, was man typischerweise Deep Fakes nennt,

00:44:01: aber das ist das, was die generative KI heute schon kann.

00:44:04: Und dann kann man halt was weiß ich,

00:44:06: einen Schuhplanel in Obama erzeugen oder sonst irgendwas.

00:44:10: Also etwas, was ein Politiker oder ein Politikerin in der Öffentlichkeit

00:44:14: nicht machen würde, wahrscheinlich nicht machen würde.

00:44:17: Wahnsinn, ja, Innovation passt ja auf jeder Ebene.

00:44:21: Ja, ja, genau richtig.

00:44:23: Ansonsten kann ich nur noch sagen, wir müssen die Welt jetzt nicht ganz,

00:44:26: ganz dunkel sehen, weil die KI da ist.

00:44:28: Wahrscheinlich sind wir auch durch Hollywood ein bisschen geprägt,

00:44:31: durch Filme wie Terminator, haben wir eher so ein Sentiment in uns,

00:44:35: dass KI uns nicht wohlgesonnen ist.

00:44:38: Das muss nicht so sein.

00:44:41: Und ich rechne halt auch damit, dass diese Werkzeuge Text-to-Video

00:44:46: also massiv besser werden.

00:44:49: Die entwickeln sich ja jetzt aktuell auch in eine ähnliche Richtung,

00:44:53: wie es bei Text-to-Image war.

00:44:55: Also man gibt ein Text ein und es kommt ein wirklich überzeugendes Bild raus,

00:44:58: was man schon fast nicht mehr erkennen kann, ob das jetzt gefälscht ist oder nicht.

00:45:03: Und das wird natürlich auch bei Text-to-Video kommen.

00:45:06: Und was ich jetzt sagen möchte ist,

00:45:08: wir sollten einfach mal überlegen, wie das damals war, als Photoshop rauskam.

00:45:13: Wenn wir heute den Leuten ein TV-Magazin hinhalten,

00:45:17: wo unglaublich attraktive Menschen abgebildet sind,

00:45:20: ist für den Großteil der Bevölkerung heutzutage schon klar,

00:45:24: dass das kein echtes Bild mehr ist,

00:45:26: dass die da so extrem aufgehübscht und wie auch immer sind,

00:45:31: dass es im Prinzip mit der Realität ja gar nichts mehr zu tun hat.

00:45:35: Und wenn wir es schaffen, die Gesellschaft vorzubereiten,

00:45:39: dass so was Ähnliches auch bei dieser Deepfakes-Thematik ins Spiel kommen könnte,

00:45:45: dann haben wir eigentlich schon mal vielleicht auch einen wichtigen Schritt getan.

00:45:50: Aber natürlich ist irgendwo eine Gefahr, dass es ausufert.

00:45:55: Aber das finde ich eigentlich ein ganz schönes Schlusswort von dir, Martin.

00:45:59: Ich danke dir für das sehr, sehr, sehr spannende Gespräch.

00:46:02: Danke schön, war schön dabei zu sein. Danke.

00:46:06: [Musik]

00:46:17: [MUSIK]

Shownotes

Transkript anzeigen

Neuer Kommentar