Einer der Vorteile der Arbeit am MIT ist es, einen Einblick in die Konturen zukünftiger Technologie zu erhalten – von Durchbrüchen in der Quantencomputertechnologie über die Produktion nachhaltiger Energie bis hin zum Design neuer Antibiotika. Wenn Sie mich fragen, ob ich ein tiefes Verständnis für all diese Bereiche habe, lautet die Antwort nein. Aber wenn mich Forscher einladen, dokumentarische Bilder ihrer Arbeit aufzunehmen, kann ich den größten Teil davon verstehen.
Die berufliche Freude als wissenschaftliche Fotografin liegt darin, dass ich verstehen muss, was ich dokumentiere, um informative und glaubwürdige Bilder für die Forscher zu erstellen, die mir ihre Labortüren öffnen. Im Wesentlichen
existieren diese Bilder selbst als eine Form von experimentellen Daten.
Öltröpfchen, die Eisenpartikel enthalten, auf einem Mikroskop-Objektträger reagieren auf einen darunter liegenden Magneten. Bildquelle: Felice Frankel
Mit der weiten Verbreitung von generativen künstlichen Intelligenz-Tools müssen jedoch dringend eine Reihe von Fragen erörtert werden. Wird es einen Zeitpunkt geben, an dem Wissenschaftler mit nur wenigen Tastatureingaben und Prompts 'Visualisierungen' ihrer Forschung erstellen und dieses Bild als Aufzeichnung ihrer Arbeit betrachten können?
Können Forscher, Herausgeber von Fachzeitschriften und Leser künstlich synthetisierte Bilder genau erkennen und verstehen, dass sie nicht die Aufzeichnung eines realen Forschungsprozesses sind?
Und schließlich, die Frage, die mich persönlich beschäftigt:
Wird im Zeitalter der künstlichen Intelligenz die Rolle wissenschaftlicher Fotografen zur Förderung der Wissenschaftskommunikation noch benötigt?
Durch eigene Erfahrungen mit KI-Bildgenerierungstools habe ich einige Einblicke gewonnen.
Autor · Author
Felice Frankel
Wissenschaftliche Fotografin
Eine Forschungswissenschaftlerin in der Chemieingenieurwissenschaft am MIT. Sie hat zahlreiche Auszeichnungen für die hohe ästhetische Qualität ihrer wissenschaftlichen Fotografien und ihre Fähigkeit erhalten, komplexe wissenschaftliche Informationen effektiv durch Bilder zu vermitteln. Sie ermutigt Forscher, alle Techniken zur Bildanpassung und -verbesserung zu hinterfragen. Autorin von
The visual elements - photography, Picturing science and engineering
usw.
Der Unterschied zwischen Realität und Repräsentation
Zuerst müssen wir den grundlegenden Unterschied zwischen traditioneller Fotografie und KI-generierten Bildern klären. Erstere hat für jedes Pixel ein entsprechendes Photon aus der realen Welt, letztere wird durch Diffusionsmodelle konstruiert. Dieser komplexe Berechnungsprozess kann Dinge generieren, die real aussehen, aber vielleicht nie existiert haben.
Um diesen Unterschied zu untersuchen, versuchte ich mit Hilfe von Gaël McGill, einem Experten für wissenschaftliche Visualisierung an der Harvard University, meine klassischen wissenschaftlichen Bilder mit Midjourney und DALL-E von OpenAI zu reproduzieren.
Im Jahr 1997 lud mich Moungi Bawendi, ein Chemiker am MIT, ein, seine Nanokristalle (Quantenpunkte) zu fotografieren. Diese Kristalle fluoreszieren unter UV-Licht, wobei sich die Emissionswellenlänge je nach Kristallgröße ändert. Bawendi erhielt später den Nobelpreis für diese Arbeit. Er mochte das erste Foto, das ich machte, nicht, bei dem ich die Reagenzgläser flach auf die Laborbank legte und von oben fotografierte (siehe Abbildung). Man kann die Luftblasen im Inneren der Röhrchen sehen, was meine Platzierung zeigt. Das war Absicht, und ich denke, es erhöhte die visuelle Attraktivität des Bildes.
Drei Perspektiven. Die zusammengesetzte Abbildung zeigt drei Ansichten von Reagenzgläsern: Die erste ist aus der Perspektive des Fotografen, die Luftblasen im Reagenzglas sind deutlich sichtbar; die zweite zeigt die Betonung der Farbe durch den Wissenschaftler; die dritte wurde von KI generiert und ist keine echte Darstellung. Credit: Felice Frankel
Die überarbeitete zweite Version des Fotos wurde als Titelseite der Ausgabe vom November 1997 des
Journal of Physical Chemistry B
ausgewählt. Dieses Bild lieferte nicht nur eine direkte Aufzeichnung der Forschung, sondern betonte auch die Bedeutung der Zusammenarbeit zwischen wissenschaftlichen Fotografen und Forschern, was ein unverzichtbarer Bestandteil meines Arbeitsablaufs ist.
Um ein ähnliches Bild in DALL-E zu generieren, gab ich folgenden Prompt ein: "create a photo of Moungi Bawendi’s nanocrystals in vials against a black background, fluorescing at different wavelengths, depending on their size, when excited with UV light."
Von KI generierte Bilder
Man könnte meinen, die vom Programm generierten Bilder seien ästhetisch ansprechend, aber ihre Authentizität unterscheidet sich stark vom Originalfoto. DALL-E generierte perlenartige Mikropartikelstrukturen im Bild, die im Prompt nicht erwähnt wurden. Dies könnte daran liegen, dass sein Algorithmus nach dem Abrufen des Begriffs "Quantenpunkte" (quantum dots) im zugrunde liegenden Modelldatensatz dieses Konzept durch den ursprünglichen Ausdruck "Nanokristalle" (nanocrystals) ersetzt hat.
Noch bedenklicher ist, dass jedes Reagenzglas mehrfarbige Mikropartikelstrukturen enthält, was impliziert, dass die Probe eine Mischung von Materialien enthält, die bei mehreren Wellenlängen fluoreszieren, was den Tatsachen widerspricht. Darüber hinaus werden einige Partikel als auf der Laborbank verstreut dargestellt. Ist diese Behandlung auf ästhetische Überlegungen des Modells zurückzuführen? Ich finde den generierten visuellen Effekt sehr ansprechend.
Von KI generiertes Bild
In meinen KI-Generierungsexperimenten waren die erhaltenen Bilder oft cartoonartig und schwer in der Realität umzusetzen, geschweige denn als wissenschaftliche Aufzeichnung zu dienen. Die technologische Iteration wird diese Barriere jedoch letztendlich durchbrechen. Durch eingehende Diskussionen mit Kollegen aus der Wissenschaft und Informatik sind wir zu dem Konsens gekommen, dass klare permissive Normen etabliert werden müssen.
Meiner Meinung nach sollten KI-generierte visuelle Inhalte niemals als dokumentierte Aufzeichnungen erlaubt werden.
Von KI generiertes Bild
Der wesentliche Unterschied zwischen Bildbearbeitung und KI-Generierung
Das Aufkommen der künstlichen Intelligenz bedeutet, dass wir drei zentrale Themen im Bereich der visuellen Kommunikation klären müssen: den Unterschied zwischen erläuternder Illustration und bildlicher Dokumentation, die ethischen Normen der Bildmanipulation und die dringende Notwendigkeit einer Schulung in visueller Kommunikation für Wissenschaftler und Ingenieure.
Die Bildkomposition, d. h. die Auswahl, welche Elemente einbezogen oder weggelassen werden, ist an sich schon eine Form der Modifikation der Realität. Die verwendeten Werkzeuge sind ebenfalls Teil dieser Modifikation. Jede Digitalkamera macht einzigartige Fotos; die Bildalgorithmen von Apple iPhones unterscheiden sich erheblich von denen von Samsung-Handys in Bezug auf die Farbverstärkung; ähnlich verhält es sich mit den Nahinfrarotbildern des James-Webb-Weltraumteleskops, die sich von den optischen Scans des Hubble-Weltraumteleskops unterscheiden, aber dazu dienen, diese zu ergänzen.
Darüber hinaus sind die in diesen atemberaubenden kosmischen Bildern dargestellten brillanten Farben alle digital verbessert und erzeugen mehrdimensionale Interpretationen der Realität. In diesem Sinne
generieren die Menschen seit vielen Jahren tatsächlich 'künstlich Bilder'.
Es gibt jedoch
einen grundlegenden Unterschied zwischen der Verbesserung von Fotos mittels Software zur Darstellung der Realität und der Schaffung einer virtuellen Realität basierend auf Trainingsdatensätzen.
Als wissenschaftliche Fotografin bin ich mir der Grenze zwischen erläuternden Illustrationen und dokumentarischen Bildern sehr bewusst, stehe aber der Frage, ob KI-Programme über ein solches Urteilsvermögen verfügen, zurückhaltend gegenüber. Erläuternde Illustrationen oder Diagramme übersetzen Konzepte subjektiv und beschreiben sie visuell durch Symbole, Farben, Formen usw.; ihre Essenz ist die Darstellung von etwas; dokumentarische Bilder, die durch optische Fotografie oder Raster-/Transmissions-Elektronenmikroskopie gewonnen werden, sind zwar nicht das physische Objekt selbst, aber objektive Aufzeichnungen, die mittels Photonen oder Elektronen gebildet werden. Der wesentliche Unterschied liegt in ihrem Zweck.
Der Hauptzweck erläuternder Illustrationen ist die Beschreibung und Klärung von Forschungsinhalten, ein Bereich, in dem generative KI brillieren könnte. Bei dokumentarischen Bildern ist es jedoch das Ziel, die reale Welt so genau wie möglich wiederherzustellen. Beide sind im Wesentlichen Akte der Modifikation oder künstlichen Generierung, was die
Notwendigkeit einer eingehenden Diskussion und der Festlegung relevanter ethischer Richtlinien vor der Einführung generativer KI-Tools
hervorhebt.
Derzeitige Verlagshäuser sind mit Software ausgestattet, um verschiedene Formen der Bildmanipulation in bestehenden Bildern zu erkennen (siehe
Nature
626, 697–698; 2024), aber ehrlich gesagt werden künstliche Intelligenz-Programme letztendlich in der Lage sein, solche Schutzmechanismen zu umgehen. Die akademische Gemeinschaft arbeitet daran, Systeme zur Bildherkunft zu entwickeln, um jede Änderungshistorie des Originalbildes vollständig zu dokumentieren. Zum Beispiel gibt die forensische Fotografie-Gemeinschaft über die globale Organisation "Coalition for Content Provenance and Authenticity" technische Anleitungen an Kamerahersteller, um die Herkunft von Fotos durch die Aufzeichnung aller Bildverarbeitungsvorgänge auf dem Gerät zu gewährleisten. Aber wenig überraschend haben nicht alle Hersteller diesen Standard übernommen.
Die wissenschaftliche Gemeinschaft hat noch Zeit, ein transparentes System aufzubauen und relevante Richtlinien für KI-generierte Bilder zu formulieren.
Mindestens müssen alle generativen KI-Bilder klar mit ihren Attributen gekennzeichnet sein, und der Erstellungsprozess sowie die verwendeten Werkzeuge müssen klar erklärt werden, einschließlich der Angabe der an die KI-Engine bereitgestellten Quellbildinformationen, falls möglich.
Die Erstellung einer Provenance-Liste stellt jedoch nach wie vor eine bedeutende Herausforderung dar.
Zwei wichtige Artikel zeigen potenzielle Datenschutz- und Urheberrechtsrisiken bei der Anwendung von Diffusionsmodellen auf (N. Carlini et al. Preprint auf arXiv https://doi.org/grqmsb (2023); siehe auch go.nature.com/4jqyevn). Die Urheberrechtszuweisung gilt nur für geschlossene Systeme, bei denen Trainingsdaten bekannt und vollständig aufgezeichnet sind (Diffusionsmodelle erfüllen diese Bedingung noch nicht). Zum Beispiel hat
Springer Nature
, der Herausgeber von
Nature
, kürzlich eine spezielle Ausnahmeklausel in seine Richtlinie für das
AlphaFold
-Programm von Google DeepMind aufgenommen, die dessen auf spezifischen wissenschaftlichen Datensätzen trainiertes Modell zulässt. Es muss jedoch besonders darauf hingewiesen werden, dass AlphaFold kein generatives KI-Tool ist, das Bilder generiert; seine Ausgabe sind Strukturmodelle (d. h. Koordinatendaten), die anschließend von Forschern (nicht von generativen KI-Tools) in Bilder umgewandelt werden müssen.
Es ist beruhigend, dass Anstrengungen unternommen werden, um Datenschutzprobleme anzugehen. Ersteller können jetzt manipulationssichere Metadaten verwenden, die als
Content Credentials
bezeichnet werden. Wie im Adobe-Technikhandbuch beschrieben, zielt diese Technologie darauf ab, "Erstellern den gebührenden Kredit zu geben und die Transparenz im kreativen Prozess zu erhöhen".
Ethische Standards
Seit Jahren fordere ich die dringende Notwendigkeit, dass Forscher eine systematische Schulung in den ethischen Aspekten der visuellen Kommunikation erhalten, und die weite Verbreitung von KI-Bildgenerierungstools unterstreicht die Dringlichkeit der damit verbundenen Diskussionen zusätzlich.
Zum Beispiel traf ich einmal einen Ingenieur, der ein Foto, das ich für seine Forschung gemacht hatte, eigenmächtig modifiziert hatte und das bearbeitete Bild zusammen mit der eingereichten Arbeit veröffentlichen wollte. Der Forscher erkannte nicht, dass die Manipulation von Bildern im Wesentlichen einer Datenmanipulation gleichkommt. Dieses fehlende Bewusstsein resultiert daraus, dass er nie eine grundlegende ethische Ausbildung in Bildbearbeitung und visueller Kommunikation erhalten hat.
Foto der Autorin und das modifizierte Foto
Kollegen aus der Informatik weisen darauf hin, dass Diskussionen über KI-Ethik zwar weit verbreitet sind, aber hauptsächlich außerhalb der wissenschaftlichen Gemeinschaft stattfinden.
Was mich beunruhigt, ist, dass die gesamte Forschungsgemeinschaft noch nicht vollständig erkannt hat, dass Bildbearbeitung nicht nur ein ästhetisches Problem ist, sondern eine ethische Fragestellung, die ernst genommen werden muss.
In welchem Ausmaß kann ein Bild modifiziert werden und immer noch als wissenschaftliche Aufzeichnung betrachtet werden? Wie beurteilen wir, ob Daten im Bild wahrheitsgemäß dargestellt werden und ob es absichtliche oder unabsichtliche Auslassungen gibt?
Angesichts generativer KI-Visueller Werke, die ausschließlich auf algorithmischer Filterung von realem Material basieren und zu Dokumentationszwecken von Grund auf neu erstellt werden, wie sollen ihre ethischen Grenzen definiert werden?
Viele Fragen bleiben unbeantwortet.
Zukunftsvision
Offensichtlich werden generative KI-Bilder Teil unserer Zukunft sein. Obwohl die meisten wahrscheinlich in die Kategorie der erläuternden Illustrationen fallen werden, müssen wir uns ihrer potenziellen Verwendung als wissenschaftliche Aufzeichnungen direkt stellen. Basierend darauf muss die wissenschaftliche Gemeinschaft dringend Leitprinzipien festlegen, die von Forschern, die Arbeiten mit Bildern einreichen, verlangen, zumindest die folgenden Fragen zu beantworten:
1. Ist das Bild von KI generiert? Wenn ja, muss es klar gekennzeichnet sein und Metadaten zur Identifizierung seiner Attribute enthalten.
2. Welches spezifische generative KI-Modell und welche Version wurden verwendet?
3. Welche Prompts wurden verwendet, um das Bild zu generieren?
4. Wurde ein Bild zur Unterstützung des Prompts verwendet? Wenn ja, reichen Sie das Bild ebenfalls ein und geben Sie die Quellinformationen an.
Die Rolle des Fotografen
Um die am Anfang dieses Artikels gestellte Frage zu beantworten – gibt es im Zeitalter der KI noch einen Platz für wissenschaftliche Fotografen? Ich suchte eine Antwort von OpenAI's ChatGPT. Hier ist eine zusammengefasste Version seiner Antwort:
"Im Bereich der KI-generierten Bilder spielen Fotografen, die wissenschaftliche Objekte dokumentieren, eine einzigartige Rolle. Sie liefern Expertise, Authentizität und eine kritische Perspektive in einem Bereich, in dem Genauigkeit und die Darstellung der Realität entscheidend sind."
ChatGPT führte weiter aus: "Kurz gesagt, im Zeitalter der künstlichen Intelligenz haben wissenschaftliche Fotografen immer noch einen unersetzlichen Wert. Sie leiten verantwortungsvolle Praktiken an, liefern qualitativ hochwertige Eingangsdaten und stellen sicher, dass generative KI-Bilder der Wissensverbreitung dienen und das Publikum nicht in die Irre führen. Sie sind sowohl Hüter der Authentizität wissenschaftlicher Bilder als auch Pioniere bei der Erschließung neuer visueller Bereiche."
Ich bin mit dieser Antwort zufrieden.