MITで働くことの利点の一つは、未来のテクノロジーの輪郭を垣間見ることができるということです。量子コンピューティングのブレークスルーから、持続可能なエネルギー生産、新しい抗生物質の設計まで。これらの分野すべてについて深い理解があるかと尋ねられたら、答えは「いいえ」です。しかし、研究者が彼らの仕事の記録となる画像を撮るよう依頼してきたとき、私はその内容の大部分を理解することができます。
科学写真家という職業の喜びは、私が記録しているものを理解しなければならないという点にあります。そうすることで、研究室のドアを開けてくれる研究者たちのために、情報伝達機能と信頼性を兼ね備えた画像を撮影できるのです。その本質は、
これらの画像自体が実験データとして存在しているということです。
スライドガラス上の油滴には鉄粒子が含まれており、下にある磁石に反応します。画像提供:Felice Frankel
しかし、生成AIツールの広範な普及に伴い、一連の問題が早急に議論される必要があります。科学者がキーボード入力とプロンプトを数回行うだけで、まるで私がカメラで撮影するように研究の「視覚化」結果を作成し、その画像を仕事の記録とみなす瞬間は来るのでしょうか?
研究者、ジャーナル編集者、読者は、人工的に合成された画像を正確に識別し、その本質が実際の研究プロセスの記録ではないことを理解できるのでしょうか?
そして最後に、私が個人的に懸念している問題は、
AI時代において、科学コミュニケーションを推進するために科学写真家のような役割はまだ必要なのでしょうか?
AI画像生成ツールを実際に体験することで、いくつかの考えを得ました。
著者・Author
Felice Frankel
科学写真家
MIT化学工学科の研究者。彼女の科学写真は高い芸術性と、複雑な科学情報を画像を通じて効果的に伝える能力で数々の賞を受賞しています。彼女は研究者たちに、様々な画像調整および強調技術について疑問を持つことを推奨しています。
The visual elements - photography, Picturing science and engineering
などの著者でもあります。
現実と表象の区別
まず、伝統的な写真とAI生成画像の本質的な違いを明確にする必要があります。前者は各ピクセルが現実世界の光子に対応していますが、後者は拡散モデルを通じて構築されます。この複雑な計算プロセスにより、実物に見えても実際には存在しないものが生成される可能性があります。
この違いを探求するため、ハーバード大学の科学視覚化専門家Gaël McGill氏の協力を得て、MidjourneyとOpenAIのDALL-Eを使用して、私が撮影した代表的な科学画像を再現しようと試みました。
1997年、MITの化学者Moungi Bawendi氏が、彼のナノ結晶(量子ドット)の撮影を依頼してきました。これらの結晶は紫外光で励起されると蛍光を発し、その発光波長は結晶サイズによって変化します。Bawendi氏は後にこの研究でノーベル賞を受賞しましたが、彼は私が最初に撮影した写真、つまり試験管を実験台に平らに置いて俯瞰で撮影した写真(図参照)を気に入りませんでした。画面内の試験管の気泡から、私の置き方が分かります。これは意図的なもので、私はそれが画像の視覚的な魅力を高めると考えました。
三重の視点。3つの試験管画像を示す:最初の画像は写真家の視点であり、試験管内の気泡がはっきりと見える。2番目の画像は科学者の色への重視を示す。3番目の画像はAIによって生成されたものであり、現実の描写ではない。 Credit: Felice Frankel
修正された第2版の写真は、1997年11月の「
Journal of Physical Chemistry B
」の表紙に採用されました。この画像は、研究の視覚的な記録を提供しただけでなく、科学写真家と研究者の協力の重要性を強調しており、これは私のワークフローに不可欠な部分です。
DALL-Eで同様の画像を生成するために、以下のプロンプトを入力しました。「Moungi Bawendi氏のナノ結晶が入ったバイアルを黒い背景の前で、紫外光で励起されたときにサイズに応じて異なる波長で蛍光を発する写真を作成する」*。
AIによって生成された画像
プログラムによって生成された画像は非常に美的であると思うかもしれませんが、その信憑性は元の写真とはかけ離れています。DALL-Eは、プロンプトで言及されていないビーズ状の微粒子構造を画像中に生成しました。これは、基盤モデルのデータセットで「量子ドット」(quantum dots)という用語を検索し、その概念が元の「ナノ結晶」(nanocrystals)という表現に置き換わったためかもしれません。
さらに警戒すべき点は、各試験管内に多色の微粒子構造が含まれていることであり、これはサンプルが複数の波長で蛍光を発する混合材料を含んでいることを示唆しており、これは事実と異なります。さらに、一部の微粒子は実験台表面に散らばっているように描かれています。この処理はモデルの美的考慮によるものなのでしょうか?私は生成された視覚効果が非常に魅力的だと思います。
AIによって生成された画像
AI生成実験で得られた画像は、科学記録としてはもちろん、実現が難しい漫画のような画像でした。しかし、技術の進化はいずれこの壁を突破するでしょう。科学界やコンピュータ科学分野の同僚との深い議論を通じて、私たちは明確な許可性規範を確立しなければならないというコンセンサスに達しました。
私の見解では、AIによって生成された視覚コンテンツは、記録として許可されるべきではありません。
AIによって生成された画像
画像処理とAI生成の本質的な違い
人工知能の出現は、視覚コミュニケーション分野の3つの核となる問題、すなわち説明的図示(illustration)と映像記録(documentation)の違い、画像処理(image manipulation)の倫理規範、そして科学者とエンジニアに対する視覚コミュニケーション訓練(visual-communication training)の喫緊の必要性を明確にしなければならないことを意味します。
画像構成、つまりどのような要素を含めるか、あるいは捨てるかという選択は、それ自体が現実の一種の修正です。人々が使用するツールもこの修正の一部です。どのデジタルカメラも独自の写真を撮影します。Apple iPhoneの画像アルゴリズムは、色の強調においてSamsung携帯電話とは大きく異なります。同様に、ジェイムズ・ウェッブ宇宙望遠鏡が撮影した近赤外線画像は、ハッブル宇宙望遠鏡の光学スキャンとは異なりますが、それらを補完することを意図しています。
さらに言えば、それらの心を揺さぶる宇宙画像に表示される壮大な色彩は、すべてデジタル強調(digitally enhanced)されており、現実の多次元的な解釈を生み出しています。そう考えると、
人類は何年もの間、実際に「人工的に画像を生成」してきたことになります。
しかし、
ソフトウェアを通じて写真を強調して現実を描写することと、訓練データセットに基づいて仮想現実を創造することの間には、根本的な違いがあります。
科学写真家として、私は説明的図示と記録映像の境界線をよく理解していますが、AIプログラムがそのような判断力を持っているかについては保留しています。説明的図示や図表は、記号、色、形状などの要素を通じて概念を主観的に翻訳し、視覚的に記述するものであり、その本質は何かを表現することです。一方、光学写真や走査型/透過型電子顕微鏡技術によって得られた記録映像は、物理的な実体そのものではないにせよ、光子や電子を使用して形成された客観的な記録です。両者の本質的な違いはその目的にあります。
説明的図示の核心的な目的は、研究内容を記述し明確にすることであり、生成AIはこの分野で大いに活躍するかもしれません。しかし、記録映像にとって、その目的は現実世界を最大限に再現することです。両者とも本質的には修正または人工生成行為であり、これは
生成AIツールの導入前に、深い議論を行い関連倫理規範を確立する必要性
を浮き彫りにしています。
現在の出版機関は、既存の画像中の様々な修正行為を検出するためのソフトウェアを備えています(
Nature
626, 697–698; 2024参照)。しかし率直に言って、AIプログラムは最終的にこのような防御機構を回避する能力を持つでしょう。学界は、元の画像のあらゆる変更履歴を完全に記録するための画像来歴システム構築に取り組んでいます。例えば、法医学写真(forensic photography)界は、国際組織「コンテンツ来歴と真正性連合」(Coalition for Content Provenance and Authenticity)を通じて、カメラメーカーに技術指導を提供し、デバイス側で全ての画像処理操作を記録することで写真の来歴を実現しています。しかし予想通り、全てのメーカーがこの基準を採用しているわけではありません。
科学界には、透明性システムを構築し、AI生成画像に関する関連ガイドラインを策定する時間がまだあります。
最低限の要求事項として、すべての生成AI画像はその属性を明確に表示しなければならず、作成プロセスと使用ツールを明確に説明する必要があり、可能な場合はAIエンジンに提供されたソース画像情報を明記する必要があります。
しかし、来歴リストの確立には依然として重大な課題が伴います。
拡散モデルの応用における潜在的なプライバシーおよび著作権リスクを明らかにする2つの重要な論文があります(N. Carlini et al. Preprint at arXiv https://doi.org/grqmsb (2023); go.nature.com/4jqyevnも参照)。著作権の帰属は、訓練データが既知であり完全に記録されているクローズドシステムにのみ適用されます(拡散モデルはまだこの条件を満たしていません)。例えば、
Nature
ジャーナルの発行元である
Springer Nature
は最近、そのポリシーにGoogle DeepMindの
AlphaFold
プログラムに関する特別な例外条項を追加し、特定の科学データセットで訓練されたそのモデルの応用を許可しました。しかし特筆すべきは、AlphaFoldは画像を生成する生成AIツールではないということです。その出力は構造モデル(すなわち座標データ)であり、その後、研究者(生成AIツールではない)によって画像に変換される必要があります。
喜ばしいことに、プライバシー問題に対処するための取り組みが進められています。現在、クリエーターは「コンテンツクレデンシャル」(
Content Credentials
)と呼ばれる改ざん防止メタデータを使用できます。これは、Adobeの技術マニュアルに記載されているように、「クリエーターに適切な評価を与え、作成プロセスの透明性を高める」ことを目的としています。
倫理基準
長年にわたり、私は研究者が視覚コミュニケーションの倫理に関する体系的な訓練を受ける緊急の必要性を訴えてきました。そして、AI画像生成ツールの普及は、関連する議論の緊急性をさらに強調しています。
例えば、かつて私は、自分の研究のために私が撮影した写真を無許可で変更し、その処理された画像を投稿論文とともに発表したいと考えているエンジニアに出会いました。その研究者は、画像を改ざんすることが実質的にデータを改ざんすることと同等であるということに気づいていませんでした。この認識の欠如は、画像処理と視覚コミュニケーションの基本的な倫理教育を受けたことがないことに起因します。
著者撮影の写真と修正された写真
コンピュータ科学分野の同僚は、AI倫理に関する議論は広く行われているものの、主に科学界以外で発生していると指摘しています。
私が懸念しているのは、科学コミュニティ全体が、画像処理が美的問題だけでなく、真剣に取り組むべき倫理的な命題であるということをまだ十分に認識していないことです。
どの程度の修正が行われた画像が科学記録として認められるのでしょうか?画像中のデータが真実通りに表現されているか、意図的または非意図的な省略があるかどうかをどのように判断するのでしょうか?
完全にアルゴリズムによる現実素材のフィルタリングに基づいて、記録目的のためにゼロから構築された生成AI視覚作品に対して、その倫理的な境界線をどのように定義すべきでしょうか?
多くの問題が未解決のままです。
未来の展望
明らかに、生成AI画像は私たちの未来の一部となるでしょう。大部分は説明的図示の範疇に分類される可能性がありますが、科学記録としての使用の潜在的な可能性に正面から向き合わなければなりません。これに基づき、科学界は指導規範を早急に構築し、画像を論文に含む研究者に対して、少なくとも以下の質問に回答することを要求する必要があります。
1. この画像はAIによって生成されたものですか?はいの場合、明確なラベル付けを行い、その属性を識別するメタデータを含める必要があります。
2. 具体的にどのような生成AIモデルとそのバージョンが使用されましたか?
3. その画像を生成する際にどのようなプロンプトが使用されましたか?
4. プロンプトを補助するために画像が使用されましたか?はいの場合、その画像も一緒に提出し、ソース情報を明記してください。
写真家の役割
本記事の冒頭で提起された質問、「AI時代において科学写真家の居場所はまだあるのか?」に答えるため、私はOpenAIのChatGPTに回答を求めました。以下はその要約された回答です。
「AI生成画像の分野において、科学対象を記録する写真家は独自の役割を果たしています。彼らは、正確性と真実性の表現が極めて重要な分野において、専門技術、真正性、そして批判的な視点を提供しています。」
ChatGPTはさらに、「簡単に言えば、AI時代において、科学写真家は依然としてかけがえのない価値を持っています。彼らは責任ある実践の規範を導き、高品質な入力データを提供し、生成AI画像が知識伝達の機能を提供し、受