Xinzhiyuan-Bericht
Redaktion: KingHZ
【Xinzhiyuan-Bericht】Hinter dem „ChatGPT-Schmeichler“-Vorfall verbirgt sich, dass die aktuelle KI immer noch eine „Blackbox“ ist. Ein Dissens über den Forschungsweg der „mechanistischen Interpretierbarkeit“ zerreißt den zentralen Werte-Konsens der KI-Forschung. Google kapituliert, Anthropic kämpft weiter – kann KI noch „verstanden“ werden?
OpenAI hat ChatGPT-4o nur leicht aktualisiert, doch über Nacht hat sich die Persönlichkeit der KI drastisch verändert und ist zu einem „Cyber-Schmeichler“ geworden.
Allerdings weiß niemand, warum das genau passiert ist.
Dies deckt genau die tödliche Schwäche der aktuellen KI auf: mangelnde Interpretierbarkeit.
Die Diskussion unter Experten über den Forschungswert der KI-Interpretierbarkeit hat sich in letzter Zeit verschärft.
Konkret geht es um den Streit zwischen den KI-Giganten Google und Anthropic bezüglich der „mechanistischen Interpretierbarkeit“:
Im März kündigte Google DeepMind an, die „mechanistische Interpretierbarkeit“ nicht mehr als Forschungsschwerpunkt zu betrachten.
Im April plädierte Anthropic-CEO Dario Amodei für eine stärkere Betonung der Forschung zur „mechanistischen Interpretierbarkeit“ und äußerte sich optimistisch, innerhalb der nächsten 5 bis 10 Jahre eine „KI-MRT“ (d.h. ein tiefes Verständnis der internen Mechanismen der KI) zu erreichen.
Das Ziel der sogenannten mechanistischen Interpretierbarkeit ist es, KI-Systeme zu „Reverse-Engineering“.
Doch die Forschungsergebnisse aus über einem Jahrzehnt zeigen, dass diese Methode schwer umsetzbar sein könnte, und all dies wurde durch unvollständige Grundannahmen fehlgeleitet.
Die Gefahr menschlicher Ignoranz,
Das Damoklesschwert der GenAI
Viele Risiken und Bedenken im Zusammenhang mit GenAI werden im Wesentlichen durch die „Blackbox“-Natur der internen Mechanismen dieser Algorithmen verursacht.
Wenn Modelle interpretierbar wären, ließen sich diese Probleme leichter lösen.
Doch interpretierbare KI ist sehr schwer zu erforschen.
In einem Interview im Jahr 2018 verglich Geoffrey Hinton interpretierbare KI mit der Frage „Henne oder Ei“. Damals sagte er:
Menschen können in den meisten Fällen selbst nicht erklären, wie sie Entscheidungen treffen. … Neuronale Netze haben ein ähnliches Problem. Man gibt ihnen ein Bild, und sie geben eine vernünftige Einschätzung ab, zum Beispiel, ob es sich um einen Fußgänger handelt. Aber wenn man fragt „Warum hast du so geurteilt?“, liegt das Problem darin: Wenn es wirklich eine einfache Regel gäbe, um zu beurteilen, ob ein Bild einen Fußgänger enthält, wäre dieses Problem längst gelöst.
Professor Bob Rehder von der New York University schrieb einmal: „Erklärungen veranlassen Lernende, nach allgemeinen Mustern zu suchen, aber das kann sie auch dazu bringen, Ausnahmen zu übersehen. Das Ergebnis ist, dass in Bereichen, in denen Ausnahmen häufig vorkommen, Erklärungen 오히려 negative Effekte haben können.“
Anthropic-Mitbegründer Chris Olah sagt oft, dass GenAI eher „gezüchtet“ als „gebaut“ wird.
— ihre internen Mechanismen sind „emergent“ und nicht künstlich entworfen.
Das ist ein bisschen wie Gemüse oder Blumen anbauen: Menschen können die allgemeinen Wachstumsbedingungen festlegen, aber die spezifische Struktur, die sich am Ende bildet, ist unvorhersehbar und schwer zu erklären.
Wenn wir versuchen, das Innere dieser Systeme zu verstehen, sehen wir nur eine riesige Matrix aus Milliarden von Zahlen. Diese Zahlen können wichtige kognitive Aufgaben erfüllen, aber wie sie das tun, ist derzeit niemandem bekannt.
Die Nicht-Interpretierbarkeit von KI-Systemen bedeutet auch, dass KI in vielen wichtigen Bereichen nicht eingesetzt werden kann, da wir die Grenzen ihres Verhaltens nicht klar definieren können und die Folgen im Fehlerfall äußerst schwerwiegend sein können.
Tatsächlich verhindert in bestimmten Szenarien die Nicht-Interpretierbarkeit von Modellen sogar rechtlich ihren Einsatz.
Ebenso hat KI bedeutende Fortschritte in wissenschaftlichen Bereichen erzielt.
Zum Beispiel wurde die Fähigkeit zur Vorhersage von DNA- und Proteinsequenzen erheblich verbessert, aber die von der KI entdeckten Muster und Strukturen sind für Menschen oft schwer zu verstehen und können keine echten biologischen Erkenntnisse liefern.
Mechanistische Interpretierbarkeit versucht hauptsächlich herauszufinden, welche spezifischen „Neuronen“ und „Schaltkreise“ im Modell bei der Ausführung einer Aufgabe eine Rolle spielen.
Forscher hoffen, damit den Denkprozess des Modells verfolgen und so sein Verhalten anhand von „Hardware-Prinzipien“ erklären zu können.
Viele sind der Meinung, dass dieses detaillierte Verständnis für die KI-Sicherheit von unschätzbarem Wert ist; es würde es Forschern ermöglichen, Modelle präzise zu entwerfen, die unter allen Bedingungen wie erwartet funktionieren und alle Risiken zuverlässig vermeiden.
Google: Fühlt sich betrogen
Die Forschung zur mechanistischen Interpretierbarkeit entstammt dem Glauben der Forscher an die Wahrheit: Wissen ist Macht; Benennen bedeutet Verstehen, Verstehen bedeutet Kontrolle.
Schon während seiner Zeit bei Google versuchte Chris Olah, systematisch zu untersuchen, wie man diese LLM-„Blackbox“ öffnet und die interne Funktionsweise des Modells versteht.
Die frühen Phasen der mechanistischen Interpretierbarkeit (2014–2020) konzentrierten sich hauptsächlich auf Bildmodelle, wo Forscher erfolgreich einige Neuronen identifizierten, die menschlich verständlichen Konzepten entsprachen.
Dies ähnelt Hypothesen aus der frühen Neurowissenschaft, wie der Existenz von Neuronen im Gehirn, die spezifische Personen oder Konzepte erkennen und als „Jennifer Aniston-Neuronen“ bekannt sind.
Teilweise Neuronen in der letzten Schicht des CLIP-Modells
Anthropic: Unerschütterlich bei der KI-Erklärbarkeit
Als Anthropic gegründet wurde, beschlossen die Mitbegründer Chris Olah und Dario Amodei, Interpretierbarkeitsmethoden auf Sprachmodelle anzuwenden.
Dario Amodei
Schnell entdeckten sie grundlegende Mechanismen in Modellen, die für das Sprachverständnis entscheidend sind, wie das Kopieren und Sequenz-Matching.
Gleichzeitig fanden sie auch interpretierbare Neuronen, ähnlich denen in Bildmodellen, die spezifische Wörter oder Konzepte darstellen können.
Doch die Komplexität des Problems behinderte einst den Fortschritt der Interpretierbarkeitsforschung, bis sie später eine Technik aus dem Bereich der Signalverarbeitung entdeckten –
Sparse Autoencoder (SAE) können Neuronenkombinationen identifizieren, die Konzepte, die dem menschlichen Verständnis näherkommen, klarer ausdrücken.
Im Vergleich zu einzelnen Neuronen können diese Kombinationen subtilere Konzepte ausdrücken, wie z. B. „wörtliche oder metaphorische Zögerlichkeit und Vermeidung“ oder „Musikgenres, die Unzufriedenheit ausdrücken“.
Diese Kombinationen werden als „Features“ bezeichnet, und Sparse-Autoencoder-Methoden wurden verwendet, um Modelle verschiedener Größenordnungen abzubilden, einschließlich der fortschrittlichsten kommerziellen Modelle.
Vor Kurzem hat sich ihre Forschung vom „Verfolgen und Manipulieren einzelner Features“ auf das „Verfolgen und Manipulieren einer Menge von Features“ ausgeweitet, die als „Schaltkreise“ (circuits) bezeichnet werden.
Mithilfe dieser Schaltkreise kann der Denkpfad des Modells „verfolgt“ werden.
Wenn Sie das Modell beispielsweise fragen „Was ist die Hauptstadt des Staates, in dem Dallas liegt?“, aktiviert das Modell intern einen „liegt innerhalb“-Schaltkreis, der das Feature „Dallas“ dazu bringt, „Texas“ zu aktivieren, und dann über einen anderen Schaltkreis die Konzepte „Texas“ und „Hauptstadt“ gemeinsam „Austin“ aktivieren lässt.
Mithilfe der Schaltkreis-Tracking-Methode hat Anthropic die internen Mechanismen untersucht, die von Claude 3.5 Haiku verwendet werden.
Google DeepMind: SAE-Forschung pausiert
Es hat sich gezeigt, dass es sehr schwierig ist, SAEs stabil und effektiv zum Laufen zu bringen.
Dies ist einer der Gründe, warum DeepMind kürzlich beschlossen hat, der SAE-Priorität weniger Bedeutung beizumessen.
Das DeepMind-Forschungsteam hat einen technischen Blogbeitrag veröffentlicht, der detailliert erklärt, warum sie gegenüber Sparse Autoencodern nicht optimistisch sind.
Ihre ursprüngliche Kernmotivation war, dass viele Menschen im Bereich der Interpretierbarkeitsforschung erhebliche Anstrengungen in Sparse Autoencoder (SAE) investiert haben.
Aber SAEs fehlt ein objektiver Referenzstandard für „wahre“ Merkmale und können nicht mit den realen Strukturen in Sprachmodellen verglichen werden, was es schwierig macht zu beurteilen, wie gut sie tatsächlich funktionieren.
Obwohl die qualitative Analyse zeigt, dass SAEs tatsächlich bestimmte Strukturen erfassen (weit davon entfernt, durch Zufallsrauschen erklärt zu werden), sind die Einschränkungen ebenfalls offensichtlich –
Wenn beliebige Sätze in Neuronpedia eingegeben und die aktivierten latenten Variablen beobachtet werden, entsprechen diese Variablen oft keinen klaren semantischen Erklärungen.
Neuronpedia war ursprünglich eine speziell für die Sparse Autoencoder (SAE)-Forschung entwickelte Plattform, wurde aber inzwischen zu einer offenen Infrastruktur aufgerüstet, die die allgemeine mechanistische Interpretierbarkeitsforschung unterstützt.
Bei der Entscheidung, ob die Entwicklung von SAEs weiterhin priorisiert werden soll, ist es notwendig, die Bewertungskriterien für die Interpretierbarkeitsforschung in einem breiteren Kontext zu betrachten.
Der traditionelle Ansatz geht davon aus, dass im Inneren des Modells eine präzise, menschlich verständliche „objektive Wahrheit“ existiert und versucht, diese durch Reverse Engineering zu enthüllen.
Für SAEs verkörpert sich diese idealisierte Vision darin, „zu hoffen, dass die latenten Variablen von SAEs die normativen Konzeptmengen im Inneren des Modells erfassen können“.
Aber jetzt erkennt Google klar, dass SAEs zahlreiche Probleme aufweisen:
Aktuelle Bewertung: Die bestehenden SAE-Technologien sind weit von diesem Ziel entfernt.
Philosophische Zweifel: Ob solche „wahren Konzepte“ im Inneren des Modells wirklich existieren, ist noch unbekannt.
Technische Engpässe: Selbst wenn es echte Konzepte gäbe, weisen SAEs mehrere inhärente Mängel auf: unvollständige Konzeptabdeckung (missing concepts), Rauschdarstellungsprobleme (z. B. mangelnde Interpretierbarkeit bei geringen Aktivierungsmengen), Feature-Verzerrungsphänomene (z. B. abnormale Verformungen wie Feature-Absorption), hohe Falschnegativrate (scheinbar interpretierbare latente Variablen weisen eine große Anzahl von Fehlern auf)
Das Forschungsteam hat sorgfältig konzipierte Sondierungsexperimente durchgeführt und dabei folgende wichtige neue Erkenntnis gewonnen:
Die aktuellen Sparse Autoencoder (SAE) können die in bestimmten Schlüsselaufgaben benötigten „Konzepte“ nicht erkennen; während lineare Probes eine nützliche Richtung finden können.
Dafür kann es mehrere Erklärungen geben, aber in jedem Fall deutet dies darauf hin, dass SAEs möglicherweise nicht das geeignete Werkzeug für praktische Aufgaben sind.
Obwohl kein einzelnes negatives Ergebnis eine starke Schlussfolgerung darstellt, sollte es nicht schwierig sein, Anwendungsszenarien zu finden, die die Baseline-Methoden deutlich übertreffen, wenn SAEs wirklich ein großer Durchbruch in der Interpretierbarkeitsforschung wären.
Das DeepMind-Forschungsteam ist der Ansicht: Kurzfristig ist es unwahrscheinlich, dass SAEs und SAE-basierte Technologien revolutionäre Durchbrüche bringen werden, und es ist sogar möglich, dass sie nie ein echter Wendepunkt werden.
Zehn Jahre Forschung, am Ende nichts als Federn
Das Ziel der mechanistischen Interpretierbarkeit ist vielleicht zu idealistisch.
In den letzten zehn Jahren haben große Unternehmen und Forschungseinrichtungen viel Personal und Millionen von Dollar in mehrere Forschungsprojekte zur Interpretierbarkeit investiert.
Obwohl diese Forschungen oft kurzfristige Begeisterung und Aufmerksamkeit hervorriefen, hat bis heute keines der Ergebnisse wirklich den Test der Zeit bestanden.
Feature-Visualisierung
Im Jahr 2015 schlugen Mordvintsev et al. die Feature-Visualisierung vor, um zu verstehen, wie Bildklassifizierer funktionieren, indem sie untersuchten, welche Features einzelne Neuronen aktivieren.
An der Zuverlässigkeit und Nützlichkeit dieser Technik bestehen jedoch weiterhin Zweifel.
Neuronen reagieren oft auf mehrere nicht zusammenhängende Features, was es schwierig macht, ihre Rolle präzise zu erklären.
Salienz-Maps
Salienz-Maps erzeugten überzeugende Bilder, die aus menschlicher Sicht die wichtigsten Teile des Bildes hervorzuheben schienen.
Eine Studie aus dem Jahr 2020 deutete jedoch darauf hin, dass Salienz-Maps nicht das erfassten, was das trainierte Modell gelernt hatte oder worauf es sich konzentrierte.
Link zur Arbeit: https://arxiv.org/abs/1810.03292
Guided backpropagation ist eine Salienz-Map-Technik, die für Zufallsmodelle und tatsächlich trainierte Modelle ähnliche Erklärungen liefert, was darauf hindeutet, dass sie nichts wirklich erklärt.
BERT-Interpretierbarkeitsillusion
Auch die Erklärungstechniken für Sprachmodelle weisen ähnliche Mängel auf.
Im Jahr 2021 beschrieben Forscher die Suche nach Sätzen, die einzelne Zielneuronen im BERT-Modell maximal aktivieren, und fanden zunächst ein überzeugendes Muster. Bei der Verwendung eines anderen Datensatzes verschwand das Muster jedoch, und dasselbe Neuron reagierte am stärksten auf völlig andere Satztypen.
Link zur Arbeit: https://arxiv.org/abs/2104.07143
Chinchilla-Schaltkreis-Analyse
In einer Arbeit von DeepMind aus dem Jahr 2023 wurden Interpretierbarkeitsmethoden auf das Chinchilla-Modell mit 70 Milliarden Parametern angewendet, die Ergebnisse waren gemischt.
Link zur Arbeit: https://arxiv.org/abs/2307.09458
Obwohl die Autoren eine Gruppe von Neuronen fanden, die mit einer bestimmten Aufgabe zusammenzuhängen schienen, dauerte dieser Prozess Monate, was die Nützlichkeit dieses Ansatzes zum Verständnis großer Modelle in Frage stellt.
Darüber hinaus verschlechterte sich die Leistung der identifizierten Knoten, wenn das Aufgabenformat leicht geändert wurde, was darauf hindeutet, dass sie nur eine Teilklärung lieferten und andere Teile des Modells ebenfalls beteiligt sein mussten.
Zurück auf den richtigen Weg
Diese „Bottom-up“, „vom Lokalen zum Ganzen“ mechanistische Interpretierbarkeitsforschung ist vielleicht von Grund auf falsch?
Schließlich kann ein MRT den Blutfluss im Gehirn erkennen und zeigen, welche Bereiche mit bestimmten Gedanken oder Aufgaben zusammenhängen, aber es kann die Gedanken einer Person nicht Neuron für Neuron verfolgen.
Dan Hendrycks (im Bild unten der Mann) und Laura Hiscott (im Bild unten die Frau) von der gemeinnützigen Organisation AI Frontiers sind der Meinung, dass die KI-Interpretierbarkeitsforschung auf höherer Ebene ansetzen sollte.
Forscher sollten Methoden aus anderen komplexen Systemen übernehmen, so wie Meteorologen, Biologen und Psychologen oft zuerst die übergeordneten Merkmale ihres Objekts untersuchen.
Wir sollten auch einen „Top-down“-Ansatz verfolgen, um die KI-Interpretierbarkeitsforschung voranzutreiben, anstatt einen „Bottom-up“-Ansatz, der von den zugrunde liegenden Mechanismen ausgeht.
Im Jahr 2001 veröffentlichte Leo Breiman eine wegweisende, aber damals höchst kontroverse Arbeit, in der er argumentierte, dass komplexe und undurchsichtige maschinelle Lernsysteme weitaus leistungsfähiger sind als ordentliche statistische Formeln.
Aus dieser Perspektive betrachtet, ist die mechanistische Interpretierbarkeit vielleicht eher eine Forschungsrichtung, die eine „rationale Ästhetik“ anspricht, als ein praktisches Feld mit breiten Aussichten.
Und das Beharren auf mechanistischer Interpretierbarkeit könnte bedeuten, dass man sich wünscht, dass Deep-Learning-Systeme im Wesentlichen ein „völlig anderes Aussehen“ annehmen.
Referenzen:
https://www.ai-frontiers.org/articles/the-misguided-quest-for-mechanistic-ai-interpretability
https://www.darioamodei.com/post/the-urgency-of-interpretability
https://www.alignmentforum.org/posts/4uXCAJNuPKtKBsi28/sae-progress-update-2-draft