Jeff Dean: KI wird Junior-Ingenieure innerhalb eines Jahres ersetzen, Netznutzer: "Altman redet nur, was Jeff sagt, ist tödlich"

Übersetzung | 核子可乐, Tina

Kürzlich hat der legendäre Google-Ingenieur Jeff Dean in einem Interview eine kühne Vorhersage gemacht: Innerhalb eines Jahres werden wir KI-Systeme haben, die 24/7 laufen und die Fähigkeiten eines „Junior-Ingenieurs“ besitzen.

Jeff Dean ist eine legendäre Figur in der modernen Computerwissenschaft und hat bei Google viele Durchbrüche in großskaligen verteilten Systemen und künstlicher Intelligenz vorangetrieben. Er ist nicht nur Mitbegründer des Google Brain-Projekts, sondern hat auch die Entstehung wichtiger Systeme wie MapReduce, Bigtable, Spanner und TensorFlow maßgeblich beeinflusst. Seit 2018 war er Leiter von Google AI und übernahm 2023 nach der Fusion von DeepMind und Google Brain die Rolle des Chief Scientist bei Google. Von der Beteiligung an der BERT-Publikation über die Leitung der TPU-Entwicklung bis hin zur Förderung der Entwicklung von Googles fundamentaler KI-Architektur hat Dean nahezu jeden entscheidenden Entwicklungspunkt im Bereich der KI bei Google miterlebt und persönlich gestaltet.

Als eine der einflussreichsten Persönlichkeiten in der Tech-Welt lösten Jeff Deans Äußerungen nach ihrer Veröffentlichung schnell lebhafte Diskussionen in der Branche aus. Obwohl zuvor auch viele Branchenkenner, darunter Sam Altman, ähnliche Ansichten geäußert hatten, wiegen Jeff Deans Worte deutlich schwerer. Wie ein Internetnutzer sagte: Im Vergleich zu Sam Altman, der ständig Konzepte „verkauft“, ist Jeff Dean eher ein bodenständiger Informatiker – jedes Wort, das er spricht, wirkt präziser und tiefgründiger und verdient unser ernsthaftes Zuhören und Nachdenken.

图片

图片

Obwohl die tatsächlichen Auswirkungen dieser Umwälzung auf den Arbeitsmarkt für Programmierer noch nicht spürbar sind, deuten viele Anzeichen darauf hin, dass die Softwareentwickler-Berufung in den nächsten Jahren eine tiefgreifende Neugestaltung erfahren wird. KI-Ingenieure können nicht nur „Code schreiben“, sondern verfügen auch über eine Kontinuität und Skalierbarkeit, die für menschliche Ingenieure unerreichbar ist, und dies ist vielleicht erst der Anfang.

Um Ihnen zu helfen, Jeff Deans Einschätzungen und Ansichten besser zu verstehen, haben wir auch das Interview übersetzt. Im Folgenden finden Sie den Originaltext (einige Fragen wurden lediglich zur besseren Lesbarkeit umgestellt):

Die Entwicklung der KI und die Industrielandschaft

Bill Coughran: Als Chief Scientist von Alphabet können wir unser Gespräch mit Jeff zu diesem Thema beginnen: Viele Freunde hier sind offensichtlich an KI interessiert und verfolgen ihre Entwicklung. Google hat viele der zugrunde liegenden Grundlagen geliefert, auf denen die Branche aufbaut, insbesondere die Transformer-Architektur. Wie sehen Sie die aktuelle Entwicklungsrichtung innerhalb von Google und in der gesamten KI-Industrie?

Jeff Dean: Ich denke, das Feld der KI hat sich schon lange entwickelt, es ist nur in den letzten drei bis vier Jahren wirklich ins öffentliche Bewusstsein gerückt. Tatsächlich haben die Leute schon um 2012, 2013 angefangen, diese damals scheinbar riesigen neuronalen Netze zu verwenden, um verschiedene interessante Probleme zu lösen. Dieselben Algorithmen waren für visuelle, Sprach- und Textaufgaben anwendbar. Das war eine bemerkenswerte Leistung und führte dazu, dass maschinelles Lernen allmählich die traditionellen, von Hand entwickelten Methoden als primären Ansatz zur Lösung dieser Probleme ablöste.

Und schon im Jahr 2012 haben wir uns auf eine Frage konzentriert: Wie kann man extrem große neuronale Netze skalieren und trainieren? Wir haben ein neuronales Netz trainiert, das 60 Mal größer war als andere Modelle zu dieser Zeit, unter Verwendung von 16.000 CPU-Kernen, da die Rechenzentren von Google zu dieser Zeit nur diese Hardware besaßen. Wir haben sehr gute Ergebnisse erzielt. Das überzeugte uns, dass das Skalieren dieser Methode tatsächlich funktioniert. Später traten immer mehr Beweise auf, und Hardwareverbesserungen halfen uns ebenfalls, unsere Skalierungsfähigkeiten zu verbessern, sodass wir größere Modelle trainieren und größere Datensätze verarbeiten konnten.

Wir hatten früher einen Slogan: "Größere Modelle, mehr Daten, bessere Ergebnisse." In den letzten 12 bis 15 Jahren hat sich das im Großen und Ganzen bewahrheitet. Was die zukünftigen Entwicklungsrichtungen betrifft, denke ich, dass die aktuellen Modelle einige sehr interessante Aufgaben erledigen können. Natürlich können sie nicht alle Probleme lösen, aber sie können jedes Jahr mehr und mehr Probleme lösen, weil die Modelle selbst sich ständig verbessern. Wir haben bessere Algorithmusverbesserungsmethoden, die es uns ermöglichen, größere Modelle mit den gleichen Rechenkosten zu trainieren und leistungsfähigere Fähigkeiten zu erwerben. Darüber hinaus haben wir Durchbrüche bei der Hardware erzielt, wobei die Rechenleistung pro Hardwareeinheit kontinuierlich zunimmt. Wir verfügen auch über Verstärkungslernen und Nachbearbeitungstechniken, um Modelle zu verbessern und sie so zu steuern, wie wir es erwarten. All das ist sehr aufregend. Ich denke, Multimodalität ist ebenfalls ein wichtiger Trend, bei dem die Eingabeformate Audio, Video, Bilder, Text oder Code sein können und die Ausgabe auch diese Formen umfassen kann. Kurz gesagt, KI wird immer nützlicher.

Bill Coughran: Die gesamte Branche ist derzeit sehr fasziniert von „Agenten“. Glauben Sie, dass diese Agenten wirklich nützlich sind? Google hat kürzlich ein Agenten-Framework veröffentlicht. Nicht speziell gegen Google gerichtet, aber ich habe immer das Gefühl, dass der derzeitige Hype um Agenten etwas theoretisch ist. Entschuldigung, ich bin vielleicht etwas direkt, wenn ich spreche…

Jeff Dean: Das ist in Ordnung. Ich denke, der Bereich der Agenten hat tatsächlich ein riesiges Potenzial, denn wir sehen, dass Agenten durch den richtigen Trainingsprozess letztendlich viele Aufgaben in einer virtuellen Computerumgebung erledigen können, die heute Menschen erfordern. Natürlich können sie derzeit nur einen Teil der Aufgaben erledigen, und es gibt viele, die sie nicht bewältigen können.

Der Weg zur Verbesserung ihrer Fähigkeiten ist jedoch relativ klar: Man kann mehr Reinforcement Learning durchführen, um Agenten aus Erfahrung lernen zu lassen. Tatsächlich konnten viele frühe Produkte die meisten Aufgaben nicht bewältigen, waren aber für die Benutzer dennoch sehr nützlich. Ich denke, ähnliche Fortschritte werden auch im Bereich der physischen Roboter-Agenten erzielt.

Heute stehen wir vielleicht kurz vor einem Wendepunkt: Roboter können sich in unübersichtlichen Umgebungen wie diesem Konferenzraum noch nicht gut zurechtfinden, aber wir sehen einen klaren Weg, auf dem sie in den nächsten Jahren in solchen Räumen Dutzende von tatsächlichen Aufgaben erledigen können sollten. Anfangs werden Roboterprodukte, die diese Aufgaben erledigen können, sicherlich teuer sein. Aber dann wird durch Erfahrungslernen ihre Kosten optimiert, sie werden ein Zehntel des ursprünglichen Preises kosten und gleichzeitig Tausende von Aufgaben erledigen können. Dies wird die Kostenoptimierung und die technologischen Fähigkeiten weiter vorantreiben. Daher ist die Entwicklung von Agenten insgesamt sehr aufregend.

Bill Coughran: Das stimmt, nur können wir im Moment noch nicht zu viel verlangen. Eine weitere Frage, die oft aufkommt, ist der aktuelle Stand der Entwicklung großer Modelle. Offensichtlich verfügt Google über Gemini 2.5 Pro und das Deep Research-Projekt, und auch OpenAI und andere Unternehmen sind daran beteiligt. Die Diskussionen über die Anzahl und Entwicklungsrichtung von Open-Source- und Closed-Source-Sprachmodellen in der Branche haben nie aufgehört. Was denken Sie dazu? Google hat in diesem Bereich sicherlich eine starke Position und möchte weiterhin dominieren, aber wie sehen Sie die Veränderungen in der Gesamtlandschaft?

Jeff Dean: Ich denke, der Aufbau der fortschrittlichsten Modelle erfordert viel Investition. Daher wird es auf dem Markt nicht Dutzende oder Hunderte solcher Modelle geben; letztendlich werden vielleicht nur wenige übrig bleiben. Sobald man diese leistungsstarken Modelle hat, kann man Techniken wie Wissensdestillation nutzen, um leichtere Modelle zu erzeugen, die für mehr Szenarien geeignet sind.

Ich war einmal Mitautor dieser Technologie, aber NeurIPS lehnte unsere Arbeit 2014 ab, da sie als unwahrscheinlich angesehen wurde, eine Wirkung zu erzielen.

Ich habe gehört, dass DeepSeek möglicherweise von dieser Technologie profitiert hat. Kurz gesagt, dies ist eine sehr praktische Technologie: Wenn man ein stärkeres Modell hat,

Bill Coughran: Eine kurze Frage. Nutzen Sie "Ambient Programming"?

Jeff Dean: Ich habe es tatsächlich ein bisschen ausprobiert, und es hat überraschend gut funktioniert.

Wir haben bei der Arbeit ziemlich viele Demo-Chaträume, und sogar die Kommunikation für das gesamte Gemini-Projekt findet so ziemlich in Chaträumen statt. Ich bin in ungefähr 200 Chaträumen, und jeden Morgen, wenn ich aufwache und mir die Zähne putze, bekomme ich ungefähr 9 Benachrichtigungen, weil meine Londoner Kollegen schon beschäftigt sind.

Wir haben eine wirklich coole Demo: Sie können ein lehrreiches YouTube-Video hochladen und dann den Prompt eingeben: „Bitte erstellen Sie basierend auf diesem Video ein Lernspiel mit Grafiken und interaktiven Elementen.“ Obwohl es nicht immer gelingt, besteht eine Chance von etwa 30 %, dass es tatsächlich interessante Inhalte generiert, z. B. ein Spiel über Differentialgleichungen, eine Reise zum Mars oder Themen rund um Zellen. Das ist ein riesiges Signal für die Bildung.

Die Werkzeuge, die wir jetzt haben, und die Werkzeuge, die wir in den nächsten Jahren haben werden, haben wirklich die Chance, die Welt auf positive Weise zu verändern. Wir sollten uns daran erinnern, dass dies unser Ziel ist.

Zuschauer: Ich bin sehr neugierig auf Ihre Meinung zur Zukunft der Suche, insbesondere angesichts der hohen Popularität von Chrome. Chrome verfügt bereits über Zahlungs- und Web-Signatur-Zugangsdaten usw. Haben Sie in Betracht gezogen, Gemini direkt in Chrome zu integrieren, sodass Chrome-Anwendungen zu Gemini-Anwendungen werden und nicht mehr separate Anwendungen sind? Ich sage das, weil ich ein offizieller Google-Mitarbeiter bin, also denken Sie bitte sorgfältig nach, bevor Sie antworten.

Jeff Dean: Ja, ich denke, aus dem Kernmodell von Gemini oder anderen Modellen können viele interessante nachgelagerte Anwendungen abgeleitet werden. Eine davon ist, dass es Ihnen hilft, Aufgaben zu erledigen, indem es Ihre Aktionen im Browser oder auf Ihrem Desktop-Computer beobachtet, wie z. B. OCR für Tabs durchzuführen oder auf den Inhalt der Original-Tabs zuzugreifen.

Das scheint sehr nützlich zu sein. Wir haben in diesem Bereich bereits einige erste Ergebnisse erzielt und öffentliche Demos in Videoform veröffentlicht, wie z. B. Projekte wie den KI-Assistenten Mariner. Die spezifischen Ergebnisse bleiben abzuwarten.

Zuschauer: Sie haben zuvor erwähnt, dass wahrscheinlich nur wenige Akteure bei den Fundamentmodellen übrig bleiben werden, hauptsächlich aufgrund der hohen Infrastrukturkosten und des Investitionsvolumens, das zur Aufrechterhaltung der Spitzentechnologie erforderlich ist. Wohin, glauben Sie, wird die Entwicklung letztendlich gehen, wenn sich dieser Wettbewerb an der Spitze entfaltet? Wird einfach der gewinnen, der am meisten Geld ausgibt und den größten Cluster baut? Oder wird es darum gehen, die einheitliche Speicheroptimierung und die vorhandenen Ressourcen besser zu nutzen? Oder wird es letztendlich von der Benutzererfahrung abhängen? Wohin führt dieses Wettrüsten? Ist es so, dass derjenige gewinnt, der zuerst das Skynet-Level erreicht?

Jeff Dean: Ich denke, der Sieger wird sowohl durch exzellente Algorithmusarbeit als auch durch herausragende Hardware- und Infrastrukturergebnisse bestimmt. Man kann nicht einfach sagen, dass das eine wichtiger ist als das andere, denn in der Generationsentwicklung unserer Gemini-Modelle haben wir gesehen, dass die Bedeutung von Algorithmusverbesserungen mit der Bedeutung von Hardwareverbesserungen oder der Investition in mehr Rechenressourcen vergleichbar oder sogar höher ist.

Aus Produktsicht steckt dieser Bereich jedoch noch in den Anfängen. Ich glaube nicht, dass wir bereits das Killerprodukt gefunden haben, das Milliarden von Menschen täglich nutzen werden. Es könnte eine Anwendung im Bildungsbereich sein oder ein Informationsabfrage-Tool ähnlich einer Suchmaschine, das aber die Vorteile großer multimodaler Modelle voll ausschöpft. Ich denke, es ist am wichtigsten, den Menschen zu helfen, Aufgaben in ihren jeweiligen Arbeitsumgebungen zu erledigen. Wie werden diese Ideen also in konkrete Produktformen umgesetzt? Wie soll ich zum Beispiel ein Team von 50 virtuellen Agenten verwalten? Die meisten davon werden Aufgaben korrekt ausführen, aber gelegentlich müssen sie mich um Rat fragen. Ich muss ihnen eine gewisse Anleitung geben. Das ist, als würde man überlegen, wie man 50 virtuelle Praktikanten verwaltet. Das wird ein komplexes Problem sein.

Zuschauer: Ich denke, Sie sind wahrscheinlich die geeignetste Person auf der Welt, um diese Frage zu beantworten: Wie weit sind wir Ihrer Meinung nach davon entfernt, eine KI zu haben, die 24 Stunden am Tag, 7 Tage die Woche arbeiten kann und das Niveau eines Junior-Ingenieurs hat?

Jeff Dean: Ich glaube, das ist näher, als die Leute denken.

Bill Coughran: Genauer gesagt? Sechs Wochen oder sechs Jahre?

Jeff Dean: Ich behaupte, das ist wahrscheinlich in den nächsten ein bis zwei Jahren möglich. (I will claim that's probably possible in the next yearish).

Zuschauer: Kehren wir zum Thema „KI auf Junior-Ingenieur-Niveau innerhalb eines Jahres“ zurück. Ich möchte wissen, welche Durchbrüche wir erreichen müssen, um dieses Ziel zu verwirklichen. Offensichtlich wird sich die Code-Generierungsfähigkeit weiter verbessern, aber was wird Ihrer Meinung nach darüber hinaus noch benötigt? Ist es die Fähigkeit zur Werkzeugnutzung? Oder die Fähigkeit zur Agentenplanung?

Jeff Dean: Ich denke, die Fähigkeiten, die ein virtueller Ingenieur benötigt, gehen weit über das Schreiben von Code in einer IDE hinaus. Er muss auch wissen, wie man Tests durchführt, Leistungsprobleme debuggt und so weiter. Wir wissen, wie menschliche Ingenieure das machen: Sie müssen lernen, verschiedene Werkzeuge für Aufgaben zu nutzen, Weisheit von erfahreneren Ingenieuren sammeln oder viel Dokumentation lesen. Ich denke, virtuelle Junior-Ingenieure werden am besten darin sein, Dokumentation zu lesen und in einer virtuellen Umgebung ständig Dinge auszuprobieren. Dies scheint eine Möglichkeit zu sein, ihre Fähigkeiten zu verbessern. Wie weit sie gehen können, weiß ich nicht, aber ich glaube, dies ist ein sehr vielversprechender Weg.

Die wichtige Rolle der Hardware in der KI

Bill Coughran: Das macht Sinn. Ein weiterer auffälliger Trend ist die Entwicklung der Hardware. Meiner Meinung nach entwickeln die großen Unternehmen ihre eigene Hardware. Google hat seinen TPU-Plan sehr früh öffentlich gemacht, und Amazon hat auch eine eigene Lösung. Es wird gemunkelt, dass Meta und OpenAI ihre eigenen Chips entwickeln. Aber derzeit scheint es, als ob in der Branche nur Nvidia zu hören ist, obwohl das in Ihren Google-Büros sicherlich nicht der Fall ist. Was denken Sie über dieses Problem? Wie wichtig ist spezialisierte Hardware für diese Aufgaben?

Jeff Dean: Offensichtlich ist Hardware, die auf die Berechnung für Aufgaben wie maschinelles Lernen spezialisiert ist, sehr wichtig. Ich nenne sie gerne „Linearalgebra-Beschleuniger mit geringerer Präzision“. Jede Hardwaregeneration muss leistungsfähiger werden und über ultraschnelle Netzwerke massiv miteinander verbunden sein, um die Rechenanforderungen des Modells auf so viele Rechengeräte wie möglich zu verteilen. Das ist entscheidend. Ich erinnere mich, dass ich 2013 geholfen habe, das TPU-Projekt zu starten, weil wir damals eindeutig viel Inferenz-Rechenleistung benötigten – das war die erste Generation. Die zweite Generation von TPU (TPUv2) befasste sich sowohl mit Inferenz als auch mit Training, weil wir den Bedarf dafür sahen. Die Version, die wir jetzt verwenden, ist nicht mehr nummeriert, weil es zu mühsam ist. Wir führen gerade Ironwood ein, als Nachfolger der vorherigen Version, Trillium.

Bill Coughran: Der Name klingt nach Intel-Chips; die liefen wohl nicht besonders gut… Entschuldigen Sie, ich schweife vielleicht ab, lassen Sie uns über etwas anderes sprechen. Ich habe viele befreundete Physiker, die etwas überrascht waren, dass Geoffrey Hinton und seine Kollegen den Nobelpreis für Physik gewonnen haben. Was halten Sie davon? Einige Physiker, die ich kenne, waren sogar unzufrieden, dass Nicht-Physiker den Nobelpreis gewonnen haben. Wie weit, glauben Sie, wird die KI letztendlich in verschiedenen Bereichen gehen?

Jeff Dean: Ich denke, sehr weit. Dieses Jahr haben auch meine Kollegen Demis und John Jumper den Nobelpreis gewonnen. Ich denke, das zeigt, dass KI viele wissenschaftliche Bereiche beeinflusst. Denn grundsätzlich ist die Fähigkeit, aus interessanten Daten zu lernen, eine wichtige Frage in vielen wissenschaftlichen Bereichen, nämlich das Entdecken von Zusammenhängen zwischen Dingen und deren Verständnis. Wenn KI dabei helfen kann, wäre das großartig. Schließlich stoßen wir in vielen wissenschaftlichen Bereichen oft auf extrem teure computergestützte Simulationsszenarien, wie Wettervorhersagen, Fluiddynamik oder Quantenchemie-Simulationen.

Der aktuelle Ansatz besteht darin, diese Simulationsszenarien als Trainingsdaten zu verwenden und ein neuronales Netzwerk zu trainieren, um die Funktion des Simulators zu approximieren, aber die Geschwindigkeit kann um das 300.000-fache erhöht werden. Dies hat die Art und Weise, wie wir wissenschaftliche Forschung betreiben, vollständig verändert. Plötzlich kann ich in der Zeit, die ich für eine Mahlzeit benötige, Zehntausende von Millionen Molekülen durchsuchen; im Gegensatz dazu musste ich zuvor ein ganzes Jahr lang mit schrecklichen Rechenressourcen arbeiten, um dies zu erledigen. Dies verändert grundlegend unseren wissenschaftlichen Forschungsprozess und wird die Geschwindigkeit der wissenschaftlichen Entdeckung beschleunigen.

Bill Coughran: Ich möchte schnell auf Geoffrey Hintons Situation eingehen. Er hat Google wegen seiner Forschung über die Unterschiede zwischen digitaler und analoger Berechnung bei Schlussfolgerung und Lernen verlassen. Ich möchte wissen, ob zukünftige Inferenz-Hardware in Richtung analog gehen wird?

Jeff Dean: Das ist durchaus möglich. Analoge Berechnungen haben Vorteile bei der Energieeffizienz. Ich glaube auch, dass es noch viel Raum für Spezialisierung bei digitalen Berechnungen für die Inferenz gibt. Im Allgemeinen sind digitale Systeme einfacher zu bedienen. Aber ich denke, die allgemeine Richtung lautet: Wie können wir die Effizienz von Inferenz-Hardware um Zehnerpotenzen gegenüber dem heutigen Niveau steigern – zehn-, zwanzig- oder sogar fünfzigtausendmal? Wenn wir entschlossen sind, dies zu tun, ist das durchaus möglich. Tatsächlich investiere ich selbst Zeit in die Erforschung dieser Frage.

Zuschauer: Hallo, ich möchte Sie nach der Beziehung zwischen Entwicklererfahrung und Hardware fragen. Ich denke, die TPU-Hardware ist ausgezeichnet, aber es gibt in der Community die Ansicht, dass CUDA oder andere Technologien einfacher zu verwenden sind als TPUs. Was denken Sie darüber? Ist das etwas, worüber Sie nachgedacht haben? Haben Sie viele wütende Beschwerde-E-Mails erhalten?

Jeff Dean: Darüber habe ich nachgedacht. Obwohl ich selten direkt mit Cloud TPU-Kundeninteragiere, besteht zweifellos viel Verbesserungspotenzial bei der Benutzererfahrung.

2018 haben wir mit der Entwicklung eines Systems namens Pathways begonnen, dessen Designziel es war, uns die Verwendung verschiedener Rechengeräte zu ermöglichen und eine gute Abstraktionsschicht bereitzustellen. In diesem System wird die Zuordnung virtueller Geräte zu physischen Geräten vom zugrunde liegenden Laufzeitsystem verwaltet. Wir unterstützen PyTorch und Jax.

Wir verwenden intern hauptsächlich Jax, aber wir haben einen einzigen Jax Python-Prozess geschrieben, der so aussieht, als würde er Zehntausende von Geräten ansprechen. Sie können Code wie ein ML-Forscher schreiben und ihn dann ausführen. Sie können mit vier, acht, sechzehn oder vierundsechzig Geräten prototypisieren und dann einfach eine Konstante ändern, um zum Pathways-Backend zu wechseln, das Tausende oder Zehntausende von Chips unterstützt, und weiterarbeiten. Die Erfahrung ist sehr gut.

Unser größtes Gemini-Modell wird von einem einzigen Python-Prozess gesteuert, der Zehntausende von Chips verwendet, und es funktioniert sehr gut. Diese Art von Entwicklererfahrung ist ideal.

Was ich sagen möchte, ist, dass wir diese Funktionalität zuvor Cloud-Kunden nicht zugänglich gemacht hatten, aber wir haben gerade auf der Cloud Next angekündigt, dass Pathways für Cloud-Kunden verfügbar sein wird. Auf diese Weise können alle die wunderbare Erfahrung genießen, Tausende von Geräten mit einem einzigen Python-Prozess zu steuern. Ich stimme zu, dass dies viel besser ist, als 256 Chips auf 64 Prozessoren direkt zu verwalten.

Zuschauer: Ich benutze die Gemini API sehr gerne. Es wäre noch besser, wenn ich einen einzigen API-Schlüssel anstelle der Google Cloud-Zugangsdaten verwenden könnte. Haben Sie Pläne, den Google Cloud- und Gemini-Stack mit dem Gemini-Projekt zu vereinheitlichen? Letzteres ist derzeit eher eine Testversion.

Jeff Dean: Ich glaube, in dieser Hinsicht werden einige Vereinfachungsmaßnahmen in Betracht gezogen. Dies ist ein bekanntes Problem, und ich persönlich verbringe nicht viel Zeit damit, aber ich weiß, dass Logan und andere Mitglieder des Entwicklerteams sich dieses Reibungspunkts bewusst sind. Wir möchten, dass die Benutzer unsere Tools reibungslos nutzen können.

Es wird in Betracht gezogen, und entsprechende Vereinfachungsmaßnahmen sind ebenfalls im Gange. Wir sind uns alle dieses Problems bewusst, und obwohl ich persönlich nicht viel Zeit mit dieser Angelegenheit verbringe, weiß ich, dass andere Mitglieder des Google-Entwicklerteams diesen Schwachpunkt erkannt haben und hoffen, dass Benutzer unsere Tools nahtloser nutzen können.

Zuschauer: Dies ist eine interessante Zeit im Computerwesen. Das Mooresche Gesetz und die Dennard-Skalierung sind nicht mehr effektiv, während die Skalierung der KI weiterhin rasant wächst. Sie befinden sich in einer einzigartigen Position, um die Entwicklung dieser Supercomputer und Infrastruktur voranzutreiben. Noch wichtiger ist, dass Sie eine einzigartige Fähigkeit besitzen: das Verständnis dafür, wie Workloads auf diese Systeme abgebildet werden. Was glauben Sie also, wie die Zukunft des Computings aussehen wird? Aus theoretischer Sicht, in welche Richtung wird sich die Computerinfrastruktur entwickeln?

Jeff Dean: Ich denke, ein offensichtlicher Punkt ist, dass sich die Art der Berechnung, die wir auf Computern ausführen wollen, in den letzten fünf bis zehn Jahren erheblich verändert hat. Zuerst war es nur eine kleine Welle, aber jetzt ist es eine tosende Flut. Wir wollen neuronale Netze im Ultragroßmaßstab mit extrem hoher Leistung und sehr geringem Stromverbrauch ausführen, und wir wollen das Training auf die gleiche Weise durchführen.

Training und Inferenz sind zwei völlig unterschiedliche Workloads. Daher halte ich es für sinnvoll, sie zu unterscheiden, und Sie benötigen möglicherweise unterschiedliche oder zumindest leicht unterschiedliche Lösungen für diese beiden Aufgaben. Ich denke, alle Computing-Plattformen werden sich an diese neue Realität anpassen, nämlich dass ihre Hauptaufgabe darin besteht, extrem leistungsfähige Modelle auszuführen. Einige dieser Anwendungen werden in Umgebungen mit geringem Stromverbrauch ausgeführt, z. B. auf den Handys aller.

Wir alle hoffen, dass unsere Handys Modelle mit vielen Parametern extrem schnell ausführen können, sodass sie beim Gespräch mit dem Telefon schnell reagieren und uns bei der Erledigung verschiedener Aufgaben helfen können. Wir werden diese Modelle auch in Robotern und autonomen Fahrzeugen ausführen. Bis zu einem gewissen Grad haben wir dies bereits erreicht, aber bessere Hardware wird den Bau dieser Systeme erleichtern und auch realweltliche verkörperte Agenten leistungsfähiger machen. Gleichzeitig hoffen wir auch, diese Modelle im Ultragroßmaßstab in Rechenzentren auszuführen. Darüber hinaus benötigen wir für einige Probleme viele Inferenz-Rechenressourcen, während wir für andere nicht.

Kurz gesagt, wir müssen ein Gleichgewicht finden: Für einige Probleme sollten Sie zehntausendmal mehr Rechenressourcen investieren als für gewöhnliche Probleme, damit Ihr Modell leistungsfähiger wird, genauere Antworten liefert oder Aufgaben erledigen kann, die mit geringem Rechenaufwand nicht möglich wären. Gleichzeitig sollten wir jedoch nicht so viele Ressourcen in alle Probleme investieren. Wie kann das System also unter Ressourceneinschränkungen gut funktionieren? Ich denke, dies sollte das Ergebnis des Zusammenwirkens von Hardware, Systemsoftware, Modellen und algorithmischen Techniken (wie Wissensdestillation) sein, die alle dazu beitragen können, leistungsfähige Modelle mit begrenzten Rechenressourcen zu erreichen.

Bill Coughran: Eine Sache, die mir aufgefallen ist, ist, dass die traditionelle Informatik bei der Untersuchung von Algorithmen und rechnerischer Komplexität auf der Zählung von Operationen basierte. Mit der erneuten Betonung von Hardware- und Systemdesign-Details stelle ich einen neuen Trend fest: Wir müssen Faktoren wie Netzwerkbandbreite, Speicherbandbreite usw. neu überdenken. Daher denke ich, dass die traditionelle algorithmische Analyse vollständig neu geschrieben werden muss, da die tatsächlichen Berechnungsmuster völlig anders sind.

Jeff Dean: Mein Mitbewohner im Aufbaustudium hat seine Abschlussarbeit über Cache-Aware-Algorithmen geschrieben, weil die O-Notation nicht berücksichtigte, dass einige Operationen 100 Mal langsamer sein könnten als andere. Das stimmt. In der modernen Berechnung des maschinellen Lernens achten wir sehr auf winzige Unterschiede bei der Datenübertragung – zum Beispiel kann der Energieverbrauch für die Übertragung von Daten vom SRAM zum Akkumulator ein winziges Picojoule betragen, aber das ist bereits viel höher als der Energieverbrauch der eigentlichen Berechnung. Daher ist es heute sehr wichtig, das Konzept von „Picojoule“ zu verstehen.

Zuschauer: Sie haben über die Skalierung des Vortrainings und die aktuelle Skalierung des Reinforcement Learnings gesprochen. Wie sehen Sie die zukünftige Entwicklung dieser Modelle? Wird es weiterhin ein einziges Modell geben, das alle Rechenressourcen belegt, oder werden mehrere kleine Modelle, die aus großen Modellen destilliert wurden, zusammenarbeiten? Wie sehen Sie die zukünftige Landschaft der KI-Modelle?

Jeff Dean: Ich war schon immer optimistisch in Bezug auf dünnbesetzte Modelle, also Strukturen mit unterschiedlichem Fachwissen in verschiedenen Teilen des Modells. Dies lehnt sich an unser grobes Verständnis des biologischen Gehirns an, und gerade diese Struktur des menschlichen Gehirns ermöglicht es uns, viele Dinge mit nur 20 Watt Leistung zu erreichen. Wenn wir beim Rückwärtsfahren Angst haben, einen Müllwagen zu treffen, wird das Shakespeare-Gedichtmodul in unserem Kopf nicht aktiv.

Wir haben frühe Arbeiten an Mixture-of-Experts-Modellen durchgeführt, die 2 bis 48 Experten verwendeten, und festgestellt, dass dieses Modell erhebliche Effizienzsteigerungen mit sich bringen kann. Zum Beispiel verbesserte sich bei gleichen Trainings-FLOPs die Modellqualität um das 10- bis 100-fache. Das ist sehr wichtig.

Ich glaube jedoch, dass wir dieses Feld noch nicht ausreichend erforscht haben, da die derzeit verwendeten Dünnheitsmuster zu regelmäßig sind. Idealerweise möchte ich, dass bestimmte Pfade im Modell Rechenkosten haben, die hunderte oder sogar tausende Male höher sind als andere Pfade; gleichzeitig möchte ich, dass einige Teile des Modells sehr wenig Rechenaufwand haben, während andere Teile sehr groß sind. Vielleicht sollte auch ihre Struktur unterschiedlich sein.

Ich möchte auch, dass Modelle sich dynamisch erweitern können, indem sie neue Parameter oder neue räumliche Segmente hinzufügen; vielleicht können wir durch den Destillationsprozess einige Teile komprimieren, sodass sie auf ein Viertel ihrer ursprünglichen Größe schrumpfen. Dann kann der Hintergrund, ähnlich wie ein Garbage-Collection-Mechanismus, diesen Teil des Speichers freigeben und ihn an andere nützlichere Stellen verteilen. Für mich hat dieses organischere, kontinuierlichere Lernsystem mehr Potenzial als die starren Modelle, die wir heute haben. Die einzige Herausforderung besteht darin, dass unsere aktuellen Methoden sehr effektiv sind, so dass es schwierig ist, die bestehenden Methoden vollständig zu ändern, um dieses neue Muster zu implementieren. Aber ich bin fest davon überzeugt, dass dieses Muster enorme Vorteile gegenüber unserer derzeitigen starren Modellstruktur hat.

Veranstaltungsempfehlung

Die AICon 2025 kommt stark, mit Veranstaltungen in Shanghai im Mai und Peking im Juni, eine Doppelstadt-联动, die die Spitzentechnologie der KI und ihre Implementierung in der Industrie zeigt. Die Konferenz konzentriert sich auf die tiefe Integration von Technologie und Anwendungen und behandelt Themen wie KI-Agenten, Multimodalität, Szenarioanwendungen, Innovationen bei der Architektur großer Modelle, intelligente Dateninfrastruktur, KI-Produktdesign und globale Expansionsstrategien. Scannen Sie jetzt den QR-Code, um Tickets zu kaufen und gemeinsam die Grenzen der KI-Anwendungen zu erkunden!

图片

Hauptkategorie:Künstliche Intelligenz

Unterkategorien:SoftwareentwicklungKI-HardwareGoogleGroße Sprachmodelle


Vorheriger:Was ist der Unterschied zwischen AI Agents und Agentic AI?

Nächster:ZeroSearch: <Alibaba-Technologie> Große Sprachmodelle Lernen durch Selbstbelohnung Ohne Browser

Kurz-URL teilen