Ant Group Wu Wei: Eine große Vermutung über das Paradigma des 'Argumentations'-Modells der nächsten Generation

Bild

Autor丨Chen Caixian

Nach R1 hat sich die lange Gedankenkette zu einer heißen Forschungsrichtung für die "Argumentations"-Fähigkeit (Reasoning) in der nächsten Generation von Basismodellen entwickelt. Einerseits bewies R1 die Machbarkeit von tiefem Denken bei großen Modellen; gleichzeitig, obwohl R1 starke Leistungen zeigte, hat der Vorhang für das Argumentieren großer Modelle eigentlich gerade erst begonnen.

Darüber hinaus hat R1, indem es im Ausland für Aufsehen sorgte, auch einen signifikanten Einfluss auf die Forschung im Bereich der künstlichen Intelligenz in China gehabt: Immer mehr Forscher wagen es, aus einer höheren Perspektive zu denken und zukunftsweisende technische Ideen vorzuschlagen. Wu Weis Gedanken über die Argumentation, Leiter der Abteilung für natürliche Sprachverarbeitung am Ant Technology Research Institute, sind ein typisches Beispiel dafür.

Wu Wei schloss sein Bachelor- und Doktoratsstudium an der Fakultät für Mathematikwissenschaften der Universität Peking ab. Nach Erhalt eines Microsoft Scholar-Stipendiums im Jahr 2011 trat er 2012 in Microsoft Research Asia ein und war dort als leitender Forscher und Chief Scientist von Microsoft XiaoIce tätig. Bevor er zu Ant wechselte, war er auch Leiter des NLP-Zentrums bei Meituan.

Hinsichtlich der Argumentation von Modellen hat Wu Wei, ausgehend von der Mathematik, viele Meinungen vorgebracht, die sich von den aktuellen Mainstreams der Branche unterscheiden.

Tatsächlich hatten Wu Wei und sein Team bereits in der zweiten Hälfte des Jahres 2023, lange bevor OpenAI o1 veröffentlichte, mit der Untersuchung des Problems des Argumentierens großer Modelle begonnen. Wu Wei wies darauf hin, dass das Implementierungsergebnis von R1 aufregend ist, aber gleichzeitig bewertete er, dass die Argumentation mit langer Gedankenkette möglicherweise nicht optimal ist, "weil die Dimension solcher Modelle zu hoch und die Energie zu hoch ist, was zu instabilem Verhalten führt."

Tatsächlich zeigen zahlreiche Phänomene in Physik und Chemie, dass die Struktur mit der geringsten Energie am stabilsten ist. Daher vermutet Wu Wei, dass zukünftige Argumentationsmodelle niedrigere Dimensionen und stabilere künstliche Intelligenzsysteme sein könnten. Wenn die lange Gedankenkette System 2 ist, zeigen einige Studien, dass im alltäglichen Denken des Menschen oft das System 1 dominiert, das weniger Energie verbraucht.

Darüber hinaus zeigen die aktuellen Mainstream-Argumentationsmodelle das Phänomen, dass die Argumentationsergebnisse korrekt sind, aber der Argumentationsprozess Fehler aufweist. Bei der Implementierung der langen Gedankenkette steigen auch die Kosten für die Fehlerkorrektur. Am Beispiel der Mathematik wies Wu Wei darauf hin: Wenn sich das Argumentationsmodell dem Ende nähert, ist der Denkprozess vielleicht wichtiger als das Ergebnis; im Vergleich zur Lösung eines Problems ist es wertvoller, wenn das Modell während des Denkens neues Wissen entdeckt (z.B. einen neuen Beweis für ein klassisches mathematisches Problem) – daran zeigt sich das große Potenzial des tiefen Denkens.

Wie ein Argumentationsmodell entworfen werden kann, das System 1 und System 2 oder schnelles und langsames Denken effizient kombiniert, ist eine wichtige nächste Richtung für große Modelle geworden. Wu Wei glaubt, dass, ausgehend von der Mathematik, ein elegantes mathematisches Modell zur Beschreibung der Denkweise künstlicher Intelligenz vielleicht die ultimative Lösung ist; oder, Selbstkonsistenz ist das endgültige Ziel aller Argumentationssysteme.

Es folgt das Gespräch zwischen AI Tech Review und Wu Wei:

Bild

Link zum Artikel: https://arxiv.org/pdf/1102.1808

AI Tech Review: In der Branche gibt es jetzt verschiedene Definitionen von "Argumentation", und einige Meinungen verwechseln Reasoning mit Inference.

Wu Wei: Ja. Nach den von mir gelesenen Literaturquellen lässt sich die Definition von "Argumentation" bis ins Jahr 2011 zurückverfolgen. In diesem Jahr schrieb der Guru des maschinellen Lernens, Leon Bottou, einen Artikel mit dem Titel "From Machine Learning to Machine Reasoning". Damals gab es in der Branche noch keine klare Definition von "Reasoning", und Leon Bottou sagte in diesem Artikel, dass er "Reasoning" (Argumentation) als "algebraische Manipulation von bestehendem Wissen zur Lösung neuer Probleme" betrachte.

Bild

Das Verständnis von System 1 und System 2 hat im Wesentlichen einen Konsens erreicht. Die Eigenschaft von System 1 ist, dass es schnell, spontan und ohne Aufwand ist. System 2 besteht darin, Aufmerksamkeit auf Verhaltens- und psychische Aktivitäten zu lenken, die viel Anstrengung erfordern. Dies ist der Unterschied zwischen schnell und langsam nach Ansicht des Autors Daniel Kahneman. Was ich in diesem Buch jedoch interessanter finde, ist, dass der Autor schrieb, wie schnelles und langsames Denken koordiniert werden können.

Der erste Punkt ist, dass das Buch erwähnt, dass im täglichen Denkprozess des Menschen tatsächlich die meiste Zeit das schnelle Denken von System 1 dominiert.

Schnelles Denken erzeugt sehr viele und komplexe Ideenmuster und leitet diese an System 2 weiter. In den meisten Fällen akzeptiert System 2 sie gedankenlos, anstatt jede Idee zu überprüfen. Daher ist das alltägliche Denken meist das Ergebnis von System 1, und System 2 ist träge und überprüft und denkt nur in Einzelfällen nach. Gleichzeitig macht System 1 viele Fehler, weil es schnell denkt, und kann sogar tiefere Einsichten für diesen Fehler liefern.

Warum gibt es Fehler? Warum haben die heutigen großen Modelle Halluzinationen? Ich denke, das kann als Erklärung für die Halluzinationen großer Modelle dienen. Vereinfacht gesagt, liegt es daran, dass die Energie minimal ist, weil System 1 "kognitive Leichtigkeit" (Cognitive Ease) anstrebt – wenn ich diese Informationen mit meinem Wissen integriere, reicht es aus, wenn es schlüssig und in sich stimmig ist. Ob es falsch ist, kümmert System 1 nicht.

Das ist, was System 1 gerne tut, und es verbraucht tatsächlich wenig Energie. Und weil System 2 relativ träge ist und selten überprüft, werden diese Ergebnisse verfestigt. Schließlich häufen sich diese Art von Fehlern immer mehr an. Die Wurzel dieses Fehlers liegt in kognitiver Trägheit oder Einfachheit, was schwer zu vermeiden ist. Aber der interessante Punkt ist, dass der Autor sagt: Wenn man Fehler nicht vermeiden kann, was soll man dann tun? Er sagt, der beste Weg sei, so weit wie möglich herauszufinden, in welchen Situationen man leicht Fehler macht, und dann so viel wie möglich über diese Hochrisikosituationen nachzudenken.

Am Ende schlug der Autor keine Lösung dafür vor, wie Hochrisikosituationen entdeckt werden können. Er glaubt, dass der Mensch in vielen Situationen am Ende in einer in sich stimmigen Welt lebt, auch wenn es Fehler gibt, solange es in sich stimmig ist.

Zurück zu den großen Modellen. Wenn man Daniel Kahnemans Aussage heranzieht, sollten große Modelle langes und kurzes Argumentieren kombinieren können. Es kann ein Modell sein oder zwei Modelle. Entscheidend ist, wie die beiden Modelle oder Systeme koordiniert werden. Derzeit gibt es in der Branche noch keinen besonders eleganten Weg, und der elegantere Weg sollte die automatische Zuweisung der beiden Modi sein.

AI Tech Review: Sie haben das Kernproblem angesprochen, nämlich wie System 1 und System 2 kombiniert werden können. Kann dies mit einer einzigen Transformer-Architektur erreicht werden? Es scheint, dass es auch hier noch keinen Konsens gibt.

Wu Wei: Ich denke, es gibt noch kein sehr gutes Modell oder keine sehr gute Gleichung (Formel) zur Lösung dieses Problems, daher versuchen alle noch etwas. Zum Beispiel, Daten mit langer und kurzer Gedankenkette zu mischen, um SFT durchzuführen, das könnte eine Lösung sein. Oder eine Längenbelohnung (Reward) im Reinforcement Learning zu geben.

Sie haben jedoch noch kein Modell, um schnelles und langsames Denken oder die Zusammenarbeit zwischen System 1 und System 2 zu beschreiben.

Ich denke, letztendlich muss es ein Modell geben, am besten ein mathematisches Modell, um die Denkweise künstlicher Intelligenz zu beschreiben. Meine Vermutung ist, dass dieses Modell höchstwahrscheinlich in einem niedrigdimensionalen Raum liegt und durch die Optimierung der minimalen Energie realisiert wird.

AI Tech Review: Aus welchen Blickwinkeln planen Sie als Nächstes, die Argumentationsprobleme von Modellen weiter zu untersuchen?

Wu Wei: Neben der Autoregression betrachten wir auch hierarchische Strukturen wie zuerst planen, dann argumentieren.

Zum Beispiel, wenn Ihnen die Aufgabe übertragen wird, einen Plan für eine Benutzerumfrage zu erstellen, greifen Sie dann sofort zum Stift und beginnen zu schreiben? Nein. Unter normalen Umständen haben Sie zuerst einen Entwurf im Kopf, einen abstrakten Plan, und setzen dann jeden Schritt um. Sie können diesen abstrakten Plan als eine niedrigdimensionale Darstellung des gesamten Argumentationsprozesses betrachten. Unter dieser niedrigen Dimension sage ich dann, wie ich ihn entfalte, um eine hochdimensionale Ausführung zu werden. Auch das ist ein Argumentationsparadigma.

Tatsächlich sagt Yann LeCun in jedem Interview, dass Planung und Argumentation sehr wichtig sind. Gleichzeitig sagt er jedoch, dass er der Meinung ist, dass die aktuellen Argumentationsmodelle nicht ganz richtig erscheinen, weil sie zu einfach sind. Welche Art von Argumentationsmodell richtig ist, hat LeCun auch nicht gesagt.

AI Tech Review: Sie haben gerade System 1 und System 2 erwähnt. In der Branche gibt es auch eine Diskussion darüber, ob wir beim Entwurf von Modellen das menschliche Gehirn unbedingt nachahmen müssen.

Wu Wei: Ehrlich gesagt denke ich, dass Maschinen nicht unbedingt wie Menschen denken müssen. Diese Frage hat mich lange beschäftigt, nämlich ob wir Modelle der künstlichen Intelligenz nach der Art des menschlichen Gehirns entwerfen sollten. Zum Beispiel kann ein Computer den Wert von π sehr schnell berechnen, aber das menschliche Gehirn kann das nicht.

Zum Beispiel gibt es in dem Buch "Schnelles Denken, langsames Denken" lange Abschnitte, die die Denkweise von Menschen beschreiben, aber sind diese Beschreibungen unbedingt richtig? Man kann zwar die Aussagen im Buch durch einige Fakten bestätigen, aber das Problem bleibt: Man kann nicht sagen, dass, wenn der 1. Fall richtig ist, und der 2., 3., 4. ... bis zum 100. auch richtig sind, dann muss der 101. Fall unbedingt richtig sein.

Das ist mathematisch nicht zulässig. Die Mathematik erlaubt diese Situation nicht. Wenn es Ausnahmen gibt, muss die Mathematik eine Bedingung haben, um diese Ausnahme zu beschränken und zu eliminieren. Mit anderen Worten, unvollständige Induktion ist nicht richtig.

Nach langem Nachdenken komme ich zu dem Schluss, dass es mir egal ist, ob das künstliche Intelligenzsystem wie ein Mensch sein sollte oder nicht, ich muss nur einen Weg finden, diesem Ziel nahe zu kommen. Dieses Ziel sind die 8 Wörter, die ich vorhin erwähnt habe: "多快好省,双商齐备" (Mehr, Schnell, Gut, Sparsam, mit umfassendem IQ und EQ).

AI Tech Review: Ein weiteres Problem beim aktuellen Argumentieren ist, dass Studien gezeigt haben, dass Modelle wie o1, R1 und Gemini beim Argumentieren mehr Wert auf die Richtigkeit des Ergebnisses legen, während der Zwischenprozess des Argumentierens falsch sein kann.

Wu Wei: Zu diesem Phänomen habe ich zwei Meinungen. Die erste Meinung ist: Ich denke, die lange Gedankenkette ist eine relativ unbeholfene Methode zur Realisierung von tiefem Denken. Natürlich ist sie sehr bedeutsam, weil sie zumindest eine Realisierung ermöglicht hat, auch wenn diese Realisierung energieintensiv ist. Wir können nicht den ganzen Tag über tiefes Denken reden, ohne irgendeine Realisierung zu haben.

Die zweite Meinung ist, dass, wenn die Fähigkeit des Modells sich am Ende entwickelt, der Denkprozess vielleicht wichtiger ist als das Ergebnis. Denn wenn wir zur Mathematik zurückkehren, haben viele mathematische Probleme tatsächlich bereits ein Ergebnis, nur dass einige Ergebnisse bewiesen wurden und andere nicht.

Zum Beispiel Fermats letzter Satz, ursprünglich Fermats Vermutung genannt, dessen Ergebnis schon lange existierte: Wenn die ganze Zahl n > 2 ist, hat die Gleichung x hoch n plus y hoch n gleich z hoch n keine Lösung in positiven ganzen Zahlen. Die Riemannsche Vermutung ist ähnlich, das Ergebnis existiert schon lange, das Wichtige ist: Wie erhalten Sie den gesamten Lösungsprozess von dieser Hypothese bis zu dieser Schlussfolgerung? Aus mathematischer Sicht ist der Argumentationsprozess sehr wichtig.

Daher war Andrew Wiles' großer Beitrag einerseits, dass er Fermats Vermutung bewies und sie zu Fermats letztem Satz machte; wichtiger ist jedoch, dass während dieses Beweisprozesses viele neue Richtungen in der Mathematik entstanden, wie elliptische Kurven, algebraische Geometrie usw., was ein großer Beitrag zur mathematischen Gemeinschaft war.

Meiner Meinung nach ist Argumentation die organische Kombination von Wissen unter Verwendung von Logik. Wenn wir für verschiedene Probleme alle Arten von Wissenskombinationen liefern können, wird es dann einige Wissenskombinationen geben, die der Mensch noch nie berührt hat und die sehr inspirierend für den Fortschritt der menschlichen Zivilisation sind? Wenn ja, dann ist der Wert der Erzeugung dieser Kombinationen weit größer als die Lösung eines Problems, weil Sie neues Wissen schaffen.

Aus dieser Perspektive ist der enorme Wert und das Potenzial des tiefen Denkens noch nicht ausgeschöpft. Das Ergebnis des Argumentierens ist sehr wichtig, aber ich lege mehr Wert auf den Denkprozess dazwischen. Jetzt hat R1 uns eine hochdimensionale Realisierung geliefert, und wir sollten auf der Grundlage von R1 mutigere Iterationen durchführen.

AI Tech Review: Hat R1 Ihre Sicht auf das Argumentieren verändert? Sind Sie aufgeregter über die Forschung im Bereich Argumentation?

Wu Wei: Ich finde es immer noch sehr aufregend, weil R1 uns eine skalierbare Umsetzung von tiefem Denken gezeigt hat, aber R1 ist im Wesentlichen immer noch autoregressiv, und ich denke, hier ist noch viel Platz.

Ich denke, es sollte ein universelles Modell geben, aber ich weiß nicht, wie dieses Modell aussieht. Deshalb haben wir 2023, als wir gerade mit der Erforschung von Argumentation begannen, zuerst Agenten untersucht.

Warum haben wir zuerst Agenten untersucht? Weil ich nicht wusste, wie man es universell macht. Also musste ich zuerst einen speziellen Knowledge Agent (Wissensagent) erstellen, um zu sehen, ob er erweitert werden kann. Wir zerlegen eine Aufgabe in einzelne Module und verketten diese Module dann mit manuell entworfener Logik.

Es ist wie beim Lösen einer mathematischen Aufgabe: Wenn Sie sie nicht lösen können, was tun Sie? Sie suchen sich erst ein paar konkrete Fälle, fügen einige Bedingungen hinzu. Zum Beispiel bei einem funktionalen Problem wandeln Sie es zuerst in einen zweidimensionalen Raum um. Wenn es im zweidimensionalen Raum bewiesen werden kann, sehen Sie, ob es im dreidimensionalen Raum bewiesen werden kann. Nachdem es im zweidimensionalen und dreidimensionalen Raum bewiesen wurde, sehen Sie, ob es Gemeinsamkeiten gibt und ob es auf höhere Dimensionen erweitert werden kann.

Das Erstaunliche an R1 ist, dass es direkt in hohe Dimensionen ging. Was ich spannender finde, ist die Schaffung neuen Wissens durch tiefes Denken. Das kann R1 noch nicht erreichen, weil es noch keine Möglichkeit gibt, den Denkprozess zu garantieren. Auch wir können noch nicht garantieren, dass unser Argumentationsprozess immer richtig ist, aber ich denke, das ist eine sehr wichtige Frage.

Später haben wir CodePlan erforscht, in der Hoffnung, mit Code zuerst zu planen und dann zu argumentieren. Allerdings konnten wir nach der Fertigstellung aufgrund einiger Ressourcenprobleme die Wirksamkeit nicht nachweisen. Anfang dieses Jahres gab es eine Arbeit des DeepSeek-Teams, die ebenfalls zuerst mit Code plante, aber sie wandelten den Code später in natürliche Sprache um. Ich vermute, das könnte daran liegen, dass die Wirkung von reinem Code nicht sehr gut war.

Kürzlich haben wir auch PromptCoT entwickelt und versucht, tiefes Denken bei der Problemsynthese einzusetzen, und wir haben auch sehr beeindruckende Effekte gesehen. Ein kleines 7B-Modell kann mit einem 32B-Modell mithalten. Am wichtigsten ist, dass diese Arbeit uns das Potenzial von tiefem Denken für andere Aufgaben gezeigt hat.

Tatsächlich denkt jeder darüber nach, wie das Argumentationsmodell der nächsten Generation aussehen soll, und gleichzeitig hofft man, die Grenzen der Intelligenz zu verfolgen. Beide Ziele sind sehr schwierig, insbesondere für Unternehmen. In einem Unternehmen können Sie nicht wirklich sagen, dass Sie ein sehr großes Ziel haben, viel Geld investieren werden und sich nicht sicher sind, ob Sie es erreichen können. Dies ist ein realistisches Problem. Rational gesehen brauchen wir mehr Fälle, um den Glauben an weitere Erkundungen zu stützen.

BildBild

Eine Vervielfältigung auf Websites, Foren, Communities in jeglicher Form ohne Genehmigung von "AI Tech Review" ist strengstens untersagt!

Für die Vervielfältigung auf öffentlichen Konten kontaktieren Sie bitte zuerst das Backend von "AI Tech Review", um die Genehmigung zu erhalten. Bei der Vervielfältigung muss die Quelle angegeben und die Visitenkarte dieses öffentlichen Kontos eingefügt werden.

Bild

Warum gibt es nur einen DeepSeek in China?

Bild

Basis-Großmodelle "Sechs zu zwei": Jietiao im Süden, Zhipu im Norden

Bild

Rückblick auf dreizehn Jahre Megvii: Höhepunkte, Tiefpunkt und Wiedergeburt

Bild

Hauptkategorie:KI-Schlussfolgerung

Unterkategorien:Große SprachmodelleKI-ModellparadigmenSystem 1 und System 2Gedankenkette


Vorheriger:Die vierte Dimension: Zeit, Raum oder Bewusstsein?

Nächster:An der Spitze der Arena! Das neueste Speech-02-Modell von MiniMax erobert die Ranglisten: Übertrifft OpenAI, ElevenLabs, 99% menschliche Stimmähnlichkeit

Kurz-URL teilen