Träumen Neuronen Von Elektrischen Schafen? Der Schöpfer Der Ersten Neuronalen Netze Berichtete über Ihre Entwicklung Und Die Zukunft - Alternative Ansicht

2024 Autor: Keith Bush | [email protected]. Zuletzt bearbeitet: 2023-12-16 14:11

Jeffrey Hinton ist Mitentwickler des Konzepts des tiefen Lernens, Gewinner des Turing Award 2019 und Google-Ingenieur. Letzte Woche interviewte Wired ihn während einer I / O-Entwicklerkonferenz und diskutierte seine Faszination für das Gehirn und seine Fähigkeit, einen Computer basierend auf der neuronalen Struktur des Gehirns zu modellieren. Diese Ideen galten lange Zeit als verrückt. Ein interessantes und unterhaltsames Gespräch über das Bewusstsein, Hintons Zukunftspläne und darüber, ob Computern das Träumen beigebracht werden kann.

Was passiert mit neuronalen Netzen?

Beginnen wir mit den Tagen, als Sie Ihre ersten, einflussreichen Artikel geschrieben haben. Alle sagten: "Es ist eine kluge Idee, aber wir können Computer wirklich nicht so entwerfen." Erklären Sie, warum Sie selbst darauf bestanden und warum Sie so sicher waren, dass Sie etwas Wichtiges gefunden haben.

Es schien mir, dass das Gehirn auf keine andere Weise arbeiten konnte. Er muss arbeiten, indem er die Stärke der Verbindungen studiert. Und wenn Sie ein Gerät dazu bringen möchten, etwas Kluges zu tun, haben Sie zwei Möglichkeiten: Sie programmieren es entweder oder es lernt. Und niemand hat Leute programmiert, also mussten wir lernen. Diese Methode musste korrekt sein.

Erklären Sie, was neuronale Netze sind. Erklären Sie das ursprüngliche Konzept

Sie nehmen relativ einfache Verarbeitungselemente, die sehr vage Neuronen ähneln. Sie haben eingehende Verbindungen, jede Verbindung hat ein Gewicht und dieses Gewicht kann sich während des Trainings ändern. Das Neuron führt die Aktionen für die Verbindungen multipliziert mit den Gewichten aus, fasst sie zusammen und entscheidet dann, ob die Daten gesendet werden sollen. Wenn die Summe groß genug eingegeben wird, wird eine Ausgabe ausgegeben. Wenn der Betrag negativ ist, wird nichts gesendet. Das ist alles. Alles, was Sie tun müssen, ist, eine Wolke dieser Neuronen mit Gewichten zu verbinden und herauszufinden, wie diese Gewichte geändert werden können, und dann werden sie alles tun. Die Frage ist nur, wie Sie die Gewichte ändern.

Werbevideo:

Wann haben Sie festgestellt, dass dies eine grobe Darstellung der Funktionsweise des Gehirns ist?

Oh ja, ursprünglich war alles beabsichtigt. Entwickelt, um dem Gehirn bei der Arbeit zu ähneln.

Irgendwann in Ihrer Karriere haben Sie verstanden, wie das Gehirn funktioniert. Vielleicht waren Sie zwölf Jahre alt, vielleicht fünfundzwanzig. Wann haben Sie beschlossen, Computer wie Gehirne zu modellieren?

Ja sofort. Das war der springende Punkt. Diese ganze Idee bestand darin, ein Lerngerät zu schaffen, das wie das Gehirn lernt, entsprechend den Vorstellungen der Menschen darüber, wie das Gehirn lernt, indem die Stärke der Verbindungen geändert wird. Und das war nicht meine Idee, Turing hatte die gleiche Idee. Obwohl Turing einen Großteil der Grundlagen der Standardinformatik erfand, glaubte er, dass das Gehirn ein unorganisiertes Gerät mit zufälligen Gewichten sei, und nutzte das Verstärkungslernen, um Verbindungen zu ändern, damit er alles lernen konnte. Und er glaubte, dass dies der beste Weg zur Intelligenz ist.

Und Sie folgten Turings Idee, dass der beste Weg, eine Maschine zu bauen, darin besteht, sie wie das menschliche Gehirn zu entwerfen. So funktioniert das menschliche Gehirn. Erstellen wir also eine ähnliche Maschine

Ja, das dachte nicht nur Turing. Viele dachten es.

Wann kamen die dunklen Zeiten? Wann kam es vor, dass andere Leute, die daran arbeiteten und Turings Idee für richtig hielten, zurückgingen und Sie Ihre Linie weiter bogen?

Es gab immer eine Handvoll Leute, die glaubten, egal was, besonders auf dem Gebiet der Psychologie. Aber unter Informatikern, denke ich, kam es in den 90er Jahren vor, dass die Datensätze ziemlich klein waren und Computer nicht so schnell. Bei kleinen Datenmengen schnitten andere Methoden wie Support-Vektor-Maschinen etwas besser ab. Der Lärm war ihnen nicht so peinlich. Es war also alles traurig, weil wir in den 80er Jahren eine Back-Propagation-Methode entwickelt haben, die für neuronale Netze sehr wichtig ist. Wir dachten, er würde alles lösen. Und sie waren verwirrt, dass er nichts entschieden hatte. Die Frage war wirklich maßstabsgetreu, aber dann wussten wir es nicht.

Warum hast du gedacht, dass es nicht funktioniert?

Wir dachten, dass es nicht funktioniert, weil wir nicht ganz korrekte Algorithmen und nicht ganz korrekte Zielfunktionen hatten. Ich habe lange gedacht, dass dies daran liegt, dass wir versucht haben, überwachtes Lernen durchzuführen, wenn Sie die Daten kennzeichnen, und dass wir unbeaufsichtigt lernen mussten, wenn wir aus nicht getaggten Daten lernen. Es stellte sich heraus, dass die Frage größtenteils maßstabsgetreu war.

Das ist interessant. Das Problem war also, dass Sie nicht genügend Daten hatten. Sie dachten, Sie hätten die richtige Datenmenge, aber Sie haben sie falsch markiert. Sie haben das Problem also falsch diagnostiziert?

Ich dachte, der Fehler war, dass wir überhaupt Etiketten verwenden. Der größte Teil Ihres Trainings findet ohne Verwendung von Beschriftungen statt. Sie versuchen lediglich, eine Struktur in den Daten zu modellieren. Das denke ich eigentlich immer noch. Ich denke, da Computer schneller werden und der Computer schnell genug ist, ist es für jeden Datensatz einer bestimmten Größe besser, ohne Aufsicht zu trainieren. Und sobald Sie das unbeaufsichtigte Lernen abgeschlossen haben, können Sie mit weniger Tags lernen.

In den neunziger Jahren setzen Sie Ihre Forschung fort, Sie sind in der Wissenschaft, Sie veröffentlichen immer noch, aber Sie lösen keine großen Probleme. Haben Sie jemals einen Moment gehabt, in dem Sie gesagt haben: „Weißt du was, das ist genug. Werde ich versuchen, etwas anderes zu tun? Oder haben Sie sich einfach gesagt, dass Sie weiterhin tiefes Lernen betreiben würden [dh das Konzept des tiefen Lernens, des tiefen Lernens neuronaler Netze?

Ja. So etwas sollte funktionieren. Ich meine, die Verbindungen im Gehirn lernen irgendwie, wir müssen nur herausfinden, wie. Und es gibt wahrscheinlich viele verschiedene Möglichkeiten, um die Verbindungen im Lernprozess zu stärken. Das Gehirn benutzt einen von ihnen. Es kann andere Wege geben. Aber Sie brauchen definitiv etwas, das diese Verbindungen beim Lernen stärken kann. Ich habe nie daran gezweifelt.

Du hast nie daran gezweifelt. Wann schien es zu funktionieren?

Eine der größten Enttäuschungen der 80er Jahre war, dass wir Netzwerke mit vielen versteckten Schichten nicht trainieren konnten. Dies ist nicht ganz richtig, da Sie relativ einfache Prozesse wie Handschrift trainieren können. Wir wussten jedoch nicht, wie wir die tiefsten neuronalen Netze trainieren sollten. Und um 2005 herum habe ich mir eine Möglichkeit ausgedacht, tiefe Netzwerke ohne Aufsicht zu trainieren. Sie geben Daten ein, sagen wir Pixel, und trainieren mehrere Detektoren, was gerade gut erklärt hat, warum die Pixel so waren, wie sie sind. Anschließend geben Sie diesen Teiledetektoren die Daten und trainieren einen anderen Satz von Teiledetektoren, damit wir erklären können, warum bestimmte Teiledetektoren bestimmte Korrelationen aufweisen. Sie trainieren weiterhin Schicht für Schicht. Aber das Interessanteste warDies könnte mathematisch zerlegt werden und beweisen, dass Sie jedes Mal, wenn Sie eine neue Ebene trainieren, das Datenmodell nicht unbedingt verbessern, sondern sich mit einer Reihe von Problemen befassen, wie gut Ihr Modell ist. Und dieser Bereich wurde mit jeder hinzugefügten Schicht besser.

Was meinen Sie mit der Reichweite Ihres Modells?

Sobald Sie das Modell erhalten haben, stellen Sie möglicherweise die Frage: "Wie ungewöhnlich findet dieses Modell diese Daten?" Sie zeigen ihr die Daten und stellen die Frage: "Finden Sie das alles wie erwartet oder ist es ungewöhnlich?" Und das könnte gemessen werden. Und ich wollte ein Modell haben, ein gutes Modell, das die Daten betrachtet und sagt: „Ja, ja. Ich wusste es. Das ist nicht überraschend ". Es ist immer sehr schwierig, genau zu berechnen, wie ungewöhnlich ein Modell die Daten findet. Aber Sie können den Bereich davon berechnen. Wir können sagen, dass das Modell diese Daten weniger ungewöhnlich findet. Und es konnte gezeigt werden, dass beim Hinzufügen neuer Ebenen zu den Detektordetektoren das Modell gebildet wird und mit jeder hinzugefügten Ebene, wenn Daten gefunden werden, der Bereich des Verständnisses dafür, wie ungewöhnlich die Daten gefunden werden, besser wird.

Um 2005 haben Sie diesen mathematischen Durchbruch geschafft. Wann haben Sie angefangen, die richtigen Antworten zu bekommen? Mit welchen Daten haben Sie gearbeitet? Ihr erster Durchbruch war mit Sprachdaten, richtig?

Es waren nur handgeschriebene Zahlen. Sehr einfach. Etwa zur gleichen Zeit begann die Entwicklung von GPUs (Grafikprozessoren). Und Leute, die neuronale Netze machten, begannen 2007, GPUs zu verwenden. Ich hatte einen sehr guten Schüler, der anfing, GPUs zu verwenden, um Straßen in Luftbildern zu finden. Er schrieb den Code, der dann von anderen Studenten übernommen wurde, die die GPU verwendeten, um Phoneme in der Sprache zu erkennen. Sie nutzten diese Idee vor dem Training. Und als das Pre-Training beendet war, hängten sie einfach die Tags auf und verwendeten die Rückausbreitung. Es stellte sich heraus, dass es möglich ist, ein sehr tiefes Netzwerk aufzubauen, das zuvor auf diese Weise trainiert wurde. Und dann konnte Backpropagation angewendet werden und es funktionierte tatsächlich. Bei der Spracherkennung hat es hervorragend funktioniert. Zunächst jedoches war nicht viel besser.

War es besser als im Handel erhältliche Spracherkennung? Umgangen von den besten wissenschaftlichen Arbeiten zur Spracherkennung?

Bei einem relativ kleinen Datensatz namens TIMIT war er etwas besser als die beste akademische Arbeit. IBM hat auch viel Arbeit geleistet.

Die Leute erkannten schnell, dass all dies - da es die seit 30 Jahren in der Entwicklung befindlichen Standardmodelle umgeht - gut funktionieren würde, wenn es ein wenig weiterentwickelt würde. Meine Absolventen gingen zu Microsoft, IBM und Google, und Google erstellte sehr schnell einen funktionierenden Spracherkenner. Bis 2012 hatte diese Arbeit, die bereits 2009 durchgeführt worden war, Android erreicht. Android ist plötzlich viel besser in der Spracherkennung.

Erzählen Sie mir von einem Moment, in dem Sie, die diese Ideen seit 40 Jahren gespeichert haben und seit 20 Jahren zu diesem Thema veröffentlichen, plötzlich Ihre Kollegen umgehen. Wie ist dieses Gefühl?

Nun, damals hatte ich diese Ideen nur 30 Jahre lang gespeichert!

Richtig richtig

Es war ein großartiges Gefühl, dass all dies endlich zu einem echten Problem geworden war.

Erinnerst du dich, als du die Daten zum ersten Mal erhalten hast?

Nein.

In Ordnung. So kommt man auf die Idee, dass dies mit Spracherkennung funktioniert. Wann haben Sie begonnen, neuronale Netze auf andere Probleme anzuwenden?

Zuerst haben wir begonnen, sie auf alle möglichen anderen Probleme anzuwenden. George Dahl, mit dem wir ursprünglich an der Spracherkennung gearbeitet haben, hat damit vorhergesagt, ob ein Molekül an etwas binden und eine gute Medizin werden kann. Und es gab einen Wettbewerb. Er wandte einfach unsere Standardtechnologie an, die für die Spracherkennung entwickelt wurde, um die Arzneimittelaktivität vorherzusagen, und gewann den Wettbewerb. Es war ein Zeichen dafür, dass wir etwas sehr Vielseitiges tun. Dann erschien ein Student, der sagte: „Weißt du, Jeff, dieses Ding wird mit Bilderkennung funktionieren, und Fei-Fei Li hat dafür einen geeigneten Datensatz erstellt. Es gibt einen öffentlichen Wettbewerb, lass uns etwas unternehmen."

Wir haben Ergebnisse erzielt, die die Standard-Computer-Vision weit übertroffen haben. Es war 2012.

Das heißt, in diesen drei Bereichen haben Sie sich hervorgetan: Modellierung von Chemikalien, Sprache, Stimme. Wo hast du versagt?

Verstehst du, dass Rückschläge nur vorübergehend sind?

Was trennt die Bereiche, in denen alles am schnellsten funktioniert, und die Bereiche, in denen es am längsten dauert? Es sieht so aus, als würden visuelle Verarbeitung, Spracherkennung und so etwas wie die grundlegenden menschlichen Dinge, die wir mit der sensorischen Wahrnehmung tun, als die ersten Hindernisse angesehen, die überwunden werden müssen, oder?

Ja und nein, denn es gibt andere Dinge, die wir gut machen - die gleichen motorischen Fähigkeiten. Wir sind sehr gut in der Motorsteuerung. Unser Gehirn ist definitiv dafür gerüstet. Und erst jetzt konkurrieren neuronale Netze mit den besten anderen Technologien. Sie werden am Ende gewinnen, aber jetzt fangen sie gerade erst an zu gewinnen.

Ich denke zu denken, abstraktes Denken ist das Letzte, was wir lernen. Ich denke, sie werden zu den letzten Dingen gehören, die diese neuronalen Netze lernen.

Und so sagen Sie immer wieder, dass neuronale Netze letztendlich überall vorherrschen werden

Nun, wir sind neuronale Netze. Alles was wir können, können sie.

Es stimmt, aber das menschliche Gehirn ist weit entfernt von der effizientesten Rechenmaschine, die jemals gebaut wurde

Definitiv nicht.

Auf keinen Fall mein menschliches Gehirn! Gibt es eine Möglichkeit, Maschinen zu modellieren, die viel effizienter sind als das menschliche Gehirn?

Philosophisch habe ich keine Einwände gegen die Idee, dass es einen völlig anderen Weg geben könnte, dies alles zu tun. Wenn Sie mit Logik beginnen, versuchen, die Logik zu automatisieren, einen ausgefallenen Theorembeweis und eine Vernunft zu finden und dann entscheiden, dass Sie durch Argumentation zur visuellen Wahrnehmung gelangen, kann es sein, dass dieser Ansatz gewinnt. Aber noch nicht. Ich habe keine philosophischen Einwände gegen einen solchen Sieg. Wir wissen nur, dass das Gehirn dazu in der Lage ist.

Es gibt aber auch Dinge, die unser Gehirn nicht gut kann. Bedeutet dies, dass neuronale Netze sie auch nicht gut können?

Möglicherweise ja.

Und es gibt ein separates Problem: Wir verstehen nicht ganz, wie neuronale Netze funktionieren, oder?

Ja, wir verstehen nicht wirklich, wie sie funktionieren.

Wir verstehen nicht, wie neuronale Netze von oben nach unten funktionieren. Dies ist ein grundlegendes Element der Funktionsweise neuronaler Netze, das wir nicht verstehen. Erklären Sie dies und lassen Sie mich dann die nächste Frage stellen: Wenn wir wissen, wie alles funktioniert, wie funktioniert dann alles?

Wenn Sie sich moderne Computer-Vision-Systeme ansehen, sind die meisten von ihnen zukunftsweisend. Sie verwenden keine Rückkopplungsverbindungen. Und dann gibt es noch etwas anderes in modernen Computer-Vision-Systemen, das sehr anfällig für kontroverse Fehler ist. Sie können einige Pixel leicht ändern, und was für Sie ein Panda-Bild war und immer noch genau wie ein Panda aussieht, wird plötzlich zu einem Strauß in Ihrem Verständnis eines neuronalen Netzwerks. Offensichtlich ist die Methode zum Ersetzen von Pixeln so durchdacht, dass das neuronale Netzwerk dazu gebracht wird, über einen Strauß nachzudenken. Aber der Punkt ist, es ist immer noch ein Panda für dich.

Anfangs fanden wir, dass alles großartig funktioniert hat. Aber angesichts der Tatsache, dass sie einen Panda ansahen und sicher waren, dass es ein Strauß war, machten wir uns Sorgen. Und ich denke, ein Teil des Problems ist, dass sie nicht versuchen, aus Ansichten auf hoher Ebene zu rekonstruieren. Sie versuchen, isoliert zu lernen, wobei nur die Schichten der Detektordetektoren lernen, und das gesamte Ziel besteht darin, die Gewichte zu ändern, um die richtige Antwort besser finden zu können. Wir haben kürzlich in Toronto entdeckt oder Nick Frost herausgefunden, dass das Hinzufügen von Rekonstruktionen den Widerstand der Gegner erhöht. Ich denke, dass beim menschlichen Sehen die Rekonstruktion zum Lernen verwendet wird. Und weil wir beim Wiederaufbau so viel lernen, sind wir viel widerstandsfähiger gegen gegnerische Angriffe.

Sie glauben, dass Sie mit der Downstream-Kommunikation in einem neuronalen Netzwerk testen können, wie etwas rekonstruiert wird. Sie überprüfen es und stellen sicher, dass es sich um einen Panda handelt, nicht um einen Strauß

Ich denke das ist wichtig, ja.

Aber Gehirnforscher sind damit nicht ganz einverstanden?

Gehirnforscher argumentieren nicht, dass es immer umgekehrte Verbindungen gibt, wenn Sie zwei Regionen des Kortex auf dem Weg der Wahrnehmung haben. Sie streiten sich mit dem, wofür es ist. Es kann zur Aufmerksamkeit, zum Lernen oder zum Wiederaufbau benötigt werden. Oder für alle drei.

Wir wissen also nicht, was Feedback ist. Bauen Sie Ihre neuen neuronalen Netze auf, ausgehend von der Annahme, dass … nein, nicht einmal so - Sie bauen Feedback auf, weil es für die Rekonstruktion in Ihren neuronalen Netzen benötigt wird, obwohl Sie nicht einmal wirklich verstehen, wie das Gehirn funktioniert?

Ja.

Ist das nicht eine Spielerei? Nun, das heißt, wenn Sie versuchen, so etwas wie ein Gehirn zu tun, aber Sie nicht sicher sind, ob das Gehirn es tut?

Nicht wirklich. Ich bin nicht in Computational Neuroscience. Ich versuche nicht zu modellieren, wie das Gehirn funktioniert. Ich schaue auf das Gehirn und sage: "Es funktioniert, und wenn wir etwas anderes tun wollen, das funktioniert, müssen wir es beobachten und uns davon inspirieren lassen." Wir lassen uns von Neuronen inspirieren und bauen kein neuronales Modell auf. Das gesamte Modell der von uns verwendeten Neuronen ist daher von der Tatsache inspiriert, dass Neuronen viele Verbindungen haben und ihre Gewichte ändern.

Das ist interessant. Wenn ich ein Informatiker wäre, der an neuronalen Netzen arbeitet und Jeff Hinton umgehen möchte, wäre eine Option, die Kommunikation nach unten aufzubauen und sie auf andere Modelle der Gehirnforschung zu stützen. Basierend auf Training, nicht auf Rekonstruktion

Wenn es bessere Modelle gäbe, hätten Sie gewonnen. Ja.

Es ist sehr, sehr interessant. Lassen Sie uns ein allgemeineres Thema ansprechen. So können neuronale Netze alle möglichen Probleme lösen. Gibt es Rätsel im menschlichen Gehirn, die neuronale Netze nicht abdecken können oder wollen? Zum Beispiel Emotionen

Nein.

Liebe kann also mit einem neuronalen Netzwerk rekonstruiert werden? Bewusstsein kann rekonstruiert werden?

Absolut. Sobald Sie herausgefunden haben, was diese Dinge bedeuten. Wir sind neuronale Netze, richtig? Bewusstsein ist für mich ein besonders interessantes Thema. Aber … die Leute wissen nicht wirklich, was sie mit diesem Wort meinen. Es gibt viele verschiedene Definitionen. Und ich denke, das ist ein ziemlich wissenschaftlicher Begriff. Wenn Sie also vor 100 Jahren die Menschen gefragt haben: Was ist das Leben? Sie antworteten: „Nun, Lebewesen haben Lebenskraft, und wenn sie sterben, verlässt sie die Lebenskraft. Dies ist der Unterschied zwischen Lebenden und Toten, entweder Sie haben die Vitalität oder Sie tun es nicht. Jetzt haben wir keine Lebenskraft mehr, wir denken, dass dieses Konzept vor der Wissenschaft kam. Und wenn Sie erst einmal ein wenig über Biochemie und Molekularbiologie verstanden haben, brauchen Sie keine Lebenskraft mehr. Sie werden verstehen, wie das alles wirklich funktioniert. Und das Gleiche, denke ich, wird mit dem Bewusstsein passieren. Ich denke,Dieses Bewusstsein ist ein Versuch, mentale Phänomene mit einer Entität zu erklären. Und diese Essenz wird nicht benötigt. Sobald Sie es erklären können, können Sie erklären, wie wir alles tun, was Menschen zu bewussten Wesen macht, die verschiedenen Bedeutungen des Bewusstseins erklären, ohne spezielle Entitäten einzubeziehen.

Es stellt sich heraus, dass es keine Emotionen gibt, die nicht erzeugt werden könnten? Es gibt keinen Gedanken, der nicht geschaffen werden kann? Es gibt nichts, wozu der menschliche Geist fähig ist, das theoretisch nicht durch ein voll funktionsfähiges neuronales Netzwerk wiederhergestellt werden könnte, wenn wir erst einmal verstehen, wie das Gehirn funktioniert

John Lennon sang in einem seiner Songs etwas Ähnliches.

Sind Sie sich da 100% sicher?

Nein, ich bin Bayesianer, also bin ich mir zu 99,9% sicher.

Okay, was ist dann 0,01%?

Nun, wir könnten zum Beispiel alle Teil einer größeren Simulation sein.

Meinetwegen. Was lernen wir aus unserer Arbeit am Computer über das Gehirn?

Nun, ich denke aus dem, was wir in den letzten 10 Jahren gelernt haben, ist es interessant, dass ein System mit Milliarden von Parametern und einer objektiven Funktion - zum Beispiel, um eine Lücke in einer Wortzeile zu füllen - besser funktioniert als es sollte. Es wird viel besser funktionieren als Sie vielleicht erwarten. Sie könnten denken, und viele Leute in der traditionellen KI-Forschung würden denken, dass Sie ein System mit einer Milliarde Parametern nehmen, es mit zufälligen Werten ausführen, den Gradienten der Zielfunktion messen und es dann optimieren können, um die Zielfunktion zu verbessern. Sie könnten denken, dass ein hoffnungsloser Algorithmus unweigerlich stecken bleiben würde. Aber nein, es stellt sich heraus, dass dies ein wirklich guter Algorithmus ist. Und je größer der Maßstab, desto besser funktioniert es. Und diese Entdeckung war im Wesentlichen empirisch. Dahinter steckte natürlich eine Theorie, aber die Entdeckung war empirisch. Und jetzt,Da wir dies gefunden haben, scheint es wahrscheinlicher, dass das Gehirn den Gradienten einer objektiven Funktion berechnet und die Gewichte und die Stärke der synaptischen Verbindung aktualisiert, um mit diesem Gradienten Schritt zu halten. Wir müssen nur herausfinden, was diese Zielfunktion ist und wie sie sich verschlechtert.

Aber wir haben das am Beispiel des Gehirns nicht verstanden? Verstehst du das Balance Update nicht?

Es war Theorie. Vor langer Zeit dachten die Leute, es sei möglich. Aber im Hintergrund gab es immer einige Informatiker, die sagten: "Ja, aber die Idee, dass alles zufällig ist und das Lernen auf Gradientenabstieg zurückzuführen ist, funktioniert nicht mit einer Milliarde Parametern. Man muss viel Wissen verbinden." Wir wissen jetzt, dass dies nicht der Fall ist. Sie können einfach zufällige Parameter eingeben und alles lernen.

Lassen Sie uns etwas tiefer tauchen. Wenn wir mehr und mehr lernen, werden wir vermutlich immer mehr darüber lernen, wie das menschliche Gehirn funktioniert, wenn wir massive Tests von Modellen durchführen, die auf unserem Verständnis der Gehirnfunktion basieren. Wenn wir das alles besser verstehen, wird es dann einen Punkt geben, an dem wir unser Gehirn im Wesentlichen neu verdrahten, um viel effizientere Maschinen zu werden?

Wenn wir wirklich verstehen, was los ist, können wir einige Dinge wie Bildung verbessern. Und ich denke, wir werden uns verbessern. Es wäre sehr seltsam, endlich zu verstehen, was in Ihrem Gehirn passiert, wie es lernt, und sich nicht anzupassen, um besser zu lernen.

Wie werden wir in ein paar Jahren das, was wir über das Gehirn gelernt haben, nutzen und wie tiefgreifendes Lernen funktioniert, um Bildung zu transformieren? Wie würden Sie die Klassen ändern?

Ich bin mir nicht sicher, ob wir in ein paar Jahren viel lernen werden. Ich denke, es wird länger dauern, die Bildung zu ändern. Apropos, [digitale] Assistenten werden ziemlich schlau. Und wenn Assistenten Gespräche verstehen können, können sie mit Kindern sprechen und sie erziehen.

Und theoretisch können wir, wenn wir das Gehirn besser verstehen, Helfer so programmieren, dass sie sich besser mit Kindern unterhalten, basierend auf dem, was sie bereits gelernt haben

Ja, aber ich habe nicht viel darüber nachgedacht. Ich mache etwas anderes. Aber das alles scheint der Wahrheit ziemlich ähnlich zu sein.

Können wir verstehen, wie Träume funktionieren?

Ja, ich interessiere mich sehr für Träume. Ich bin so interessiert, dass ich mindestens vier verschiedene Traumtheorien habe.

Erzählen Sie uns von ihnen - vom ersten, zweiten, dritten, vierten

Vor langer Zeit gab es so etwas wie Hopfield-Netzwerke, und sie studierten Erinnerungen als lokale Attraktoren. Hopfield stellte fest, dass wenn Sie versuchen, zu viele Erinnerungen zu speichern, diese durcheinander geraten. Sie werden zwei lokale Attraktoren nehmen und sie irgendwo auf halber Strecke zu einem Attraktor kombinieren.

Dann kamen Francis Crick und Graham Mitchison und sagten, dass wir diese falschen Tiefs durch Lernen loswerden können (dh vergessen, was wir gelernt haben). Wir schalten die Dateneingabe aus, versetzen das neuronale Netzwerk in einen zufälligen Zustand, lassen es sich beruhigen, sagen, dass es schlecht ist, ändern die Verbindungen, damit es nicht in diesen Zustand fällt, und so können wir das Netzwerk dazu bringen, mehr Speicher zu speichern.

Dann kamen Terry Seinowski und ich herein und sagten: "Wenn wir nicht nur die Neuronen haben, die Erinnerungen speichern, sondern auch eine Reihe anderer Neuronen, können wir dann einen Algorithmus finden, der all diese anderen Neuronen verwendet, um Erinnerungen abzurufen?" … Als Ergebnis haben wir einen Boltzmann-Algorithmus für maschinelles Lernen entwickelt. Und Boltzmanns Algorithmus für maschinelles Lernen hatte eine äußerst interessante Eigenschaft: Ich zeige die Daten und sie durchlaufen den Rest der Einheiten, bis sie sich in einem sehr glücklichen Zustand befinden. Danach erhöht er die Stärke aller Verbindungen, basierend auf der Tatsache, dass zwei Einheiten gleichzeitig aktiv sind.

Außerdem sollten Sie eine Phase haben, in der Sie die Eingabe ausschalten, den Algorithmus "rascheln" lassen und ihn in einen Zustand versetzen, in dem er glücklich ist, so dass er phantasiert, und sobald er eine Fantasie hat, sagen Sie: „Nehmen Sie alle Neuronenpaare die aktiv sind und die Stärke der Verbindungen verringern."

Ich erkläre Ihnen den Algorithmus als Prozedur. In Wirklichkeit ist dieser Algorithmus ein Produkt der Mathematik und der Frage: "Wie müssen Sie diese Verbindungsketten ändern, damit dieses neuronale Netzwerk mit all diesen verborgenen Dateneinheiten nicht überraschend erscheint?" Und es sollte auch eine andere Phase geben, die wir als negative Phase bezeichnen, wenn das Netzwerk ohne Dateneingabe arbeitet und verlernt, unabhängig davon, in welchen Zustand Sie es versetzt haben.

Wir träumen jede Nacht viele Stunden. Und wenn Sie plötzlich aufwachen, können Sie sagen, dass Sie gerade geträumt haben, weil der Traum im Kurzzeitgedächtnis gespeichert ist. Wir wissen, dass wir viele Stunden lang Träume sehen, aber am Morgen nach dem Aufwachen können wir uns nur an den letzten Traum erinnern, und wir erinnern uns nicht an die anderen, was sehr erfolgreich ist, weil man sie für die Realität halten könnte. Warum erinnern wir uns überhaupt nicht an unsere Träume? Laut Crick ist dies die Bedeutung von Träumen: diese Dinge zu verlernen. Du lernst irgendwie umgekehrt.

Terry Seinovski und ich haben gezeigt, dass dies tatsächlich das Lernverfahren mit maximaler Wahrscheinlichkeit für Boltzmann-Maschinen ist. Dies ist die erste Theorie über Träume.

Ich möchte zu Ihren anderen Theorien übergehen. Aber meine Frage ist: Konnten Sie einen Ihrer Deep-Learning-Algorithmen trainieren, um tatsächlich zu träumen?

Einige der ersten Algorithmen, die lernen konnten, mit versteckten Einheiten zu arbeiten, waren Boltzmann-Maschinen. Sie waren äußerst unwirksam. Aber später fand ich einen Weg, mit Annäherungen zu arbeiten, was sich als effizient herausstellte. Und das war tatsächlich der Anstoß für die Wiederaufnahme der Arbeit mit tiefem Lernen. Dies waren Dinge, die jeweils eine Schicht von Merkmaldetektoren trainierten. Und das war eine effektive Form von Boltzmanns restriktiver Maschine. Und so machte sie diese Art des umgekehrten Lernens. Aber anstatt einzuschlafen, konnte sie sich nach jeder Datenmarke ein wenig vorstellen.

Okay, Androiden träumen tatsächlich von elektrischen Schafen. Kommen wir zu den Theorien zwei, drei und vier

Theorie zwei wurde der Wake Sleep-Algorithmus genannt. Sie müssen ein generatives Modell trainieren. Sie haben die Idee, ein Modell zu erstellen, das Daten generieren kann, über Schichten von Feature-Detektoren verfügt und die höheren und unteren Schichten usw. bis hin zur Aktivierung von Pixeln aktiviert - im Wesentlichen um ein Bild zu erstellen. Aber du möchtest ihr etwas anderes beibringen. Sie möchten, dass die Daten erkannt werden.

Sie müssen also einen Algorithmus mit zwei Phasen erstellen. In der Erweckungsphase kommen die Daten herein, er versucht sie zu erkennen, und anstatt die Verbindungen zu untersuchen, die er zur Erkennung verwendet, untersucht er die generativen Verbindungen. Die Daten kommen herein, ich aktiviere die versteckten Einheiten. Und dann versuche ich, diesen versteckten Einheiten beizubringen, diese Daten wiederherzustellen. Er lernt in jeder Schicht zu rekonstruieren. Aber die Frage ist, wie man direkte Verbindungen lernt. Die Idee ist also, dass Sie, wenn Sie direkte Verbindungen kennen, umgekehrte Verbindungen lernen könnten, weil Sie das Reverse Engineering lernen könnten.

Jetzt stellt sich auch heraus, dass Sie bei Verwendung von umgekehrten Verknüpfungen auch direkte Verknüpfungen lernen können, da Sie einfach oben beginnen und einige Daten generieren können. Und da Sie Daten generieren, kennen Sie die Zustände aller verborgenen Ebenen und können direkte Verbindungen untersuchen, um diese Zustände wiederherzustellen. Und Folgendes passiert: Wenn Sie mit zufälligen Verbindungen beginnen und versuchen, beide Phasen abwechselnd zu verwenden, werden Sie Erfolg haben. Damit es gut funktioniert, müssen Sie verschiedene Optionen ausprobieren, aber es wird funktionieren.

Okay, was ist mit den beiden anderen Theorien? Wir haben nur noch acht Minuten, ich glaube, ich werde keine Zeit haben, nach allem zu fragen

Gib mir noch eine Stunde und ich erzähle dir von den anderen beiden.

Sprechen wir darüber, was als nächstes kommt. Wohin geht Ihre Forschung? Welche Probleme versuchen Sie jetzt zu lösen?

Letztendlich müssen Sie an etwas arbeiten, das die Arbeit noch nicht beendet hat. Ich denke, ich arbeite möglicherweise an etwas, das ich niemals beenden werde - Kapseln genannt, eine Theorie darüber, wie visuelle Wahrnehmung durch Rekonstruktion erfolgt und wie Informationen an die richtigen Stellen geleitet werden. Die beiden Hauptmotivationsfaktoren waren, dass in Standard-Neuronalen Netzen Informationen und Aktivitäten in der Schicht einfach automatisch irgendwohin gesendet werden und Sie keine Entscheidung darüber treffen, wohin sie gesendet werden sollen. Die Idee hinter den Kapseln war, Entscheidungen darüber zu treffen, wohin Informationen gesendet werden sollen.

Nachdem ich angefangen habe, an Kapseln zu arbeiten, haben sehr kluge Leute bei Google Transformatoren erfunden, die dasselbe tun. Sie entscheiden, wohin die Informationen gesendet werden sollen, und das ist ein großer Gewinn.

Wir werden nächstes Jahr zurück sein, um über die Traumtheorien Nummer drei und Nummer vier zu sprechen.

Ilya Khel