Neuronale Netze Haben Gelernt, Gedanken In Echtzeit Zu Lesen. Was? Nein! - Alternative Ansicht

Neuronale Netze Haben Gelernt, Gedanken In Echtzeit Zu Lesen. Was? Nein! - Alternative Ansicht
Neuronale Netze Haben Gelernt, Gedanken In Echtzeit Zu Lesen. Was? Nein! - Alternative Ansicht

Video: Neuronale Netze Haben Gelernt, Gedanken In Echtzeit Zu Lesen. Was? Nein! - Alternative Ansicht

Video: Neuronale Netze Haben Gelernt, Gedanken In Echtzeit Zu Lesen. Was? Nein! - Alternative Ansicht
Video: 16 psychologische Geheimnisse, um Gedanken in 5 Minuten zu lesen 2024, April
Anonim

Vor einigen Tagen veröffentlichte das Preprint-Portal bioRxiv.org die Arbeiten russischer Forscher des Moskauer Instituts für Physik und Technologie sowie der Unternehmen Neurobotics und Neuroassistive Technologies, die sich mit der Schaffung von Neurocomputer-Schnittstellen befassen. Das Papier argumentiert, dass es Wissenschaftlern und Entwicklern gelungen ist, einen Algorithmus in Echtzeit zu lehren, um ein Video zu rekonstruieren, das von einer Person unter Verwendung von EEG-Signalen angesehen wird. Klingt wirklich cool und interessant - fast wie Gedankenlesen. Tatsächlich ist natürlich nicht alles so einfach: Computer haben nicht gelernt, Gedanken zu lesen. Kurz gesagt, der Computer lernte aus der EEG-Aufzeichnung, um zu bestimmen, welches Bild von fünf verschiedenen zuvor bekannten Klassen das Subjekt sah. In unserem Blog erfahren Sie, wie das Experiment aufgebaut wurde, welche Aufgaben die Wissenschaftler stellten und warum Gedankenlesen in naher Zukunft wahrscheinlich nicht realisiert wird.

Image
Image

Im Allgemeinen scheint die Idee, das elektrische Signal des Gehirns zu lesen und zu entschlüsseln, damit Sie sehen können, was eine Person in einem bestimmten Moment denkt oder tut, angesichts des Tempos des aktuellen technologischen Fortschritts nicht so schwierig. Hier ist ein Signal, und hier ist, was dieses Signal bedeutet: Addiere zwei und zwei, trainiere den Klassifikator und erhalte das Ergebnis, das wir brauchen.

Das Ergebnis ist das, was Futuristen und Unwissende als "Gedankenlesen" bezeichnen würden. Und es scheint, dass sich eine solche Technologie in einer Vielzahl von Anwendungen wiederfinden könnte: von perfekten Neurocomputer-Schnittstellen, mit denen Sie intelligente Prothesen steuern können, bis hin zur Erstellung eines Systems, das Ihnen schließlich sagt, was Ihre Katze dort denkt.

In Wirklichkeit ist natürlich nicht alles so einfach, und die Idee, einen solchen Algorithmus zu erstellen, bricht fast sofort beim Haupthindernis zusammen: Wir müssen uns mit dem Gehirn befassen. Das Gehirn ist eine sehr komplexe Sache: Es hat mehr als 80 Milliarden Neuronen und die Verbindungen zwischen ihnen sind mehrere tausend Mal größer.

Selbst für einen Laien ist klar: Dies ist zu viel für uns, um zu verstehen, wofür jede Zelle und ihr Aggregat verantwortlich ist. Wissenschaftler haben das menschliche Konnektom noch nicht entschlüsselt - auch wenn sie es mit relativem Erfolg versuchen.

Es stellt sich eine logische Frage: Ist es überhaupt notwendig, die Funktionen jedes Neurons zu verstehen, um genau darzustellen, was im Gehirn geschieht? Gibt es zum Beispiel wirklich nicht genug Funktionskarten?

Die Antwort auf diese Frage sollte eigentlich "Ja" sein, aber selbst hier ist es nicht so einfach. Wenn sich die Menschheit darauf verlassen würde, das Konnektom als einzigen Schlüssel zur Entschlüsselung des Geheimnisses des Gehirns zu entschlüsseln, wären wir uns heute sehr nahe. Wir wissen jedoch etwas über die Funktionsweise unseres Gehirns und können es natürlich erfolgreich einsetzen.

Werbevideo:

Eines der hellsten und offensichtlichsten Beispiele für die Nutzung des von Wissenschaftlern über die Arbeit des Gehirns gesammelten Wissens sind natürlich Neurointerfaces. Generell gibt es heutzutage wirklich Technologien, mit denen man die Gehirnaktivität lesen und damit beispielsweise den Cursor einer Computermaus oder sogar die Bewegungen einer Prothese steuern kann.

Es gibt zwei Möglichkeiten, um einen effizienten Betrieb der neuronalen Schnittstelle zu erreichen. Die erste Methode sind evozierte Potentiale: Wir betrachten die Kurve der elektrischen Aktivität bestimmter Teile des Gehirns und wählen darauf diejenigen Änderungen des Signals aus, die, wie wir sicher wissen, zu einem bestimmten Zeitpunkt nach der Präsentation des Stimulus auftreten.

Der zweite Weg besteht darin, sich überhaupt nicht auf Stimulation zu verlassen, sondern die Vorstellungskraft der Person zu nutzen, um ein lesbares elektrisches Signal zu erzeugen. Beispielsweise kann eine Person aufgefordert werden, sich vorzustellen, wie sie ihr Bein oder ihren Arm bewegt.

Beide Methoden haben erhebliche Nachteile. Das erste wird durch die Tatsache behindert, dass die Anzahl der uns bekannten zuverlässig evozierten Potentiale nicht so groß ist: Ihre Anzahl kann nicht alle möglichen Handlungen einer Person genau abdecken. Der Nachteil des zweiten ist, dass ein langes Training erforderlich ist, um zumindest einen gewissen Effekt zu erzielen.

Die Autoren des Preprint beschlossen, beide Ansätze zu kombinieren, um Neurocomputer-Schnittstellen zu erstellen. Sie waren zu Recht der Ansicht, dass dies beide Methoden vor erheblichen Einschränkungen bewahren und die Entwicklung einer neuen und derzeit effektivsten Methode für die Arbeit mit Neurointerfaces ermöglichen würde.

Es wurde auch angenommen, dass diese Methode geschlossen ist (geschlossener Regelkreis), dh das mit ihrer Hilfe erhaltene Ergebnis wirkt sich wiederum auf die Funktionsweise des Algorithmus aus. Aber dazu später mehr.

Zu Beginn zerlegt der Algorithmus alle Bilder in separate Komponentenzeichen, die im Vektorraum verteilt sind und mit deren Hilfe sie dann mit bestimmten Gehirnsignalen korreliert werden können, die mit dem EEG aufgezeichnet wurden.

In diesem Anfangsstadium wird ein binärer Klassifikator verwendet - grob gesagt die "zwei und zwei": Mit einem ausreichend sauberen Signal (die EEG-Aufzeichnung wurde von Motorartefakten befreit) können Sie entweder das eine oder das andere mit einer Genauigkeit auswählen, die höher als ein zufälliger Treffer ist.

In ihren Experimenten verwendeten die Wissenschaftler Videos von Objekten aus fünf Klassen: Bilder von Menschen, Wasserfälle, abstrakte geometrische Formen, Extremsportarten und Goldberg-Autos. Einerseits scheint eine solche Menge seltsam, andererseits scheinen sich all diese Objekte sehr voneinander zu unterscheiden. Gibt es tatsächlich Gemeinsamkeiten zwischen menschlichen Gesichtern und abstrakten geometrischen Formen?

Inzwischen sind nach Angaben des binären Klassifikators abstrakte Figuren und menschliche Gesichter nicht voneinander zu unterscheiden: Die Ergebnisse von neun von 17 Studienteilnehmern zeigen, dass die neuronale Schnittstelle offenbar nicht zwischen ihnen unterscheiden konnte. Aber Goldbergs Maschinen und dieselben Gesichter unterscheiden sich aus der Sicht des Gehirns im Gegenteil gut voneinander.

Klassifizierungsergebnisse. A - abstrakte Formen, W - Wasserfälle, HF - menschliche Gesichter, GM - Goldberg-Autos, E - Extremsportarten
Klassifizierungsergebnisse. A - abstrakte Formen, W - Wasserfälle, HF - menschliche Gesichter, GM - Goldberg-Autos, E - Extremsportarten

Klassifizierungsergebnisse. A - abstrakte Formen, W - Wasserfälle, HF - menschliche Gesichter, GM - Goldberg-Autos, E - Extremsportarten.

Auf den ersten Blick ist nicht ganz klar, warum dies geschieht: Vielmehr können dieselben Maschinen und geometrischen Formen nicht voneinander unterschieden werden. Alles wird etwas klarer, wenn Sie sich ein Beispiel für Frames aus den verwendeten Videos ansehen.

Beispielbilder aus fünf Klassen
Beispielbilder aus fünf Klassen

Beispielbilder aus fünf Klassen.

Höchstwahrscheinlich (wir können hier natürlich nur annehmen) hängt der Erfolg des Klassifikators davon ab, inwieweit sich die in den beiden Klassen verwendeten Bilder in einigen oberflächlichen Grundmerkmalen voneinander unterscheiden - vor allem in der Farbe. Dies korreliert auch gut mit der Tatsache, dass die Dimension des latenten Raums im Autoencoder 10 beträgt.

Um Bilder von fünf Klassen zu klassifizieren, reicht im Allgemeinen eine Dimension von fünf aus. In diesem Fall wird jedoch ein Maximum des Farbhistogramms verwendet. Dies bedeutet, dass sich die Dimension 10 nicht zu stark verbessert und das Ergebnis verdeutlicht.

Es ist nicht sehr klar, warum die Autoren keinen linearen Klassifikator für fünf Klassen gleichzeitig anstelle von zehn binären Klassifikatoren verwendeten: höchstwahrscheinlich wäre es besser gewesen.

Dann kommt die Phase der Rekonstruktion des resultierenden Bildes. Die Tatsache, dass es verschmiert herauskommt, ist verständlich - der Punkt liegt in der gleichen Dimension des latenten Raums. Aber hier verwirren zwei Dinge.

Das erste ist, dass die ursprünglichen und rekonstruierten Bilder einander sehr ähnlich sind. Hier möchte ich natürlich niemanden verärgern (auch uns selbst - wir sind alle auf Fortschritt bedacht), aber das liegt nicht daran, dass das Signal so gut aufgezeichnet und dekodiert ist (und sogar in Echtzeit!), Aber aufgrund der Tatsache, dass der Algorithmus genau die Bilder wiederherstellt, die er bereits hatte.

Darüber hinaus funktioniert dies nicht immer so gut, wie wir es uns wünschen: Wenn Sie sich beispielsweise das Video des Systems ansehen, werden Sie feststellen, dass im Video mit einem weinenden Mann die neuronale Schnittstelle aus irgendeinem Grund eine Frau sieht. Dies liegt daran, dass der Algorithmus keine Bilder rekonstruiert, sondern Objekte einer bestimmten Klasse: Selbst wenn er dies effizient genug tut, hindert nichts den Algorithmus daran, ein Boot im Bild eines Motorrads zu sehen - einfach weil sie derselben Klasse angehören.

Daher wird während der Rekonstruktion häufig nur ein Durchschnittsbild aller verwendeten Klassenobjekte auf dem Bildschirm angezeigt.

Was die Aussagekraft der Verwendung eines geschlossenen Systems angeht, so ist damit nicht alles klar: Bei der Ausführung einer Aufgabe sieht eine Person sowohl eine Aufzeichnung von EEG-Signalen als auch ein Bild, das allmählich aus ihrem Kopf austritt. Ob dies tatsächlich hilft, ist schwer zu sagen - die Autoren haben die Leistung der Benutzeroberfläche nicht mit und ohne Verstärkung verglichen. Aber auf den ersten Blick scheint das nicht wirklich. Wenn es hilft, möchte ich wirklich wissen, wie.

Im Allgemeinen können wir sicher schließen, dass Computer nicht gelernt haben, Gedanken zu lesen. Und sie haben nicht einmal gelernt, wie man das Video neu erstellt. Alles, was sie aufgrund der Arbeit von Wissenschaftlern gelernt haben, ist, die Objekte, die sie gesehen haben, anhand einiger grundlegender Kriterien in fünf Klassen einzuteilen. Waren Computer schon einmal dazu in der Lage? Natürlich konnten sie. Gibt es hier ein Gehirn? Natürlich gibt es: aber es ist das Gehirn, das sieht, nicht das Gehirn, das versteht, was genau er gesehen hat.

Elizaveta Ivtushok