Gegnerische Angriffe: Warum Ist Ein Neuronales Netzwerk Leicht Auszutricksen? - Alternative Ansicht

Inhaltsverzeichnis:

Gegnerische Angriffe: Warum Ist Ein Neuronales Netzwerk Leicht Auszutricksen? - Alternative Ansicht
Gegnerische Angriffe: Warum Ist Ein Neuronales Netzwerk Leicht Auszutricksen? - Alternative Ansicht

Video: Gegnerische Angriffe: Warum Ist Ein Neuronales Netzwerk Leicht Auszutricksen? - Alternative Ansicht

Video: Gegnerische Angriffe: Warum Ist Ein Neuronales Netzwerk Leicht Auszutricksen? - Alternative Ansicht
Video: Spannendes Wissen über unsere Augen: Wichtige Fakten kurz & klar erklärt! Mehr Medizin für Jeden! 2024, April
Anonim

In den letzten Jahren, als Deep-Learning-Systeme immer häufiger eingesetzt wurden, haben Wissenschaftler gezeigt, wie sich kontroverse Muster auf alles auswirken können, vom einfachen Bildklassifikator bis hin zu Krebsdiagnosesystemen - und sogar eine lebensbedrohliche Situation schaffen. Trotz aller Gefahren werden kontroverse Beispiele kaum verstanden. Und Wissenschaftler waren besorgt: Kann dieses Problem gelöst werden?

Was ist ein gegnerischer Angriff? Dies ist eine Möglichkeit, ein neuronales Netzwerk dazu zu bringen, ein falsches Ergebnis zu erzielen. Sie werden hauptsächlich in der wissenschaftlichen Forschung verwendet, um die Robustheit von Modellen gegenüber nicht standardmäßigen Daten zu testen. Im wirklichen Leben können Sie beispielsweise einige Pixel im Bild eines Pandas ändern, damit das neuronale Netzwerk sicher ist, dass das Bild einen Gibbon enthält. Obwohl Wissenschaftler dem Bild nur "Rauschen" hinzufügen.

Gegnerischer Angriff: Wie kann man ein neuronales Netzwerk austricksen?

Neue Arbeiten des Massachusetts Institute of Technology weisen auf einen möglichen Weg hin, um dieses Problem zu lösen. Durch die Lösung könnten wir viel zuverlässigere Deep-Learning-Modelle erstellen, die auf böswillige Weise viel schwieriger zu manipulieren wären. Aber schauen wir uns zuerst die Grundlagen der kontroversen Muster an.

Wie Sie wissen, beruht die Kraft des tiefen Lernens auf seiner überlegenen Fähigkeit, Muster (Muster, Muster, Diagramme, Muster) in Daten zu erkennen. Füttere das neuronale Netzwerk mit Zehntausenden von getaggten Tierfotos und erfahre, welche Muster mit einem Panda und welche mit einem Affen verbunden sind. Sie kann diese Muster dann verwenden, um neue Bilder von Tieren zu erkennen, die sie noch nie zuvor gesehen hat.

Deep-Learning-Modelle sind aber auch sehr fragil. Da das Bilderkennungssystem nur auf Pixelmustern beruht und nicht auf einem konzeptionelleren Verständnis dessen, was es sieht, ist es leicht, es dazu zu bringen, etwas völlig anderes zu sehen - einfach indem die Muster auf eine bestimmte Weise gebrochen werden. Klassisches Beispiel: Fügen Sie einem Panda-Bild etwas Rauschen hinzu, und das System klassifiziert es mit fast 100-prozentiger Sicherheit als Gibbon. Dieses Geräusch wird der gegnerische Angriff sein.

Image
Image

Werbevideo:

Seit mehreren Jahren beobachten Wissenschaftler dieses Phänomen, insbesondere in Computer-Vision-Systemen, ohne wirklich zu wissen, wie solche Schwachstellen beseitigt werden können. Tatsächlich stellen die Arbeiten, die letzte Woche auf einer großen Konferenz zur Erforschung künstlicher Intelligenz (ICLR) vorgestellt wurden, die Unvermeidlichkeit von Angriffen durch Gegner in Frage. Es scheint, dass es immer eine Art Empörung gibt, mit der Sie das System brechen, egal wie viele Panda-Bilder Sie dem Bildklassifizierer zuführen.

Neue Arbeiten des MIT zeigen jedoch, dass wir falsch über gegnerische Angriffe nachgedacht haben. Anstatt Wege zu finden, um mehr Qualitätsdaten zu sammeln, die das System speisen, müssen wir unseren Trainingsansatz grundlegend überdenken.

Die Arbeit demonstriert dies, indem sie eine ziemlich interessante Eigenschaft von gegnerischen Beispielen enthüllt, die uns hilft zu verstehen, warum sie wirksam sind. Was ist der Trick: Scheinbar zufälliges Rauschen oder Aufkleber, die das neuronale Netzwerk verwirren, verwenden tatsächlich sehr punktförmige, subtile Muster, die das Visualisierungssystem gelernt hat, stark mit bestimmten Objekten zu assoziieren. Mit anderen Worten, die Maschine stürzt nicht ab, wenn wir einen Gibbon sehen, in dem wir einen Panda sehen. Tatsächlich sieht sie eine regelmäßige Anordnung von Pixeln, die für Menschen unsichtbar sind und in Bildern mit Gibbons viel häufiger vorkommen als in Bildern mit Pandas während des Trainings.

Wissenschaftler haben dies experimentell demonstriert: Sie erstellten einen Datensatz mit Bildern von Hunden, die alle so verändert wurden, dass der Standardbildklassifikator sie fälschlicherweise als Katzen identifizierte. Anschließend haben sie diese Bilder mit „Katzen“versehen und damit ein neues neuronales Netzwerk von Grund auf trainiert. Nach dem Training zeigten sie dem neuronalen Netzwerk echte Bilder von Katzen, und sie identifizierte sie alle korrekt als Katzen.

Die Forscher stellten die Hypothese auf, dass es in jedem Datensatz zwei Arten von Korrelationen gibt: Muster, die tatsächlich mit der Bedeutung der Daten korrelieren, wie z. B. Whisker in Katzenbildern oder Fellfärbung in Pandabildern, und Muster, die in Trainingsdaten vorhanden sind, aber nicht weitergegeben werden. zu anderen Kontexten. Diese letzten "irreführenden" Korrelationen, nennen wir sie so, werden bei gegnerischen Angriffen verwendet. Ein Erkennungssystem, das darauf trainiert ist, "irreführende" Muster zu erkennen, findet sie und glaubt, einen Affen zu sehen.

Dies sagt uns, dass wir die Art und Weise, wie wir unsere Modelle trainieren, ändern müssen, um das Risiko eines gegnerischen Angriffs auszuschließen. Wir erlauben dem neuronalen Netzwerk derzeit, die Korrelationen auszuwählen, die es zur Identifizierung von Objekten im Bild verwenden möchte. Infolgedessen haben wir keine Kontrolle über die gefundenen Korrelationen, ob sie real oder irreführend sind. Wenn wir stattdessen unsere Modelle so trainieren würden, dass sie sich nur an reale Muster erinnern, die an bedeutungsvolle Pixel gebunden sind, wäre es theoretisch möglich, Deep-Learning-Systeme zu erzeugen, die nicht verwechselt werden können.

Als Wissenschaftler diese Idee testeten und nur reale Korrelationen verwendeten, um ihr Modell zu trainieren, reduzierten sie tatsächlich seine Verwundbarkeit: Es wurde nur 50% der Zeit manipuliert, während ein Modell, das auf reale und falsche Korrelationen trainiert wurde, 95% der Zeit manipuliert wurde.

Kurz gesagt, Sie können sich gegen gegnerische Angriffe verteidigen. Aber wir brauchen mehr Forschung, um sie vollständig zu beseitigen.

Ilya Khel

Empfohlen: