Dem Neuronalen Netzwerk Wurde Beigebracht, Porträts Basierend Auf Nur Einem Statischen Bild Zu "animieren" - Alternative Ansicht

Dem Neuronalen Netzwerk Wurde Beigebracht, Porträts Basierend Auf Nur Einem Statischen Bild Zu "animieren" - Alternative Ansicht
Dem Neuronalen Netzwerk Wurde Beigebracht, Porträts Basierend Auf Nur Einem Statischen Bild Zu "animieren" - Alternative Ansicht

Video: Dem Neuronalen Netzwerk Wurde Beigebracht, Porträts Basierend Auf Nur Einem Statischen Bild Zu "animieren" - Alternative Ansicht

Video: Dem Neuronalen Netzwerk Wurde Beigebracht, Porträts Basierend Auf Nur Einem Statischen Bild Zu
Video: Einen Report über die Aktivitäten deines Wlan Netzwerkes der letzten Tage erstellen! 2024, Kann
Anonim

Russische Spezialisten des Samsung AI Center-Moskauer Zentrums für künstliche Intelligenz haben in Zusammenarbeit mit Ingenieuren des Skolkovo-Instituts für Wissenschaft und Technologie ein System entwickelt, mit dem realistische animierte Bilder menschlicher Gesichter auf der Grundlage weniger statischer menschlicher Rahmen erstellt werden können. In diesem Fall ist normalerweise die Verwendung großer Bilddatenbanken erforderlich. In dem von den Entwicklern vorgestellten Beispiel wurde das System jedoch darauf trainiert, aus nur acht statischen Bildern ein animiertes Bild eines menschlichen Gesichts zu erstellen, und in einigen Fällen war eines ausreichend. Weitere Informationen zur Entwicklung finden Sie in einem Artikel, der im Online-Repository von ArXiv.org veröffentlicht wurde.

Image
Image

In der Regel ist es aufgrund der hohen photometrischen, geometrischen und kinematischen Komplexität der Reproduktion des menschlichen Kopfes ziemlich schwierig, ein fotorealistisches personalisiertes Modul eines menschlichen Gesichts zu reproduzieren. Dies erklärt sich nicht nur aus der Komplexität der Modellierung des Gesichts als Ganzes (dafür gibt es eine Vielzahl von Ansätzen zur Modellierung), sondern auch aus der Komplexität der Modellierung bestimmter Merkmale: Mundhöhle, Haare usw. Der zweite komplizierende Faktor ist unsere Tendenz, selbst geringfügige Fehler im fertigen Modell menschlicher Köpfe zu erkennen. Diese geringe Toleranz für Modellierungsfehler erklärt die derzeitige Verbreitung nicht fotorealistischer Avatare, die bei Telefonkonferenzen verwendet werden.

Laut den Autoren ist das System, das als Fewshot-Lernen bezeichnet wird, in der Lage, höchst realistische Modelle von sprechenden Menschenköpfen und sogar Porträtgemälden zu erstellen. Die Algorithmen synthetisieren das Bild des Kopfes derselben Person mit den Linien der Gesichtsreferenz, die aus einem anderen Fragment des Videos stammen, oder verwenden die Referenzpunkte des Gesichts einer anderen Person. Als Materialquelle für das Training des Systems verwendeten die Entwickler eine umfangreiche Datenbank mit Promi-Videobildern. Um einen möglichst genauen Sprechkopf zu erhalten, muss das System mehr als 32 Bilder verwenden.

Um realistischere animierte Gesichtsbilder zu erstellen, verwendeten die Entwickler frühere Entwicklungen in der generativen kontradiktorischen Modellierung (GAN, bei der ein neuronales Netzwerk die Details eines Bildes ausdenkt und tatsächlich Künstler wird) sowie einen maschinellen Meta-Lernansatz, bei dem jedes Element des Systems trainiert und entwickelt wird, um einige zu lösen bestimmte Aufgabe.

Meta-Lernschema
Meta-Lernschema

Meta-Lernschema.

Image
Image
Image
Image

Werbevideo:

Drei neuronale Netze wurden verwendet, um statische Bilder der Köpfe von Menschen zu verarbeiten und in animierte umzuwandeln: Embedder (Implementierungsnetzwerk), Generator (Generationsnetzwerk) und Discriminator (Diskriminatorennetzwerk). Das erste Netzwerk unterteilt die Kopfbilder (mit ungefähren Gesichtsmarkierungen) in Einbettungsvektoren, die Informationen unabhängig von der Pose enthalten. Das zweite Netzwerk verwendet die vom Einbettungsnetzwerk erhaltenen Gesichtsmarkierungen und generiert darauf basierend neue Daten durch eine Reihe von Faltungsschichten, die Widerstand gegen Skalenänderungen, Verschiebungen und Verschiebungen bieten. Drehungen, Winkeländerungen und andere Verzerrungen des ursprünglichen Gesichtsbildes. Ein Netzwerkdiskriminator wird verwendet, um die Qualität und Authentizität der beiden anderen Netzwerke zu bewerten. Infolgedessen wandelt das System Orientierungspunkte im Gesicht einer Person in realistisch aussehende personalisierte Fotos um.

Image
Image
Image
Image

Die Entwickler betonen, dass ihr System in der Lage ist, die Parameter sowohl des Generatornetzwerks als auch des Diskriminatornetzwerks für jede Person im Bild einzeln zu initialisieren, sodass der Lernprozess auf nur wenigen Bildern basieren kann, was seine Geschwindigkeit erhöht, obwohl mehrere zehn Millionen Parameter ausgewählt werden müssen.

Nikolay Khizhnyak

Empfohlen: