Dem Neuronalen Netzwerk Wurde Beigebracht, Die Menschliche Stimme Fast Perfekt Zu Kopieren - Alternative Ansicht

Inhaltsverzeichnis:

Dem Neuronalen Netzwerk Wurde Beigebracht, Die Menschliche Stimme Fast Perfekt Zu Kopieren - Alternative Ansicht
Dem Neuronalen Netzwerk Wurde Beigebracht, Die Menschliche Stimme Fast Perfekt Zu Kopieren - Alternative Ansicht

Video: Dem Neuronalen Netzwerk Wurde Beigebracht, Die Menschliche Stimme Fast Perfekt Zu Kopieren - Alternative Ansicht

Video: Dem Neuronalen Netzwerk Wurde Beigebracht, Die Menschliche Stimme Fast Perfekt Zu Kopieren - Alternative Ansicht
Video: Trailer "Die Stimme" (DVD) - Einblicke in die physiologischen Vorgänge beim Singen und Sprechen 2024, March
Anonim

Im vergangenen Jahr teilte das Technologieunternehmen für künstliche Intelligenz DeepMind Details über sein neues Projekt WaveNet mit, ein tief lernendes neuronales Netzwerk, mit dem realistische menschliche Sprache synthetisiert wird. Kürzlich wurde eine verbesserte Version dieser Technologie veröffentlicht, die als Grundlage für den digitalen mobilen Assistenten Google Assistant verwendet wird.

Ein Sprachsynthesesystem (auch als Text-zu-Sprache-Funktion, TTS, bekannt) basiert normalerweise auf einer von zwei grundlegenden Methoden. Die Verkettungs- (oder Kompilierungs-) Methode beinhaltet die Konstruktion von Phrasen durch Sammeln einzelner Stücke aufgezeichneter Wörter und Teile, die zuvor unter Beteiligung eines Synchronsprechers aufgezeichnet wurden. Der Hauptnachteil dieser Methode ist die Notwendigkeit, die Soundbibliothek ständig zu ersetzen, wenn Aktualisierungen oder Änderungen vorgenommen werden.

Eine andere Methode heißt parametrisches TTS, und ihre Funktion ist die Verwendung von Parametersätzen, mit denen der Computer die gewünschte Phrase erzeugt. Der Nachteil der Methode ist, dass sich das Ergebnis meist in Form eines unrealistischen oder sogenannten Robotertons manifestiert.

WaveNet hingegen erzeugt Schallwellen von Grund auf mithilfe eines Faltungsnetzwerks, bei dem Schall in mehreren Schichten erzeugt wird. Um die Plattform für die Synthese von "Live" -Sprache zu trainieren, wird zunächst eine große Anzahl von Samples "gespeist", wobei festgestellt wird, welche Tonsignale realistisch klingen und welche nicht. Dies gibt dem Sprachsynthesizer die Möglichkeit, naturalistische Intonation und sogar Details wie schmatzende Lippen zu reproduzieren. Abhängig davon, welche Sprachproben durch das System laufen, kann es einen einzigartigen "Akzent" entwickeln, mit dem langfristig viele verschiedene Stimmen erzeugt werden können.

Scharf auf der Zunge

Die vielleicht größte Einschränkung des WaveNet-Systems bestand darin, dass für den Betrieb eine große Menge an Rechenleistung erforderlich war, und selbst wenn diese Bedingung erfüllt war, unterschied es sich nicht in der Geschwindigkeit. Zum Beispiel dauerte es ungefähr 1 Sekunde, um 0,02 Sekunden Ton zu erzeugen.

Nach einem Jahr Arbeit haben die DeepMind-Ingenieure immer noch einen Weg gefunden, das System zu verbessern und zu optimieren, sodass es jetzt in nur 50 Millisekunden einen rohen Klang von einer Sekunde erzeugen kann, was 1000-mal schneller ist als seine ursprünglichen Fähigkeiten. Darüber hinaus gelang es den Spezialisten, die Audio-Abtastrate von 8 Bit auf 16 Bit zu erhöhen, was sich positiv auf die Tests mit Zuhörern auswirkte. Diese Erfolge haben WaveNet den Weg für die Integration in Konsumgüter wie Google Assistant geebnet.

Werbevideo:

Derzeit kann WaveNet verwendet werden, um englische und japanische Stimmen über Google Assistant und alle Plattformen zu generieren, die diesen digitalen Assistenten verwenden. Da das System eine spezielle Art von Stimmen erstellen kann, je nachdem, welche Samples für das Training bereitgestellt wurden, wird Google in naher Zukunft höchstwahrscheinlich Unterstützung für die Synthese realistischer Sprache in WaveNet in anderen Sprachen implementieren, einschließlich deren Berücksichtigung lokale Dialekte.

Sprachschnittstellen werden auf einer Vielzahl von Plattformen immer häufiger verwendet, aber ihre ausgeprägte unnatürliche Natur des Klangs schaltet viele potenzielle Benutzer aus. Die Bemühungen von DeepMind, diese Technologie zu verbessern, werden sicherlich zu einer breiteren Akzeptanz solcher Sprachsysteme beitragen und die Benutzererfahrung durch ihre Verwendung verbessern.

Beispiele für synthetisierte englische und japanische Sprache unter Verwendung des neuronalen WaveNet-Netzwerks finden Sie unter diesem Link.

Nikolay Khizhnyak

Empfohlen: