Wann Wird Künstliche Intelligenz Beginnen, Die Serie - Alternative Ansicht

Inhaltsverzeichnis:

Wann Wird Künstliche Intelligenz Beginnen, Die Serie - Alternative Ansicht
Wann Wird Künstliche Intelligenz Beginnen, Die Serie - Alternative Ansicht

Video: Wann Wird Künstliche Intelligenz Beginnen, Die Serie - Alternative Ansicht

Video: Wann Wird Künstliche Intelligenz Beginnen, Die Serie - Alternative Ansicht
Video: Auswirkungen von KI auf Gesellschaft und Individuen 2024, April
Anonim

Russische Verlage experimentieren bereits mit der maschinellen Aufzeichnung von Hörbüchern. In Zukunft kann künstliche Intelligenz damit beauftragt werden, Serien zu übersetzen und sie mit den Stimmen ihrer Lieblingsschauspieler zu synchronisieren. Über die Funktionen solcher Technologien und wie lange es dauern wird, sie zu erstellen.

Mündliche Rede wird geschrieben

Auf YouTube werden automatische Untertitel für Videos mithilfe von Spracherkennungs- und Sprach-Text-Übersetzungssoftware erstellt. Es basiert auf selbstlernenden neuronalen Netzen. Diese Option ist mehr als zehn Jahre alt, aber das Ergebnis ist noch lange nicht ideal. Meistens kann man nur die allgemeine Bedeutung des Gesagten erfassen. Was ist die Schwierigkeit?

Nehmen wir an, erklärt Andrey Filchenkov, Leiter des Labors für maschinelles Lernen an der ITMO-Universität, dass wir einen Algorithmus für die Spracherkennung entwickeln. Dies erfordert das Trainieren eines neuronalen Netzwerks auf einem großen Datenfeld.

Es werden Hunderte, Tausende von Stunden Sprachaufzeichnungen und deren korrekter Vergleich mit Texten benötigt, einschließlich des Markierens des Anfangs und des Endes von Phrasen, des Wechselns der Gesprächspartner usw. Dies wird als Gehäuse bezeichnet. Je größer es ist, desto besser ist das Training des neuronalen Netzwerks. Für die englische Sprache wurden wirklich große Korpora erstellt, daher ist die Erkennung viel besser. Aber für Russisch oder beispielsweise Spanisch gibt es viel weniger Daten, und für viele andere Sprachen gibt es überhaupt keine Daten.

"Und das Ergebnis ist angemessen", schließt der Wissenschaftler.

„Darüber hinaus bewerten wir die Bedeutung eines Wortes oder einer Phrase in einem Film nicht nur anhand des Tons, sondern auch anhand der Intonation und des Gesichtsausdrucks des Schauspielers. Wie interpretierst du das? - fügt Sergey Aksenov hinzu, außerordentlicher Professor am Institut für Informationstechnologie der Polytechnischen Universität Tomsk.

Werbevideo:

„Wie gehe ich mit den Merkmalen fließender Sprache um? Unscharfe Artikulation, Skizzierbarkeit, Interjektionen, Pausen? Schließlich ändert sich abhängig davon die Bedeutung, wie in "Sie können nicht begnadigt werden". Wie lehre ich eine Maschine, um festzustellen, wo der Sprecher ein Komma hat? Und in der Poesie? " - listet Marina Bolsunovskaya auf, Leiterin des Labors "Industrial Streaming Data Processing Systems" des NTI SPbPU Center.

Die erfolgreichsten Projekte befinden sich laut Experten in engen Bereichen. Ein von der RTC-Unternehmensgruppe entwickeltes System zur Erkennung der Fachsprache von Ärzten anhand medizinischer Begriffe hilft Ärzten beispielsweise dabei, eine Krankengeschichte zu führen.

„Hier können Sie den Themenbereich klar umreißen und Schlüsselwörter in der Sprache hervorheben. Der Arzt betont speziell bestimmte Abschnitte mit Intonation: Patientenbeschwerden, Diagnose “, stellt Bolsunovskaya klar.

Ein weiteres Problem wird von Michail Burtsev, Leiter des Labors für neuronale Systeme und tiefes Lernen am MIPT, aufgezeigt. Tatsache ist, dass die Maschine bisher erfolgreicher Text erkennt, wenn eine Person spricht als mehrere, wie in Filmen.

Übersetzung mit Kontext

Nehmen wir ein englischsprachiges Video, zum Beispiel einen Ausschnitt aus der TV-Serie "Game of Thrones", und aktivieren Sie automatische russische Untertitel. Was wir sehen, wird uns wahrscheinlich zum Lachen bringen.

Standbild aus * Game of Thrones *
Standbild aus * Game of Thrones *

Standbild aus * Game of Thrones *.

Bei der maschinellen Übersetzung hat die Technologie jedoch beeindruckende Erfolge erzielt. Daher übersetzt Google Translate Texte in gängigen Sprachen recht erträglich. Oft ist nur eine minimale Bearbeitung erforderlich.

Tatsache ist, dass der neuronale Netzwerkübersetzer auch auf einer großen Anzahl von anfänglichen, korrekt beschrifteten Daten trainiert wird - einem parallelen Korpus, der zeigt, wie jede Phrase in der Originalsprache auf Russisch aussehen sollte.

„Der Bau solcher Gebäude ist sehr mühsam, teuer und zeitaufwändig. Es dauert Monate und Jahre. Um ein neuronales Netzwerk zu trainieren, benötigen wir Texte von der Größe der Bibliothek von Alexandria. Die Modelle sind universell, aber vieles hängt von der Sprache ab. Wenn Sie beispielsweise in Avar viele Daten bereitstellen und die Übersetzung von hoher Qualität ist, gibt es für Avar einfach keine solche Datenmenge “, sagt Andrey Filchenkov.

„Übersetzung ist ein separates Produkt, das mit dem Original verwandt ist, aber nicht dem Original entspricht“, sagt Ilya Mirin, Direktorin der School of Digital Economy an der Far Eastern Federal University. - Ein typisches Beispiel sind Dmitry Puchkovs (Goblins) Übersetzungen ausländischer Filme in den 90er Jahren. Erst nach seiner Arbeit wurde klar, was dort geschah. Wir konnten aus den VHS-Versionen nichts Angemessenes herausfinden. Versuchen Sie alternativ, in eine Sprache zu übersetzen, die Sie gut kennen, etwas von The Master und Margarita. Zum Beispiel „in einem schwarzen Umhang mit blutigem Futter“. Die Maschine kann das nicht."

Neuronale Netze lernen gut aus vielen typischen Beispielen, aber Filme sind voller komplexer Bedeutungen und Konnotationen, Witze, die für die Maschine nicht zugänglich sind - sie können sie nicht unterscheiden.

„In jeder Folge der Zeichentrickserie Futurama gibt es einen Hinweis auf das klassische amerikanische Kino - Casablanca, Roman Holiday und so weiter. In solchen Momenten muss der Übersetzer ein genaues Analogon aus dem russischen Kontext erstellen, um die Bedeutung für diejenigen zu erfassen und neu zu verpacken, die diese Filme nicht gesehen haben. Eine falsche maschinelle Übersetzung kann für den Betrachter sehr entmutigend sein “, fährt Mirin fort.

Seiner Meinung nach liegt die Qualität der maschinellen Übersetzung bei fast 80 Prozent, der Rest ist die Spezifität, die manuell unter Einbeziehung von Experten hinzugefügt werden muss. "Und wenn 20 bis 30 Prozent der Phrasen manuell korrigiert werden müssen, wozu dient dann maschinelle Übersetzung?" - sagt der Forscher.

"Die Übersetzung ist die problematischste Phase", stimmt Sergey Aksenov zu. - Alles hängt von Semantik und Kontext ab. Die verfügbaren Tools können für Übersetzungen und maschinelle Sprachausgabe verwendet werden, z. B. Kinder-Cartoons mit einfachem Wortschatz. Aber bei der Interpretation von Ausdruckseinheiten, Eigennamen, Wörtern, die den Betrachter auf einige kulturelle Realitäten verweisen, entstehen Schwierigkeiten."

In Filmen und Videos ist der Kontext immer visuell und wird oft von Musik und Lärm begleitet. Wir spekulieren aus dem Bild, wovon der Held spricht. In Text umgewandelte Sprache enthält diese Informationen nicht, daher ist die Übersetzung schwierig. Dies ist die Situation für Übersetzer, die mit Textuntertiteln arbeiten, ohne den Film zu sehen. Sie sind oft falsch. Maschinelle Übersetzung ist die gleiche Geschichte.

KI spricht Sprache

Um eine ins Russische übersetzte Serie zu synchronisieren, benötigen Sie einen Algorithmus zur Erzeugung natürlicher Sprache aus Text - einen Synthesizer. Sie werden von vielen IT-Unternehmen erstellt, darunter Microsoft, Amazon, Yandex, und es geht ihnen recht gut.

Laut Andrey Filchenkov hat vor ein paar Jahren eine Minute des Überspielens eines Sprachsynthesizers mehrere Stunden gedauert, jetzt hat sich die Verarbeitungsgeschwindigkeit stark erhöht. Die Aufgabe der Sprachsynthese für einige Bereiche, in denen neutrale Dialoge erforderlich sind, ist recht gut gelöst.

Viele halten ein Gespräch mit einem Roboter am Telefon, die Ausführung von Befehlen eines Autonavigators und einen Dialog mit Alice in einem Yandex. Drive-Auto bereits für selbstverständlich. Für das Überspielen von Fernsehserien sind diese Technologien jedoch noch nicht ausreichend.

„Das Problem ist Emotion und Handeln. Wir haben gelernt, die Maschinenstimme menschlich zu machen, aber damit sie immer noch dem Kontext angemessen klingt und Vertrauen schafft, ist es noch ein langer Weg. Eine schlechte Sprachausgabe kann die Wahrnehmung eines Films leicht zerstören “, sagte Filchenkov.

Laut Michail Burtsev ist die Sprachsynthese ziemlich real. Dies ist jedoch rechenintensiv und kann nicht in Echtzeit zu einem angemessenen Preis durchgeführt werden.

„Es gibt Algorithmen, die Sprache synthetisieren, die der eines bestimmten Schauspielers ähnlich ist. Dies ist das Timbre und die Art zu sprechen und vieles mehr. Jeder ausländische Schauspieler wird also tatsächlich Russisch sprechen “, prognostiziert Burtsev. Er erwartet spürbare Fortschritte in den kommenden Jahren.

Sergei Aksenov gibt fünf bis zehn Jahre Zeit, um Werkzeuge zum Übersetzen und Überspielen komplexer Werke aus den gängigsten Sprachen wie Englisch zu entwickeln. Der Wissenschaftler führt das Beispiel von Skype an, das vor einigen Jahren die Möglichkeit demonstrierte, Online-Unterricht für Schüler zu organisieren, die verschiedene Sprachen sprechen. Aber selbst dann wird das System nicht ideal sein, es muss ständig lernen: Vokabeln gewinnen, den kulturellen Kontext berücksichtigen.

Empfohlen: