Wie Künstliche Intelligenz Funktioniert: Spracherkennung - Alternative Ansicht

Inhaltsverzeichnis:

Wie Künstliche Intelligenz Funktioniert: Spracherkennung - Alternative Ansicht
Wie Künstliche Intelligenz Funktioniert: Spracherkennung - Alternative Ansicht

Video: Wie Künstliche Intelligenz Funktioniert: Spracherkennung - Alternative Ansicht

Video: Wie Künstliche Intelligenz Funktioniert: Spracherkennung - Alternative Ansicht
Video: Künstliche Intelligenz in 5 Minuten erklärt 2024, September
Anonim

Jeder von uns ist mit einem so mysteriösen Phänomen wie künstlicher Intelligenz im Alltag konfrontiert - er ist es, der Sprachassistenten und Suchmaschinen ermöglicht, menschliche Sprache zu erkennen und die Wünsche der Benutzer zu erraten. Heute werden wir genau darüber sprechen, wie diese Technologie aufgebaut ist und welche Perspektiven in naher Zukunft auf diesen Entwicklungsbereich warten.

Künstliche Intelligenz ist ein sehr weit gefasster Begriff, in dessen Rahmen bereits viele Algorithmen existieren und sich noch in der Entwicklung befinden, um eine Vielzahl praktischer Aufgaben zu erfüllen. Aber wozu sind moderne Programme für künstliche Intelligenz tatsächlich in der Lage und nach welchen Grundsätzen orientieren sie sich bei ihrer Arbeit? Heute werden wir über eines der Hauptmerkmale des Maschinengeistes sprechen, dem jeder von uns im Alltag regelmäßig begegnet - die Fähigkeit von Sprachassistenten, menschliche Sprache zu erkennen.

Spracherkennung

Um die Stimme zu messen, verwendet das Programm eine Reihe von Klangparametern: die Frequenz und Länge der Schallwelle zu einem bestimmten Zeitpunkt. Wenn Sie beispielsweise mit dem beliebten Sprachassistenten Alexa sprechen, teilt die Software Ihre Stimme in 25-Millisekunden-Folien auf und konvertiert dann jedes der Segmente in digitale Signaturen. Danach werden die Signaturblöcke mit dem internen Katalog der Sounds des Programms verglichen, bis die Anzahl der Übereinstimmungen hoch genug ist, damit die KI die Zahlen in eine alphabetische Abfrage "übersetzen" kann, die sie versteht.

Image
Image

Beobachten Sie den Bildschirm Ihres Telefons, während Sie Siri oder Google Assistant verwenden, und Sie werden feststellen, dass sich der Wortschatz ändert, wenn Sie die Wörter sprechen. Dies liegt an der Tatsache, dass die Software bei jedem nächsten "Schritt" auch das mit der internen Datenbank erzielte Ergebnis vergleicht und abhängig von den Übereinstimmungen Wörter erstellt. Laut Rohit Prasad, Chefwissenschaftler der Alexa-Abteilung von Amazon, "lernt das Sprachmodell viele Milliarden Wörter in Form von Text." Die Wortreihenfolge spielt ebenfalls eine wichtige Rolle: Dies kann auch mithilfe der üblichen Google-Suchmaschine festgestellt werden, die manchmal unterschiedliche Daten für identische Abfragen liefert, bei denen nur einige Wörter neu angeordnet wurden.

Werbevideo:

Perspektiven der Spracherkennung

Alan Black vom Carnegie Institute for Language Technology argumentiert, dass es für alle Fachleute in großen Unternehmen am interessantesten ist, die Grenzen ihres eigenen Systems zu finden. "Wenn das Programm sagt:" Ich kann das nicht ", wird die Situation wirklich interessant", scherzt er. Dies ist jedoch in der Tat der Fall: Die Beantwortung unvorhersehbarer Benutzeranfragen ist sogar eine der Hauptaufgaben, die Studentenkreise, die um den Alexa-Preis konkurrieren - und das sind bis zu 2,5 Millionen US-Dollar - untersuchen. Ihre Aufgabe ist es, einen Chatbot zu erstellen, der mit Menschen kommuniziert, die konsistente und aussagekräftige Fragen stellen. Die Informationen in diesem Fall werden alle 20 Minuten aktualisiert. Klingt selbst für einen durchschnittlichen Programmierer nach einer ziemlich einfachen Aufgabe. In der Praxis ist die Kommunikation des Programms mit realen Personen jedoch immer mit Abweichungen vom Thema Dialog, spontanen Phrasen und anderen Verstößen verbunden. Ein Programm, das lernt, mit ihnen und einer realen Person zu arbeiten, wird ein großer Durchbruch für die gesamte KI-Branche sein.

Wassili Makarow