Wie Die Geheimnisse Des Voynich-Manuskripts Enthüllt Werden: Eine Untersuchung - Alternative Ansicht

Inhaltsverzeichnis:

Wie Die Geheimnisse Des Voynich-Manuskripts Enthüllt Werden: Eine Untersuchung - Alternative Ansicht
Wie Die Geheimnisse Des Voynich-Manuskripts Enthüllt Werden: Eine Untersuchung - Alternative Ansicht

Video: Wie Die Geheimnisse Des Voynich-Manuskripts Enthüllt Werden: Eine Untersuchung - Alternative Ansicht

Video: Wie Die Geheimnisse Des Voynich-Manuskripts Enthüllt Werden: Eine Untersuchung - Alternative Ansicht
Video: The Voynich Manuscript Decoded and Solved? 2024, Kann
Anonim

Was hinter den sensationellen Nachrichten über das Voynich-Manuskript und über russische Wissenschaftler steckt, ist, dass es möglich ist, die Sprache aus dem Text genau zu bestimmen, wie adäquat Mathematiker auf dem "Gebiet" der Linguistik arbeiten.

Am 19. April verbreiteten die russischen Medien die Nachrichten über die "epochale" Entdeckung russischer Mathematiker: Mit der neuen Methode bewiesen die Wissenschaftler nicht nur die Aussagekraft des berühmten "Voynich-Manuskripts", sondern konnten auch feststellen, dass es in zwei Sprachen und mit Ausnahme von Vokalbuchstaben geschrieben war.

Das Voynich-Manuskript ist ein mittelalterliches illustriertes Manuskript, das 1912 vom Antiquitätenhändler Wilfred Voynich gekauft wurde. Erstellt im 15. Jahrhundert (basierend auf der Radiokohlenstoffanalyse von Pergament - aber die meisten Gelehrten betrachten den Text selbst derzeit nicht als spätere Fälschung), ist er in einer unbekannten Sprache unter Verwendung eines unbekannten Alphabets geschrieben. Den Abbildungen nach zu urteilen, besteht der Text aus thematischen Blöcken: botanisch, astronomisch, pharmakologisch und anderen. Die Komplexität der Dekodierung des Textes machte das Voynich-Manuskript zu einem „heiligen Gral“für Kryptographen und Gegenstand vieler Studien, einschließlich solcher, die Big-Data-Methoden verwenden.

Die Nachricht vom Manuskript wurde als etwas Sensationelles gemeldet. Dies erregte sofort Verdacht. „Vorher sind alle Versuche, ein eindeutiges Dokument zu entschlüsseln und sogar nur zu verstehen, ob es sich um einen aussagekräftigen Text handelt, fehlgeschlagen. 600 Jahre nutzloser Bemühungen!.. Kryptographen der CIA und der NSA, Supercomputer und sogar Ärzte der "okkulten Wissenschaften" unterschrieben ihre völlige Impotenz. Der neueste Beitrag des Kryptologen Gordon Rugg von der Keele University in Großbritannien lautet: „Das Voynich-Manuskript ist eine Fälschung. Solch ein „komplexer Text“ist für jeden, der mit einfachen Kopiermethoden vertraut ist, leicht zu konstruieren “, heißt es in dem Artikel.

Erstens wurde die Aussagekraft des Textes bereits in den 1970er Jahren erkannt und in Studien der 2010er Jahre mehrfach bestätigt, über die auch in den heimischen Medien ausreichend ausführlich geschrieben wurde. Zweitens wurde die den Nachrichten übermittelte Entdeckung nur in Form eines Institutsvorabdrucks und nicht in einem Artikel in einer internationalen Fachzeitschrift präsentiert (der Vorabdruck wurde bereits 2016 veröffentlicht).

Diese Kuriositäten bei der Präsentation des Materials zwangen uns, zuerst den Autor der Studie und dann unabhängige Experten um Klarstellung zu bitten - Linguisten, die mit statistischen und mathematischen Methoden sowie mit der Dekodierung alter Schriften arbeiten.

Die Formel ist einfach zu schreiben und die numerische Analyse ist sehr teuer

Werbevideo:

Zunächst kurz zum Kern der Studie. Die Autoren des Preprint, Mathematiker des Moskauer Instituts für Physik und Technologie und des Instituts für Angewandte Mathematik der Russischen Akademie der Wissenschaften, verlassen sich auf ihre Arbeiten, wonach "die Häufigkeitsverteilung von Textsymbolen ein stabiles Merkmal nicht des Autors oder des Themas des Textes, sondern der Sprache ist". Das heißt, mithilfe eines Satzes können Sie mithilfe mathematischer Werkzeuge bestimmen, in welcher Sprache es geschrieben ist, da jede Sprache ihr eigenes charakteristisches "Profil" hat (Verteilung des Hurst-Exponenten). Auf der Grundlage dieser Methoden stellten die Wissenschaftler fest, dass der Text des Manuskripts in einer Mischung aus mehreren Sprachen verfasst war. Gleichzeitig wurden falsche Leerzeichen hinzugefügt und die Symbole für Vokale entfernt.

Der Hauptautor der Studie, Yuri Orlov (IPM RAS und MIPT), betonte, dass das Voynich-Manuskript überhaupt nicht das Hauptziel ihrer Arbeit sei. "Das 'sensationelle' Manuskript ist nur eine Illustration der mathematischen Methode zum Erkennen von Sprachen aus Text - ein Problem für das maschinelle Lernen", sagte Orlov.

Das Manuskript selbst ist für uns absolut nicht interessant. Wissenschaft bezieht sich speziell auf die Statistik der Sprachen. Dadurch können wir verstehen, in welcher Sprache dieses Manuskript geschrieben ist. Aber nicht das, was dort geschrieben steht, das ist ein wichtiger Punkt. - Juri Orlow. MIPT und das Institut für Angewandte Mathematik nach M. V. Keldysh

In Bezug auf die in der Arbeit verwendete sprachliche Methode stellt Orlow fest, dass die Analyse der Häufigkeit von Buchstabenkombinationen in Texten selbst eine bekannte Sache ist. Der Hurst-Indikator ist Linguisten jedoch kaum bekannt, da er selbst in mathematischen Begriffen schwer zu berechnen ist. Die Formel selbst ist leicht zu schreiben, aber die numerische Analyse ist sehr kostspielig. Dafür ist der Supercomputer am Institut nach M. V. Keldysh, betont der Mathematiker.

Die Wahl der indogermanischen Sprachen für die Analyse erklärt sich aus der Tatsache, dass sie alle sehr ähnlich sind, sagt Orlow. Von Mathematikern entwickelte Indikatoren erleichtern die Unterscheidung von Sprachen innerhalb derselben Sprachgruppe, jedoch nicht zwischen Familien. Natürlich ist es theoretisch möglich, dieselbe Arbeit mit anderen Gruppen (Ural, Altai oder anderen) durchzuführen, aber der Wert der Analyse liegt in ihrer Vollständigkeit, da Orlow sicher ist. Bei indogermanischen Sprachen ist es nicht schwierig, für jede Sprache einen Korpus von Texten zu schreiben, es ist schwieriger, dies mit anderen Familien zu tun.

Zurück zum Voynich-Manuskript bemerkte Orlow, dass er und seine Kollegen fünf Beweise (das logarithmische Profil der Häufigkeitsreihenfolge von Buchstaben im Text in einer und mehreren Sprachen, die Verteilung des Hurst-Exponenten, das Spektralporträt der Matrix der bedingten Wahrscheinlichkeiten und andere) der Hypothese über die Mischung der Sprachen im Manuskript und die Streichung zitierten Buchstaben für Vokale. Sie distanzieren sich nachdrücklich vom "Hangout um das Manuskript", präsentierten jedoch ein einzigartiges Ergebnis - eine offene Methode, statistische Analyse mit einer Bewertung der Zuverlässigkeit, die unabhängig überprüft werden kann.

Die Schlussfolgerung wird durch die Tatsache abgewertet, dass wir nicht verstehen, welches Material sie abgeleitet haben und worauf sie ihre Formel überprüft haben

Die bloße Annahme, dass der Text des Voynich-Manuskripts keine Buchstaben für Vokale mit falsch beabstandeten Leerzeichen enthält, ist schön und gut, bemerkt die Linguistin Evgenia Korovina, die sich mit mathematischer Sprachstatistik beschäftigt (Institut für Linguistik, Russische Akademie der Wissenschaften). Bisher hat niemand eine solche Hypothese aufgestellt. Sie erklärt zum Beispiel auf wunderbare Weise, warum es weniger Buchstaben gibt, als für einen europäischen Text zu erwarten wäre. Das Problem ist jedoch, dass die Autoren der Studie nicht einmal angegeben haben, welche Texte in verschiedenen Sprachen sie verglichen haben und wie groß das Volumen dieser Tests war. Im Preprint wird eine Vielzahl von Sprachen erwähnt. Daher ist die Studie nicht reproduzierbar: Wenn Sie beliebige Texte in denselben Sprachen verwenden, ist es keine Tatsache, dass dieselben Muster herauskommen.

Maria Molina, eine Spezialistin für Korpusmethoden im Studium der alten Sprachen (Institut für Linguistik, RAS), stimmt Korovina zu. Neue Methoden zur Verarbeitung sprachlicher Daten helfen ihrer Meinung nach dabei, Informationen darüber zu erhalten, was bisher für Sprachforscher geschlossen war. Unzureichend gut vorbereitetes Eingabematerial diskreditiert jedoch häufig selbst die besten Datenverarbeitungstechniken.

Die Schlussfolgerung wird durch die Tatsache abgewertet, dass wir nicht verstehen, auf welchem Material sie gezeichnet haben und worauf sie ihre Formel überprüft haben. Für mein Material weiß ich mit Sicherheit, dass es einen kleinen methodischen Fehler gibt - und ich bekomme kritisch unterschiedliche Zahlen. - Maria Molina. Institut für Linguistik RAS

"Müll rein - Müll raus", fügt Molina hinzu (GIGO ist ein Prinzip in der Informatik, das bedeutet, dass falsche Eingabedaten zu falschen Ergebnissen führen, selbst wenn der Algorithmus selbst korrekt ist, - beachten Sie Indicator. Ru).

Statistische Methoden sind immer noch Hinweise auf Ergebnisse, nicht auf Ergebnisse

Albert Davletshin (Mitarbeiter des Zentrums für sprachvergleichende Studien des Instituts für vergleichende Studien der Russischen Staatlichen Humanitären Universität, studiert Maya und Polynesisch) sprach noch schärfer. Wenn die Autoren des Vorabdrucks das Voynich-Manuskript nicht entschlüsseln wollten, warum tun sie es dann? Wenn wir speziell über die Entschlüsselung unbekannter Schriften sprechen, stellt sich eine Frage nach der anderen: „Es gibt keine ersten Daten zum Schreiben - welche Art von Brief? Wie werden die verschiedenen Transkriptionen erhalten? Wie viele Zeichen? Was liegt den bestehenden Annahmen über die Art des Schreibens zugrunde? Wie lang ist ein Wort, das durch Leerzeichen und ohne Leerzeichen getrennt ist? Was bedeuten Räume? Wie groß ist das Wörterbuch? Wie ist das Verhältnis von Unterschriften und Zeichnungen?

Zunächst stellt sich heraus, dass der Text dänisch und nur dänisch ist (und dies ist historisch unmöglich, worüber es in der Arbeit kein Wort gibt). Dann stellt sich heraus, dass der Text in zwei unbekannten Sprachen vorliegt (eine Überprüfung in diesem Stadium erweist sich als unmöglich und wird im Glauben angenommen). Darüber hinaus gibt es viele konservative Möglichkeiten, um zu zeigen, dass zwei (große) Seiten in einem Buchstaben, aber in verschiedenen Sprachen geschrieben sind, ohne auf komplexe mathematische Modelle zurückzugreifen. Wenn Vokale aus dem Text entfernt werden, inwieweit wird dies durch seit langem bekannte Standardmethoden (z. B. von Sukhotin, Shevoroshkin und Ventris) bestätigt?"

Davletshin kritisiert auch die Unempfindlichkeit gegenüber Philologie und Geschichte, die für diese Art von Forschung charakteristisch ist:

Was ich im Text sehe: Es gibt oft Leute, die Quelle X nehmen und vergessen wollen, dass es sich um eine Quelle handelt und in einem historischen, einschließlich sprachlichen, Kontext existiert und irgendwie etwas darin zählt. Interessant ist die Hypothese, dass ein Manuskript mehr als eine Sprache enthält. Aber man könnte es irgendwie menschlich zeigen. Statistische Methoden sind immer noch Hinweise auf Ergebnisse, keine Ergebnisse. -Albert Davletshin. Zentrum für sprachvergleichende Studien IVKA RSUH

Es gibt kein Kriterium, um interessante Ergebnisse von schrecklichen zu unterscheiden

Eine ausgewogenere Position vertrat Georgy Starostin, Experte für vergleichende historische Linguistik (RSUH). Er war mehr daran interessiert, wie nützlich neue mathematische Methoden zur Lösung von Problemen sind, mit denen Linguisten konfrontiert sind. „Das im Artikel vorgestellte Modell macht einen seltsamen Eindruck. Einerseits scheint es zur Kategorie "blind" zu gehören, bei der Textdaten ohne vorherige Beurteilung der Struktur des Alphabets analysiert werden (z. B. sollten Digraphen wie das englische ch, sh als Kombinationen aus zwei Buchstaben betrachtet werden, obwohl dies tatsächlich einer ist Klang). Auf der anderen Seite werden Vokale aus den verglichenen Zeichenfolgen geworfen, die laut den Autoren des Textes weniger Informationen enthalten und eher Rauschen hinzufügen. Im Allgemeinen ist die Testbasis eindeutig sehr klein, es ist unmöglich, in so vielen Sprachen über etwas Grundlegendes zu sprechen."

Die Ergebnisse des Vergleichs der indogermanischen und uralischen Sprachen, die in der Vergleichstabelle 3 des Artikels dargestellt sind, lassen Starostin nicht besonders optimistisch erscheinen. Einige Indikatoren für den Grad der Nähe von Sprachen werden gut erfasst (z. B. innergermanische oder innerromanische Verbindungen), andere schlecht (zum Beispiel identifiziert die Methodik die indogermanische Familie nicht mehr). Die Hauptsache ist, dass es kein Kriterium gibt, um interessante Ergebnisse von schrecklichen zu unterscheiden. Im besten Fall ermöglicht die Methode die Unterscheidung kleiner Sprachgruppen (obwohl sie auch hier nicht zwischen eng verwandten finnischen und estnischen funktioniert), aber alle diese Gruppen können ohne sie zuverlässig identifiziert werden.

Tabelle 3 aus dem Preprint, in der die Ergebnisse zum Vergleich der indoeuropäischen und der uralischen Sprache dargestellt sind. Die gleiche Farbe in der Tabelle. Es werden 3 Gruppen von Sprachen identifiziert, die paarweise nahe beieinander liegen (im Sinne der L1-Norm der Verteilung geordneter Häufigkeiten in Texten ohne Vokal). Einige unerwartet enge Sprachpaare sind rot markiert, z. B. Deutsch / Ungarisch, Englisch / Estnisch, Latein / Baskisch und Griechisch / Finnisch. Preprint-Autoren: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A
Tabelle 3 aus dem Preprint, in der die Ergebnisse zum Vergleich der indoeuropäischen und der uralischen Sprache dargestellt sind. Die gleiche Farbe in der Tabelle. Es werden 3 Gruppen von Sprachen identifiziert, die paarweise nahe beieinander liegen (im Sinne der L1-Norm der Verteilung geordneter Häufigkeiten in Texten ohne Vokal). Einige unerwartet enge Sprachpaare sind rot markiert, z. B. Deutsch / Ungarisch, Englisch / Estnisch, Latein / Baskisch und Griechisch / Finnisch. Preprint-Autoren: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A

Tabelle 3 aus dem Preprint, in der die Ergebnisse zum Vergleich der indoeuropäischen und der uralischen Sprache dargestellt sind. Die gleiche Farbe in der Tabelle. Es werden 3 Gruppen von Sprachen identifiziert, die paarweise nahe beieinander liegen (im Sinne der L1-Norm der Verteilung geordneter Häufigkeiten in Texten ohne Vokal). Einige unerwartet enge Sprachpaare sind rot markiert, z. B. Deutsch / Ungarisch, Englisch / Estnisch, Latein / Baskisch und Griechisch / Finnisch. Preprint-Autoren: Arutyunov A. A., Borisov L. A., Zenyuk D. A., Ivchenko A. Yu., Kirina-Lilinskaya E. P., Orlov Yu. N., Osminin K. P., Fedorov S. L., Shilin S. A.

Schließlich ist es eine interessante Idee, die genetischen Eigenschaften einer Sprache durch die Verteilung des Hurst-Exponenten zu bestimmen, und vielleicht sogar zu einem wissenschaftlichen Punkt gebracht. Dies erfordert jedoch die Verarbeitung einer großen Anzahl von Texten in verschiedenen Sprachen. Und das Problem tritt sofort auf: Viele Sprachen sind ungeschrieben, und wie richtig es ist, die alphabetischen Aufzeichnungssysteme mit phonetischen Transkriptionen zu vergleichen, bleibt unklar. Starostin ist sich sicher, dass diese Idee nur sehr wenig praktischen Sinn hat. Bestenfalls kann es wirklich auf Vorfälle wie das Voynich-Manuskript angewendet werden, wenn die Hypothese besteht, dass eine Sprache mit einer alphabetischen Standardschrift nach bestimmten Prinzipien verschlüsselt wird (z. B. durch Löschen von Vokalen usw.). Es gibt jedoch nur sehr wenige derartige Vorfälle auf der Welt.

Zusammenfassen

Was steht unter dem Strich? Die Diskussion um die IPM- und MIPT-Forschung ergab eine tiefe Kluft zwischen der Sprachgemeinschaft (auch unter Verwendung statistischer Methoden) und „Außenseitern“in Bezug auf Linguistikspezialisten, die beschlossen, ihre mathematischen Werkzeuge auf Sprachmaterial anzuwenden.

Die Tatsache, dass Mathematiker nicht mit Linguisten zusammenarbeiten wollen, führt nicht nur zu groben Fehlern, die dann in die Medien migrieren (zum Beispiel heißt die baskische Sprache im Preprint indoeuropäisch, es gibt einen Ausdruck "Vokalbuchstaben"). Die Schönheit der Modelle und die Rechenleistung von Supercomputern werden tatsächlich durch Fehler am Eintrittspunkt abgewertet. Mit dem Wunsch und der Offenheit der Kontakte zu Kollegen aus einer anderen Disziplin könnten diese Fehler leicht vermieden werden.

Das Voynich-Manuskript selbst finden Sie hier.

Empfohlen: