Widgets Magazine
07:13 24 Juli 2019
SNA Radio
    Schreibtisch eines Sprachwissenschaftlers (Symbolbild)

    Was Google nicht kann: Russische Suchmaschine rettet aussterbende Sprachen

    © AP Photo / Kevork Djansezian
    Panorama
    Zum Kurzlink
    3850

    Das russische IT-Unternehmen Yandex bietet in seinem Übersetzungsdienst eine Vielzahl seltener Sprachen an. Einige davon sind sogar vom Aussterben bedroht. Was dabei entsteht, ist wahrlich eine einzigartige linguistische Kollektion von großer kultureller Bedeutung.

    Während der Google-Übersetzer seinen Dienst in mehr als einhundert Sprachen anbietet, hat sein russischer Konkurrent 94 verschiedene Sprachen im Angebot. Was Google jedoch nicht bietet, sind wirklich seltene Sprachen. Da punktet Yandex beispielsweise mit der Fantasiesprache von J. R. R. Tolkien – Elbisch.

    Um einige vom Aussterben bedrohte Sprachen am Leben zu erhalten, arbeitet die russische Firma mit Linguisten zusammen. Laut Unesco gibt es fast 2.500 Sprachen in dieser Kategorie. Jede tote Sprache bedeutet dabei einen Verlust von unschätzbarem Kulturerbe.

    Wenn die Maschine selbstständig lernen kann

    Yandex hat seinen Übersetzungsdienst im Jahr 2011 gestartet. Damals beherrschte dieser gerade mal drei Sprachen: Russisch, Ukrainisch und Englisch. Mittlerweile ist er aber zu einem echten Polyglott geworden, wie das Unternehmen selbst erläutert, und das nicht nur wegen der vielen Sprachen, die das Tool seit seiner „Geburt“ gelernt hat. Der Yandex-Übersetzer beherrscht beispielsweise auch Papiamentu – eine Kreolsprache mit weniger als 300.000 Sprechern, die im Süden der Karibik zu hören ist.

    Wie Yandex-Spezialisten erläutern, ist es eine schwierige Aufgabe für das System der maschinellen Übersetzung, eine seltene Sprache zu erlernen. Im Internet gebe es einfach zu wenig Texte, die dafür geeignet wären. Der Yandex-Übersetzer ist aber ein kluges Köpfchen. Laut seinen Entwicklern nutzt der Dienst bereits vorhandene Kenntnisse, um sich neue Sprachen anzueignen.

    „Der Übersetzer hat gelernt, mangelnden Stoff zu kompensieren: Wenn er eine neue Sprache lernt, nutzt er Kenntnisse über andere Sprachen, die bereits in seinem Angebot stehen“, so Yandex.

    Statistik gegen Regeln

    Bei der maschinellen Übersetzung gibt es grob zwei Typen: Übersetzung auf Basis von Regeln und Übersetzung auf Basis von statistischen Modellen.

    Im ersten Fall meistert die Maschine den Übersetzungsprozess auf eine ähnliche Weise, wie ein Mensch das tun würde, also mithilfe von zweisprachigen Wörterbüchern und Grammatiksystemen. Im zweiten Fall wird ein mathematisches Modell mit einer Vielzahl von Parametern eingesetzt. Um diese zu ermitteln, muss der Körper des Textes in zwei Sprachen analysiert werden.

    Im Gegensatz zur Übersetzung auf Basis von Regeln erfordert das statistische Vorgehen keine Sprachwissenschaftler. Ein und das gleiche Modell kann für die Übersetzung einer Vielzahl von Sprachen genutzt werden. Dazu müssen nur die notwendigen Parameter gefunden werden. Außerdem passt sich das System schneller an Veränderungen in der jeweiligen Sprache an.

    1 / 5
    Das Büro von Yandex

    Der Yandex-Übersetzer nutzt das statistische Modell. Laut der Firma waren die ersten Modelle dieser Art ziemlich simpel. Zurzeit werden komplexe Modelle für die Übersetzung genutzt, die aus mehreren Hilfsmodellen bestehen. Eines ist dann für den Wortschatz verantwortlich, das zweite – für die Morphologie, das dritte – für die Syntax.

    Lehrbücher für den Roboter

    Damit das statistische Modell funktioniert, muss ein Textkörper vorbereitet werden, aus dem die notwendigen Parameter für das Modell herausgenommen werden. Solch ein Körper muss Texte in zwei Sprachen beinhalten. Dabei müssen diese Texte wiederum zum größten Teil parallel sein, also den gleichen Inhalt haben.

    „Paralleltexte sind beispielsweise Bücher auf Englisch und ihre russischen Übersetzungen. Eine weitere gute Quelle für Daten sind Webseiten von internationalen Unternehmen, die in verschiedenen Sprachversionen angeboten werden“, erläutern die Yandex-Entwickler.

    Das funktioniere dann nach folgendem Prinzip: Je mehr solche Texte es gebe, desto besser sei die Qualität der Übersetzung. Ist die Sprache ziemlich bekannt, gebe es kein Problem damit, genügend Material zu sammeln.

    „Die meisten statistischen maschinellen Übersetzer haben zu Beginn nur die populärsten Sprachen unterstützt, beispielsweise Englisch, Russisch oder Spanisch. Und das nicht nur, weil es dafür Bedarf bei den Nutzern, sondern auch weil es viele Texte in diesen Sprachen gibt. Seltene und exotische Sprachen wurden von automatischen Übersetzungssystemen lange Zeit umgangen“, so die Spezialisten.

    Und was ist nun mit seltenen Sprachen?

    Das russische IT-Unternehmen ist der Meinung, seltene Sprachen etwa mit nur Zehntausenden Sprechern verdienten auch eine automatische Übersetzung.

    „Erstens, wenn eine Region, wo diese Sprache gesprochen wird, eine touristische Zone ist, können Gäste mithilfe von automatischen Übersetzern mit örtlichen Bewohnern kommunizieren und Schilder lesen. Zweitens trägt die maschinelle Übersetzung zur Erhaltung und Entwicklung einer Sprache bei.“

    Damit das Übersetzungssystem Sprachen erlernen kann, für die es keinen großen Textkörper gibt, hat Yandex ihm beigebracht, Verwandtschaften zwischen den einzelnen Sprachen zu berücksichtigen.

    „Die Verwandtschaft kann sich auf verschiedene Weisen zeigen. So haben viele Wörter in Jiddisch etwas mit der deutschen Lexik gemeinsam. In Papiamentu gibt es viele Fremdwörter aus Spanisch und Portugiesisch“, erläutern die Experten.

    Dabei lerne die Maschine eine seltene Sprache in zwei Etappen. Zuerst werde der Sprachkern modelliert, der die am häufigsten genutzten Wörter und wesentlichen morphologischen und syntaktischen Merkmale beinhaltet. Um solch einen Kern zu bilden, sei bloß ein kleiner Textkörper notwendig.

    „Dies können beispielsweise Texte aus der Bibel oder aus dem Koran sein. Diese Bücher sind praktisch in alle existierenden Sprachen übersetzt worden. Anschließend wird der Kern mit Daten aus verwandten Sprachen bereichert, die dem Übersetzer bereits bekannt sind. Und wenn zwei Sprachen einen ähnlichen Wortschatz haben, werden Daten des lexikalischen Hilfsmodells genutzt. Wenn es ähnliche Flexionsregeln gibt, dann wird das morphologische Modell eingesetzt“, so Yandex.

    Neue Möglichkeiten durch „Baukasten-Prinzip“

    Die Entwickler bezeichnen dieses System als „Baukasten“. Ihnen zufolge hat das Übersetzungssystem binnen anderthalb Jahren acht neue Sprachen gelernt: Baschkirisch, Gornomariski, Jiddisch, Marathi, Nepali, Papiamento, Usbekisch und Sindarin.

    Der Yandex-Übersetzer
    © Foto : Screenshot/Yandex
    Der Yandex-Übersetzer

    „Die letzte Sprache ist eine erfundene: Sie wird von Elfen in den Romanen von J. R. R. Tolkien gesprochen. Texte in Sindarin (auch Elbisch) gibt es kaum, dabei ist bekannt, dass Tolkien sie zum größten Teil auf Basis von urkeltischen Sprachen geschaffen hat. Und so haben wir lexikalische Hilfsmodelle aus modernen keltischen Sprachen eingesetzt – Irisch, Gälisch und Walisisch“, so die Experten.

    Zwar könnten sie keine genauen Angaben machen, betonen aber, auch erfundene Sprachen seien im Angebot des Yandex-Übersetzers von Netzusern gefragt. Im Arsenal gibt es übrigens auch eine tote Sprache, nämlich Latein.

    Die Technologie, die für das Tool benutzt wird, ermöglicht es ihm dabei, praktisch jede Sprache zu erlernen. Ein wichtiger Faktor sei dabei, so Yandex, dass es genug Daten für den Lernprozess gebe.

    GemeinschaftsstandardsDiskussion
    via Facebook kommentierenvia Sputnik kommentieren

    Zum Thema:

    Ukraine: Russische Sprache liefert Grund für heftigen Faustkampf in Regionalrat VIDEO
    Ukraine: Russische Sprache wird im Eisenbahnverkehr tabu
    Die Russische Sprache
    Nie mehr Sprache verschlagen: Neue Software kann Video-Live-Aussagen manipulieren
    Tags:
    Sprachwissenschaft, Sprache, Yandex, Google, Russland