SNA Radio
    Künstliche Intelligenz. Symbolbild

    Die Bekenntnisse der BBC – eine Software lernt mit Nachrichten Lippenlesen

    CC0 / Pixabay/geralt / Artificial Intelligence
    Gesellschaft
    Zum Kurzlink
    0 76

    Taube und Schwerhörige könnten bald von einer Software profitieren, die Lippen lesen lernt. Die an der University of Oxford entwickelte Künstliche Intelligenz befindet sich derzeit in der Lernphase. Ihr Lehrer: ein großer Datensatz aus Sendungen der BBC.

    An der University of Oxford wurde eine Software entwickelt, die als Künstliche Intelligenz Lippen lesen lernt. In einem Sputnik-Interview erklärte der Hochschulabsolvent Joon Son Chung von der University of Oxford sein Programm. „Das System lernt es, Dinge zu erkennen, die zusammen auftreten“, erklärt er, „in unserem Fall Mundbewegungen und Schriftzeichen. Es lernt aus einem großen Datensatz von Fernsehsendungen, bei dem die Untertitel an die Lippenbewegungen angepasst sind.“

    Der Datensatz besteht aus Nachrichtensendungen, darunter sehr viel Material von BBC. Soll die Software politisch indoktriniert werden? Natürlich nicht, der Grund ist ein viel einfacherer: „Das ist eine ideale Quelle fürs Training der Software, weil sie hochauflösende Videos von einer Vielzahl verschiedener Sprecher enthält.“ Echte Lippen dagegen könne die Software noch nicht lesen, sondern nur bestehendes Videomaterial verarbeiten.

    Russisches Forschungsprojekt: Computer lernen Gefühle

    Bisher sind die Möglichkeiten der Software noch eingeschränkt, Erweiterungen sind aber denkbar: „Das gegenwärtige System kann voraufgezeichnete Videoclips in Zeichen auf einem Computerbildschirm übersetzen. Wir könnten allerdings die Software auch auf einem tragbaren Gerät installieren und in Echtzeit jedes Video bearbeiten lassen. Das würde es erlauben, live Untertitel zu erzeugen, was von größtem Vorteil für Schwerhörige sein würde“, so der Forscher.

    Die Software kann also Tauben Menschen den Zugang zu Filmen in Echtzeit ermöglichen, aber auch generell Untertitel erzeugen, wo es noch keine gibt. Weitere Anwendungen wären für Chung das Diktieren von Nachrichten in eine Telefon in einer lauten Umgebung. Dann übersetzt nämlich die Kamera einfach die Mundbewegungen in die entsprechenden Zeichen. Ebenso könnte gleichzeitige Rede mehrerer Parteien von solcher Software transkribiert und voneinander getrennt werden.

    Könnte die Software denn vielleicht auch bei Sicherheitsfirmen auf Interesse stoßen? Könnte sie Lippen von Menschen in Massenansammlungen lesen, unter Verwendung von Videomaterial von Sicherheitskameras? Auf solche 1984-Phantasien antwortet Joon Son Chung gelassen. Für solche Zwecke sei die Auflösung der gängigen Sicherheitskameras schlichtweg zu gering. „Aber auch wenn die Videoqualität hoch ist, liegt die Erfolgsrate der Software bei 50 Prozent“, fügt er hinzu. Das sei zwar immerhin eine höhere Rate als bei menschlichen Lippenlesern, aber für solche Szenarios wäre die Software dann doch nicht nützlich.

    GemeinschaftsstandardsDiskussion
    via Facebook kommentierenvia Sputnik kommentieren

    Zum Thema:

    „Roboter sind glaubwürdiger“ – Wann übernehmen Computer die Arbeit von Journalisten?
    HappyPlace: Virtuelle Realität gegen Schmerzen
    Forscher aus Russland und USA lassen künstliche Intelligenz Antikrebsmittel suchen
    Kunst-Hirn komponiert Weihnachtslied über Fotos
    Tags:
    künstliche Intelligenz, Oxford - Universität, Joon Son Chung