Abo
  • Services:

Spracherkennung: Google trennt Sprecher in Videos

Forscher bei Google haben einen Algorithmus vorgestellt, der zuverlässig verschiedene Sprachquellen in Videos trennen soll. Dabei verlässt sich das Deep-Learning-Modell nicht nur auf unterschiedliche Audiomuster, sondern bezieht auch die Mundbewegungen in die Berechnung mit ein.

Artikel veröffentlicht am ,
Googles Forscher haben einen neuen Algorithmus vorgestellt.
Googles Forscher haben einen neuen Algorithmus vorgestellt. (Bild: Tobias Költzsch/Golem.de)

Google hat ein neues Modell zur Trennung von verschiedenen Sprachquellen in Videos vorgestellt. Der Algorithmus soll zuverlässig verschiedene Sprecher trennen und es dem Zuschauer so ermöglichen, durcheinandergesprochene Sprache besser zuordnen und verstehen zu können.

Stellenmarkt
  1. Dataport, Altenholz bei Kiel, Hamburg
  2. andagon Holding GmbH, Köln

Googles neuer Algorithmus soll wie der Cocktailparty-Effekt funktionieren, der das Phänomen des selektiven Hörens beschreibt. Menschen können sich dadurch auf eine bestimmte Audioquelle konzentrieren und diese verstehen, auch wenn im Hintergrund weitere Personen sprechen. Der Effekt ist nach der Situation auf einer Cocktailparty benannt, auf der für gewöhnlich viele Personen gleichzeitig reden.

Für computergestützte Spracherkennungssysteme ist selektives Hören aufgrund der fehlenden menschlichen Komponente schwieriger. Googles neuer Algorithmus analysiert nicht nur die Muster der Audiosignale, sondern auch die Mundbewegungen der im Video gezeigten Sprecher. Auf diese Weise kann das Deep-Learning-Modell Sprecher korrekt voneinander trennen und deren Sprache separat darstellen.

Google hat das Modell zunächst mit Videos trainiert, auf denen jeweils eine einzelne, sprechende Person frontal zu sehen ist. Nebengeräusche gab es bei diesen Aufnahmen nicht, der Algorithmus konnte sich entsprechend voll auf die Zuordnung von Mundbewegungen und Audioausgabe konzentrieren.

Die gezeigten Ergebnisse sind gut: Googles Modell kann auch in herausfordernden Situationen verschiedene Sprecher trennen. Als Extrembeispiel zeigt Google zwei Stand-up-Komiker, die gleichzeitig ihre Programme aufführen. Der Algorithmus trennt die beiden Sprecher so gut, dass der andere jeweils nicht mehr zu hören ist.

Das System funktioniert dank der Einbeziehung der Mundbewegungen auch in der Extremsituation, wenn zwei gleiche Personen in einem Video zu sehen sind. Für dieses Experiment hat Google zwei Vorträge von Sundar Pichai in ein Video geschnitten und die Audiosignale anschließend getrennt.

Der Algorithmus eignet sich auch für alltägliche Nutzungsszenarien, wie etwa ein Videotelefonat mit Hintergrundgeräuschen. Google ist eigenen Angaben zufolge momentan dabei, Einsatzmöglichkeiten für den Algorithmus auszuloten. Wann das System in welche Google-Produkte kommt, ist aktuell noch nicht abzusehen.



Anzeige
Hardware-Angebote
  1. ab 225€
  2. 119,90€
  3. 34,99€
  4. (u. a. 32 GB 6,98€, 128 GB 23,58€)

perseus 12. Apr 2018

... nicht mehr herausreden, wie z. B. so: "Dave, ich habe dich leider nicht verstanden...


Folgen Sie uns
       


Der Mars-Maulwurf des DLR erklärt

Ulrich Köhler vom DLR erläutert die Funktionsweise des Mars-Maulwurfes.

Der Mars-Maulwurf des DLR erklärt Video aufrufen
Thyssen-Krupp Testturm Rottweil: Herr Fetzer parkt die Aufzugkabine um
Thyssen-Krupp Testturm Rottweil
Herr Fetzer parkt die Aufzugkabine um

Ohne Aufzüge gäbe es keine Hochhäuser. Aber inzwischen sind Wolkenkratzer zu hoch für herkömmliche Systeme. Thyssen-Krupp testet derzeit einen neuartigen Aufzug, der beliebig hoch fahren kann. Inspiriert ist er vom Paternoster und dem Transrapid. Wir waren im Testturm.
Ein Bericht von Werner Pluta

  1. Ceramic Speed Hätte, hätte - Fahrrad ohne Kette
  2. Geheimdienste und Bundeswehr Masterstudiengang für Staatshacker gestartet
  3. Sonitus Technologies Zahnmikrofon sorgt für klare Kommunikation

Microsoft: Die ganz normale, lautlose Cloud-Apokalypse
Microsoft
Die ganz normale, lautlose Cloud-Apokalypse

Wenn Cloud-Dienste ausfallen, ist oft nur ein Server kaputt. Wenn aber Googles Safe-Browsing-Systeme den Zugriff auf die deutsche Microsoft Cloud komplett blockieren, liegt noch viel mehr im Argen - und das lässt für die Zukunft nichts Gutes erwarten.
Von Sebastian Grüner

  1. Services Gemeinsames Accenture Microsoft Business arbeitet bereits
  2. Business Accenture und Microsoft gründen gemeinsame Service-Sparte
  3. AWS, Azure, Alibaba, IBM Cloud Wo die Cloud hilft - und wo nicht

Pauschallizenzen: CDU will ihre eigenen Uploadfilter verhindern
Pauschallizenzen
CDU will ihre eigenen Uploadfilter verhindern

Absurder Vorschlag aus der CDU: Anstatt die Urheberrechtsreform auf EU-Ebene zu verändern oder zu stoppen, soll nun der "Mist" von Axel Voss in Deutschland völlig umgekrempelt werden. Nur "pures Wahlkampfgetöse" vor den Europawahlen, wie die Opposition meint?
Eine Analyse von Friedhelm Greis

  1. Uploadfilter Merkel verteidigt Bruch des Koalitionsvertrages
  2. Europawahlen Facebook will mit dpa Falschnachrichten bekämpfen
  3. Urheberrecht Europas IT-Firmen und Bibliotheken gegen Uploadfilter

    •  /