Abo
  • Services:

Spracherkennung: Google trennt Sprecher in Videos

Forscher bei Google haben einen Algorithmus vorgestellt, der zuverlässig verschiedene Sprachquellen in Videos trennen soll. Dabei verlässt sich das Deep-Learning-Modell nicht nur auf unterschiedliche Audiomuster, sondern bezieht auch die Mundbewegungen in die Berechnung mit ein.

Artikel veröffentlicht am ,
Googles Forscher haben einen neuen Algorithmus vorgestellt.
Googles Forscher haben einen neuen Algorithmus vorgestellt. (Bild: Tobias Költzsch/Golem.de)

Google hat ein neues Modell zur Trennung von verschiedenen Sprachquellen in Videos vorgestellt. Der Algorithmus soll zuverlässig verschiedene Sprecher trennen und es dem Zuschauer so ermöglichen, durcheinandergesprochene Sprache besser zuordnen und verstehen zu können.

Stellenmarkt
  1. Robert Bosch GmbH, Renningen
  2. BSH Hausgeräte GmbH, Traunreut

Googles neuer Algorithmus soll wie der Cocktailparty-Effekt funktionieren, der das Phänomen des selektiven Hörens beschreibt. Menschen können sich dadurch auf eine bestimmte Audioquelle konzentrieren und diese verstehen, auch wenn im Hintergrund weitere Personen sprechen. Der Effekt ist nach der Situation auf einer Cocktailparty benannt, auf der für gewöhnlich viele Personen gleichzeitig reden.

Für computergestützte Spracherkennungssysteme ist selektives Hören aufgrund der fehlenden menschlichen Komponente schwieriger. Googles neuer Algorithmus analysiert nicht nur die Muster der Audiosignale, sondern auch die Mundbewegungen der im Video gezeigten Sprecher. Auf diese Weise kann das Deep-Learning-Modell Sprecher korrekt voneinander trennen und deren Sprache separat darstellen.

Google hat das Modell zunächst mit Videos trainiert, auf denen jeweils eine einzelne, sprechende Person frontal zu sehen ist. Nebengeräusche gab es bei diesen Aufnahmen nicht, der Algorithmus konnte sich entsprechend voll auf die Zuordnung von Mundbewegungen und Audioausgabe konzentrieren.

Die gezeigten Ergebnisse sind gut: Googles Modell kann auch in herausfordernden Situationen verschiedene Sprecher trennen. Als Extrembeispiel zeigt Google zwei Stand-up-Komiker, die gleichzeitig ihre Programme aufführen. Der Algorithmus trennt die beiden Sprecher so gut, dass der andere jeweils nicht mehr zu hören ist.

Das System funktioniert dank der Einbeziehung der Mundbewegungen auch in der Extremsituation, wenn zwei gleiche Personen in einem Video zu sehen sind. Für dieses Experiment hat Google zwei Vorträge von Sundar Pichai in ein Video geschnitten und die Audiosignale anschließend getrennt.

Der Algorithmus eignet sich auch für alltägliche Nutzungsszenarien, wie etwa ein Videotelefonat mit Hintergrundgeräuschen. Google ist eigenen Angaben zufolge momentan dabei, Einsatzmöglichkeiten für den Algorithmus auszuloten. Wann das System in welche Google-Produkte kommt, ist aktuell noch nicht abzusehen.



Anzeige
Blu-ray-Angebote
  1. (u. a. Deadpool, Alien Covenant, Assassins Creed)
  2. (2 Monate Sky Ticket für nur 4,99€)
  3. (u. a. 3 Blu-rays für 20€, Boxsets im Angebot, Serien zum Sonderpreis)

perseus 12. Apr 2018 / Themenstart

... nicht mehr herausreden, wie z. B. so: "Dave, ich habe dich leider nicht verstanden...

Kommentieren


Folgen Sie uns
       


Golem.de lässt Alexa schlecht lachen und rappen

Alexa kann komisch lachen und schlecht rappen - wie man im Video hört.

Golem.de lässt Alexa schlecht lachen und rappen Video aufrufen
Facebook-Anhörung: Zuckerbergs Illusion von der vollen Kontrolle
Facebook-Anhörung
Zuckerbergs Illusion von der vollen Kontrolle

In einer mehrstündigen Anhörung vor dem US-Senat hat Facebook-Chef Mark Zuckerberg sein Unternehmen verteidigt. Doch des Öfteren hinterließ er den Eindruck, als wisse er selbst nicht genau, was er in den vergangenen Jahren da geschaffen hat.
Eine Analyse von Friedhelm Greis

  1. Facebook Messenger Zuckerbergs Nachrichten heimlich auf Nutzerkonten gelöscht
  2. Böswillige Akteure Die meisten der zwei Milliarden Facebook-Profile ausgelesen
  3. DSGVO Zuckerberg will EU-Datenschutz nicht weltweit anwenden

HTC Vive Pro im Test: Das beste VR-Headset ist nicht der beste Kauf
HTC Vive Pro im Test
Das beste VR-Headset ist nicht der beste Kauf

Höhere Auflösung, integrierter Kopfhörer und ein sehr bequemer Kopfbügel: Das HTC Vive Pro macht alles besser und gilt für uns als das beste VR-Headset, das wir bisher ausprobiert haben. Allerdings ist der Preis dafür so hoch, dass kaufen meist keine clevere Entscheidung ist.
Ein Test von Oliver Nickel

  1. VR-Headset HTCs Vive Pro kostet 880 Euro
  2. HTC Vive Pro ausprobiert VR-Headset hat mehr Pixel und Komfort
  3. Vive Focus HTC stellt autarkes VR-Headset vor

Dell XPS 13 (9370) im Test: Sehr gut ist nicht besser
Dell XPS 13 (9370) im Test
Sehr gut ist nicht besser

Mit dem XPS 13 (9370) hat Dell sein bisher exzellentes Ultrabook in nahezu allen Bereichen überarbeitet - und es teilweise verschlechtert. Der Akku etwa ist kleiner, das spiegelnde Display nervt. Dafür überzeugen die USB-C-Ports, die Kühlung sowie die Tastatur, und die Webcam wurde sinnvoller.
Ein Test von Marc Sauter und Sebastian Grüner

  1. Ultrabook Dell hat das XPS 13 ruiniert
  2. XPS 13 (9370) Dells Ultrabook wird dünner und läuft kürzer
  3. Ultrabook Dell aktualisiert XPS 13 mit Quadcore-Chip

    •  /