Abo
  • Services:

Spracherkennung: Google trennt Sprecher in Videos

Forscher bei Google haben einen Algorithmus vorgestellt, der zuverlässig verschiedene Sprachquellen in Videos trennen soll. Dabei verlässt sich das Deep-Learning-Modell nicht nur auf unterschiedliche Audiomuster, sondern bezieht auch die Mundbewegungen in die Berechnung mit ein.

Artikel veröffentlicht am ,
Googles Forscher haben einen neuen Algorithmus vorgestellt.
Googles Forscher haben einen neuen Algorithmus vorgestellt. (Bild: Tobias Költzsch/Golem.de)

Google hat ein neues Modell zur Trennung von verschiedenen Sprachquellen in Videos vorgestellt. Der Algorithmus soll zuverlässig verschiedene Sprecher trennen und es dem Zuschauer so ermöglichen, durcheinandergesprochene Sprache besser zuordnen und verstehen zu können.

Stellenmarkt
  1. Fraunhofer-Institut für Arbeitswirtschaft und Organisation IAO, Stuttgart, Esslingen
  2. eco Verband der Internetwirtschaft e.V., Köln

Googles neuer Algorithmus soll wie der Cocktailparty-Effekt funktionieren, der das Phänomen des selektiven Hörens beschreibt. Menschen können sich dadurch auf eine bestimmte Audioquelle konzentrieren und diese verstehen, auch wenn im Hintergrund weitere Personen sprechen. Der Effekt ist nach der Situation auf einer Cocktailparty benannt, auf der für gewöhnlich viele Personen gleichzeitig reden.

Für computergestützte Spracherkennungssysteme ist selektives Hören aufgrund der fehlenden menschlichen Komponente schwieriger. Googles neuer Algorithmus analysiert nicht nur die Muster der Audiosignale, sondern auch die Mundbewegungen der im Video gezeigten Sprecher. Auf diese Weise kann das Deep-Learning-Modell Sprecher korrekt voneinander trennen und deren Sprache separat darstellen.

Google hat das Modell zunächst mit Videos trainiert, auf denen jeweils eine einzelne, sprechende Person frontal zu sehen ist. Nebengeräusche gab es bei diesen Aufnahmen nicht, der Algorithmus konnte sich entsprechend voll auf die Zuordnung von Mundbewegungen und Audioausgabe konzentrieren.

Die gezeigten Ergebnisse sind gut: Googles Modell kann auch in herausfordernden Situationen verschiedene Sprecher trennen. Als Extrembeispiel zeigt Google zwei Stand-up-Komiker, die gleichzeitig ihre Programme aufführen. Der Algorithmus trennt die beiden Sprecher so gut, dass der andere jeweils nicht mehr zu hören ist.

Das System funktioniert dank der Einbeziehung der Mundbewegungen auch in der Extremsituation, wenn zwei gleiche Personen in einem Video zu sehen sind. Für dieses Experiment hat Google zwei Vorträge von Sundar Pichai in ein Video geschnitten und die Audiosignale anschließend getrennt.

Der Algorithmus eignet sich auch für alltägliche Nutzungsszenarien, wie etwa ein Videotelefonat mit Hintergrundgeräuschen. Google ist eigenen Angaben zufolge momentan dabei, Einsatzmöglichkeiten für den Algorithmus auszuloten. Wann das System in welche Google-Produkte kommt, ist aktuell noch nicht abzusehen.



Anzeige
Hardware-Angebote

perseus 12. Apr 2018

... nicht mehr herausreden, wie z. B. so: "Dave, ich habe dich leider nicht verstanden...


Folgen Sie uns
       


Offroad mit dem Audi E-Tron

Mit dem neuen Audi E-Tron fährt es sich leicht durch unwegsames Gelände.

Offroad mit dem Audi E-Tron Video aufrufen
Autonome Schiffe: Und abends geht der Kapitän nach Hause
Autonome Schiffe
Und abends geht der Kapitän nach Hause

Weite Reisen in ferne Länder, eine Braut in jedem Hafen: Klischees über die Seefahrt täuschen darüber hinweg, dass diese ein Knochenjob ist. Doch in wenigen Jahren werden Schiffe ohne Besatzung fahren, überwacht von Steuerleuten, die nach dem Dienst zur Familie zurückkehren. Daran arbeitet etwa Rolls Royce.
Ein Bericht von Werner Pluta

  1. Elektromobilität San Francisco soll ein Brennstoffzellenschiff bekommen
  2. Yara Birkeland Autonome Schiffe sind eine neue Art von Transportsystem
  3. Power Pac Strom aus dem Container für Ozeanriesen

Bootcamps: Programmierer in drei Monaten
Bootcamps
Programmierer in drei Monaten

Um Programmierer zu werden, reichen ein paar Monate Intensiv-Training, sagen die Anbieter von IT-Bootcamps. Die Bewerber müssen nur eines sein: extrem motiviert.
Von Juliane Gringer

  1. Nordkorea Kaum Fehler in der Matrix
  2. Security Forscher können Autoren von Programmiercode identifizieren
  3. Stack Overflow Viele Entwickler wohnen in Bayern und sind männlich

Landwirtschafts-Simulator auf dem C64: Auf zum Pixelernten!
Landwirtschafts-Simulator auf dem C64
Auf zum Pixelernten!

In der Collector's Edition des Landwirtschafts-Simulators 19 ist das Spiel gleich zwei Mal enthalten - einmal für den PC und einmal für den C64. Wir haben die Version für Commodores Heimcomputer auf unserem Redaktions-C64 gespielt, stilecht von der Cartridge geladen.
Ein Test von Tobias Költzsch

  1. Giants Software Ländliche Mods auf Playstation und Xbox

    •  /