• IT-Karriere:
  • Services:

Spracherkennung: Google trennt Sprecher in Videos

Forscher bei Google haben einen Algorithmus vorgestellt, der zuverlässig verschiedene Sprachquellen in Videos trennen soll. Dabei verlässt sich das Deep-Learning-Modell nicht nur auf unterschiedliche Audiomuster, sondern bezieht auch die Mundbewegungen in die Berechnung mit ein.

Artikel veröffentlicht am ,
Googles Forscher haben einen neuen Algorithmus vorgestellt.
Googles Forscher haben einen neuen Algorithmus vorgestellt. (Bild: Tobias Költzsch/Golem.de)

Google hat ein neues Modell zur Trennung von verschiedenen Sprachquellen in Videos vorgestellt. Der Algorithmus soll zuverlässig verschiedene Sprecher trennen und es dem Zuschauer so ermöglichen, durcheinandergesprochene Sprache besser zuordnen und verstehen zu können.

Stellenmarkt
  1. über duerenhoff GmbH, Nürnberg
  2. PROSIS GmbH, verschiedene Standorte

Googles neuer Algorithmus soll wie der Cocktailparty-Effekt funktionieren, der das Phänomen des selektiven Hörens beschreibt. Menschen können sich dadurch auf eine bestimmte Audioquelle konzentrieren und diese verstehen, auch wenn im Hintergrund weitere Personen sprechen. Der Effekt ist nach der Situation auf einer Cocktailparty benannt, auf der für gewöhnlich viele Personen gleichzeitig reden.

Für computergestützte Spracherkennungssysteme ist selektives Hören aufgrund der fehlenden menschlichen Komponente schwieriger. Googles neuer Algorithmus analysiert nicht nur die Muster der Audiosignale, sondern auch die Mundbewegungen der im Video gezeigten Sprecher. Auf diese Weise kann das Deep-Learning-Modell Sprecher korrekt voneinander trennen und deren Sprache separat darstellen.

Google hat das Modell zunächst mit Videos trainiert, auf denen jeweils eine einzelne, sprechende Person frontal zu sehen ist. Nebengeräusche gab es bei diesen Aufnahmen nicht, der Algorithmus konnte sich entsprechend voll auf die Zuordnung von Mundbewegungen und Audioausgabe konzentrieren.

Die gezeigten Ergebnisse sind gut: Googles Modell kann auch in herausfordernden Situationen verschiedene Sprecher trennen. Als Extrembeispiel zeigt Google zwei Stand-up-Komiker, die gleichzeitig ihre Programme aufführen. Der Algorithmus trennt die beiden Sprecher so gut, dass der andere jeweils nicht mehr zu hören ist.

Das System funktioniert dank der Einbeziehung der Mundbewegungen auch in der Extremsituation, wenn zwei gleiche Personen in einem Video zu sehen sind. Für dieses Experiment hat Google zwei Vorträge von Sundar Pichai in ein Video geschnitten und die Audiosignale anschließend getrennt.

Der Algorithmus eignet sich auch für alltägliche Nutzungsszenarien, wie etwa ein Videotelefonat mit Hintergrundgeräuschen. Google ist eigenen Angaben zufolge momentan dabei, Einsatzmöglichkeiten für den Algorithmus auszuloten. Wann das System in welche Google-Produkte kommt, ist aktuell noch nicht abzusehen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Hardware-Angebote
  1. 555,55€ (zzgl. Versandkosten)

perseus 12. Apr 2018

... nicht mehr herausreden, wie z. B. so: "Dave, ich habe dich leider nicht verstanden...


Folgen Sie uns
       


Smarte Jeansjacke von Levis ausprobiert

Das Trucker Jacket mit Googles Jacquard-Technologie hat im Bund des linken Ärmels eingewebte leitende Fasern. Diese bilden ein Touchpad, das wir uns im Test genauer angeschaut haben.

Smarte Jeansjacke von Levis ausprobiert Video aufrufen
Videoüberwachung: Kameras sind überall, aber nicht überall erlaubt
Videoüberwachung
Kameras sind überall, aber nicht überall erlaubt

Dass Überwachungskameras nicht legal eingesetzt werden, ist keine Seltenheit. Ob aus Nichtwissen oder mit Absicht: Werden Privatsphäre oder Datenschutz verletzt, gehören die Kameras weg. Doch dazu müssen sie erst mal entdeckt, als legal oder illegal ausgemacht und gemeldet werden.
Von Harald Büring

  1. Nach Attentat Datenschutzbeauftragter kritisiert Hintertüren in Messengern
  2. Australien IT-Sicherheitskonferenz Cybercon lädt Sprecher aus
  3. Spionagesoftware Staatsanwaltschaft ermittelt nach Anzeige gegen Finfisher

Macbook Pro 16 Zoll im Test: Ein Schritt zurück sind zwei Schritte nach vorn
Macbook Pro 16 Zoll im Test
Ein Schritt zurück sind zwei Schritte nach vorn

Keine Butterfly-Tastatur mehr, eine physische Escape-Taste, dünnere Displayränder: Es scheint, als habe Apple beim Macbook Pro 16 doch auf das Feedback der Nutzer gehört und ist einen Schritt zurückgegangen. Golem.de hat sich angeschaut, ob sich die Änderungen auch lohnen.
Ein Test von Oliver Nickel

  1. Audioprobleme Knackgeräusche beim neuen Macbook Pro 16 Zoll
  2. iFixit Kleber und Nieten im neuen Macbook Pro 16 Zoll
  3. Macbook Pro Apple gibt fehlerhafte Butterfly-Tastatur auf

Minikonsolen im Video-Vergleichstest: Die sieben sinnlosen Zwerge
Minikonsolen im Video-Vergleichstest
Die sieben sinnlosen Zwerge

Golem retro_ Eigentlich sollten wir die kleinen Retrokonsolen mögen. Aber bei mittelmäßiger Emulation, schlechter Steuerung und Verarbeitung wollten wir beim Testen mitunter über die sieben Berge flüchten.
Ein Test von Martin Wolf


      •  /