Abo
  • IT-Karriere:

Spracherkennung: Google trennt Sprecher in Videos

Forscher bei Google haben einen Algorithmus vorgestellt, der zuverlässig verschiedene Sprachquellen in Videos trennen soll. Dabei verlässt sich das Deep-Learning-Modell nicht nur auf unterschiedliche Audiomuster, sondern bezieht auch die Mundbewegungen in die Berechnung mit ein.

Artikel veröffentlicht am ,
Googles Forscher haben einen neuen Algorithmus vorgestellt.
Googles Forscher haben einen neuen Algorithmus vorgestellt. (Bild: Tobias Költzsch/Golem.de)

Google hat ein neues Modell zur Trennung von verschiedenen Sprachquellen in Videos vorgestellt. Der Algorithmus soll zuverlässig verschiedene Sprecher trennen und es dem Zuschauer so ermöglichen, durcheinandergesprochene Sprache besser zuordnen und verstehen zu können.

Stellenmarkt
  1. Mönkemöller IT GmbH, Karlsruhe
  2. über experteer GmbH, Raum Heidelberg / Rhein-Neckar

Googles neuer Algorithmus soll wie der Cocktailparty-Effekt funktionieren, der das Phänomen des selektiven Hörens beschreibt. Menschen können sich dadurch auf eine bestimmte Audioquelle konzentrieren und diese verstehen, auch wenn im Hintergrund weitere Personen sprechen. Der Effekt ist nach der Situation auf einer Cocktailparty benannt, auf der für gewöhnlich viele Personen gleichzeitig reden.

Für computergestützte Spracherkennungssysteme ist selektives Hören aufgrund der fehlenden menschlichen Komponente schwieriger. Googles neuer Algorithmus analysiert nicht nur die Muster der Audiosignale, sondern auch die Mundbewegungen der im Video gezeigten Sprecher. Auf diese Weise kann das Deep-Learning-Modell Sprecher korrekt voneinander trennen und deren Sprache separat darstellen.

Google hat das Modell zunächst mit Videos trainiert, auf denen jeweils eine einzelne, sprechende Person frontal zu sehen ist. Nebengeräusche gab es bei diesen Aufnahmen nicht, der Algorithmus konnte sich entsprechend voll auf die Zuordnung von Mundbewegungen und Audioausgabe konzentrieren.

Die gezeigten Ergebnisse sind gut: Googles Modell kann auch in herausfordernden Situationen verschiedene Sprecher trennen. Als Extrembeispiel zeigt Google zwei Stand-up-Komiker, die gleichzeitig ihre Programme aufführen. Der Algorithmus trennt die beiden Sprecher so gut, dass der andere jeweils nicht mehr zu hören ist.

Das System funktioniert dank der Einbeziehung der Mundbewegungen auch in der Extremsituation, wenn zwei gleiche Personen in einem Video zu sehen sind. Für dieses Experiment hat Google zwei Vorträge von Sundar Pichai in ein Video geschnitten und die Audiosignale anschließend getrennt.

Der Algorithmus eignet sich auch für alltägliche Nutzungsszenarien, wie etwa ein Videotelefonat mit Hintergrundgeräuschen. Google ist eigenen Angaben zufolge momentan dabei, Einsatzmöglichkeiten für den Algorithmus auszuloten. Wann das System in welche Google-Produkte kommt, ist aktuell noch nicht abzusehen.



Anzeige
Top-Angebote
  1. (u. a. Inno3D Geforce RTX 2070 X2 OC für 399,00€, Zotac Gaming Geforce RTX 2080 AMP Extreme...
  2. 199,90€ (Bestpreis!)
  3. ab 794,99€ und damit günstiger als bei Apple (Release am 20.09.)
  4. ab 1.144,99€ und damit günstiger als bei Apple (Release am 20.09.)

perseus 12. Apr 2018

... nicht mehr herausreden, wie z. B. so: "Dave, ich habe dich leider nicht verstanden...


Folgen Sie uns
       


Xiaomi Mi 9T Pro - Fazit

Das Mi 9T Pro von Xiaomi ist eines der ersten Smartphones, das der chinesische Hersteller offiziell in Deutschland anbietet. Im Test überzeugt das Gerät durch sehr gute Hardware zu einem verhältnismäßig geringen Preis.

Xiaomi Mi 9T Pro - Fazit Video aufrufen
Ryzen 7 3800X im Test: Der schluckt zu viel
Ryzen 7 3800X im Test
"Der schluckt zu viel"

Minimal mehr Takt, vor allem aber ein höheres Power-Budget für gestiegene Frequenzen unter Last: Das war unsere Vorstellung vor dem Test des Ryzen 7 3800X. Doch die Achtkern-CPU überrascht negativ, weil AMD es beim günstigeren 3700X bereits ziemlich gut meinte.
Ein Test von Marc Sauter

  1. Agesa 1003abba Microcode-Update taktet Ryzen 3000 um 50 MHz höher
  2. Agesa 1003abb Viele ältere Platinen erhalten aktuelles UEFI für Ryzen 3000
  3. Ryzen 5 3400G und Ryzen 3 3200G im Test Picasso passt

Elektrautos auf der IAA: Die Gezeigtwagen-Messe
Elektrautos auf der IAA
Die Gezeigtwagen-Messe

IAA 2019 Viele klassische Hersteller fehlen bei der IAA oder zeigen Autos, die man längst gesehen hat. Bei den Elektroautos bekommen alltagstaugliche Modelle wie VW ID.3, Opel Corsa E und Honda E viel Aufmerksamkeit.
Ein Bericht von Dirk Kunde

  1. Elektromobilität Stromwirtschaft will keine Million öffentlicher Ladesäulen
  2. Umfrage Kunden fühlen sich vor Elektroautokauf schlecht beraten
  3. Batterieprobleme Auslieferung des e.Go verzögert sich

Surface Hub 2S angesehen: Das Surface Hub, das auch in kleine Meeting-Räume passt
Surface Hub 2S angesehen
Das Surface Hub, das auch in kleine Meeting-Räume passt

Ifa 2019 Präsentationen teilen, Tabellen bearbeiten oder gemeinsam auf dem Whiteboard skizzieren: Das Surface Hub 2S ist eine sichtbare Weiterentwicklung des doch recht klobigen Vorgängers. Und Microsofts Pläne sind noch ambitionierter.
Ein Hands on von Oliver Nickel

  1. Microsoft Nutzer berichten von defektem WLAN nach Surface-Update
  2. Surface Microsofts Dual-Screen-Gerät hat zwei 9-Zoll-Bildschirme
  3. Centaurus Microsoft zeigt intern ein Surface-Gerät mit zwei Displays

    •  /