Abo
  • Services:

Spracherkennung: Google trennt Sprecher in Videos

Forscher bei Google haben einen Algorithmus vorgestellt, der zuverlässig verschiedene Sprachquellen in Videos trennen soll. Dabei verlässt sich das Deep-Learning-Modell nicht nur auf unterschiedliche Audiomuster, sondern bezieht auch die Mundbewegungen in die Berechnung mit ein.

Artikel veröffentlicht am ,
Googles Forscher haben einen neuen Algorithmus vorgestellt.
Googles Forscher haben einen neuen Algorithmus vorgestellt. (Bild: Tobias Költzsch/Golem.de)

Google hat ein neues Modell zur Trennung von verschiedenen Sprachquellen in Videos vorgestellt. Der Algorithmus soll zuverlässig verschiedene Sprecher trennen und es dem Zuschauer so ermöglichen, durcheinandergesprochene Sprache besser zuordnen und verstehen zu können.

Stellenmarkt
  1. Hauni Maschinenbau GmbH, Hamburg
  2. AIRTEC Pneumatic GmbH, Reutlingen

Googles neuer Algorithmus soll wie der Cocktailparty-Effekt funktionieren, der das Phänomen des selektiven Hörens beschreibt. Menschen können sich dadurch auf eine bestimmte Audioquelle konzentrieren und diese verstehen, auch wenn im Hintergrund weitere Personen sprechen. Der Effekt ist nach der Situation auf einer Cocktailparty benannt, auf der für gewöhnlich viele Personen gleichzeitig reden.

Für computergestützte Spracherkennungssysteme ist selektives Hören aufgrund der fehlenden menschlichen Komponente schwieriger. Googles neuer Algorithmus analysiert nicht nur die Muster der Audiosignale, sondern auch die Mundbewegungen der im Video gezeigten Sprecher. Auf diese Weise kann das Deep-Learning-Modell Sprecher korrekt voneinander trennen und deren Sprache separat darstellen.

Google hat das Modell zunächst mit Videos trainiert, auf denen jeweils eine einzelne, sprechende Person frontal zu sehen ist. Nebengeräusche gab es bei diesen Aufnahmen nicht, der Algorithmus konnte sich entsprechend voll auf die Zuordnung von Mundbewegungen und Audioausgabe konzentrieren.

Die gezeigten Ergebnisse sind gut: Googles Modell kann auch in herausfordernden Situationen verschiedene Sprecher trennen. Als Extrembeispiel zeigt Google zwei Stand-up-Komiker, die gleichzeitig ihre Programme aufführen. Der Algorithmus trennt die beiden Sprecher so gut, dass der andere jeweils nicht mehr zu hören ist.

Das System funktioniert dank der Einbeziehung der Mundbewegungen auch in der Extremsituation, wenn zwei gleiche Personen in einem Video zu sehen sind. Für dieses Experiment hat Google zwei Vorträge von Sundar Pichai in ein Video geschnitten und die Audiosignale anschließend getrennt.

Der Algorithmus eignet sich auch für alltägliche Nutzungsszenarien, wie etwa ein Videotelefonat mit Hintergrundgeräuschen. Google ist eigenen Angaben zufolge momentan dabei, Einsatzmöglichkeiten für den Algorithmus auszuloten. Wann das System in welche Google-Produkte kommt, ist aktuell noch nicht abzusehen.



Anzeige
Top-Angebote
  1. (u. a. WD Elements Portable 2 TB für 61,99€ statt 69,53€ im Vergleich und SanDisk Ultra...
  2. 79,99€ (Vergleichspreis 99€)
  3. 399€ + Versand (Vergleichspreis 503,98€)
  4. ab 499€ (Vergleichspreis Smartphone ca. 550€, Einzelpreis Tablet 129€)

perseus 12. Apr 2018

... nicht mehr herausreden, wie z. B. so: "Dave, ich habe dich leider nicht verstanden...


Folgen Sie uns
       


Sky Ticket TV-Stick im Test

Wir haben den Sky Ticket TV Stick getestet. Der Streamingstick mit Fernbedienung bringt Sky Ticket auf den Fernseher, wenn dieser den Streamingdienst des Pay-TV-Anbieters nicht unterstützt. Auf dem Stick läuft das aktuelle Sky Ticket, das im Vergleich zur Vorgängerversion erheblich verbessert wurde. Den Sky Ticket TV gibt es quasi kostenlos, weil dieser nur zusammen mit passenden Sky-Ticket-Abos im Wert von 30 Euro angeboten wird.

Sky Ticket TV-Stick im Test Video aufrufen
Red Dead Redemption 2 angespielt: Mit dem Trigger im Wilden Westen eintauchen
Red Dead Redemption 2 angespielt
Mit dem Trigger im Wilden Westen eintauchen

Überfälle und Schießereien, Pferde und Revolver - vor allem aber sehr viel Interaktion: Das Anspielen von Red Dead Redemption 2 hat uns erstaunlich tief in die Westernwelt versetzt. Aber auch bei Grafik und Sound konnte das nächste Programm von Rockstar Games schon Punkte sammeln.
Von Peter Steinlechner

  1. Red Dead Redemption 2 Von Bärten, Pferden und viel zu warmer Kleidung
  2. Rockstar Games Red Dead Online startet im November als Beta
  3. Rockstar Games Neuer Trailer zeigt Gameplay von Red Dead Redemption 2

Gesetzesentwurf: So will die Regierung den Abmahnmissbrauch eindämmen
Gesetzesentwurf
So will die Regierung den Abmahnmissbrauch eindämmen

Obwohl nach Inkrafttreten der DSGVO eine Abmahnwelle ausgeblieben ist, will Justizministerin Barley nun gesetzlich gegen missbräuchliche Abmahnungen vorgehen. Damit soll auch der "fliegende Gerichtsstand" im Wettbewerbsrecht abgeschafft werden.
Von Friedhelm Greis


    Lenovo Thinkpad T480s im Test: Das trotzdem beste Business-Notebook
    Lenovo Thinkpad T480s im Test
    Das trotzdem beste Business-Notebook

    Mit dem Thinkpad T480s verkauft Lenovo ein exzellentes 14-Zoll-Business-Notebook. Anschlüsse und Eingabegeräte überzeugen uns - leider ist aber die CPU konservativ eingestellt und ein gutes Display kostet extra.
    Ein Test von Marc Sauter und Sebastian Grüner

    1. Thinkpad E480/E485 im Test AMD gegen Intel in Lenovos 14-Zoll-Notebook
    2. Lenovo Das Thinkpad P1 ist das X1 Carbon als Workstation
    3. Thinkpad Ultra Docking Station im Test Das USB-Typ-C-Dock mit robuster Mechanik

      •  /