Spracherkennung: Google trennt Sprecher in Videos

Forscher bei Google haben einen Algorithmus vorgestellt, der zuverlässig verschiedene Sprachquellen in Videos trennen soll. Dabei verlässt sich das Deep-Learning-Modell nicht nur auf unterschiedliche Audiomuster, sondern bezieht auch die Mundbewegungen in die Berechnung mit ein.

Artikel veröffentlicht am ,
Googles Forscher haben einen neuen Algorithmus vorgestellt.
Googles Forscher haben einen neuen Algorithmus vorgestellt. (Bild: Tobias Költzsch/Golem.de)

Google hat ein neues Modell zur Trennung von verschiedenen Sprachquellen in Videos vorgestellt. Der Algorithmus soll zuverlässig verschiedene Sprecher trennen und es dem Zuschauer so ermöglichen, durcheinandergesprochene Sprache besser zuordnen und verstehen zu können.

Stellenmarkt
  1. Softwareentwickler C# .NET (m/w/d)
    Dentsply Sirona, The Dental Solutions Company(TM), Bensheim bei Darmstadt
  2. Consultant (m/w/d) MES
    J.M. Voith SE & Co. KG, Heidenheim an der Brenz
Detailsuche

Googles neuer Algorithmus soll wie der Cocktailparty-Effekt funktionieren, der das Phänomen des selektiven Hörens beschreibt. Menschen können sich dadurch auf eine bestimmte Audioquelle konzentrieren und diese verstehen, auch wenn im Hintergrund weitere Personen sprechen. Der Effekt ist nach der Situation auf einer Cocktailparty benannt, auf der für gewöhnlich viele Personen gleichzeitig reden.

Für computergestützte Spracherkennungssysteme ist selektives Hören aufgrund der fehlenden menschlichen Komponente schwieriger. Googles neuer Algorithmus analysiert nicht nur die Muster der Audiosignale, sondern auch die Mundbewegungen der im Video gezeigten Sprecher. Auf diese Weise kann das Deep-Learning-Modell Sprecher korrekt voneinander trennen und deren Sprache separat darstellen.

Google hat das Modell zunächst mit Videos trainiert, auf denen jeweils eine einzelne, sprechende Person frontal zu sehen ist. Nebengeräusche gab es bei diesen Aufnahmen nicht, der Algorithmus konnte sich entsprechend voll auf die Zuordnung von Mundbewegungen und Audioausgabe konzentrieren.

Golem Akademie
  1. LDAP Identitätsmanagement Fundamentals: virtueller Drei-Tage-Workshop
    , Virtuell
  2. Webentwicklung mit React and Typescript: virtueller Fünf-Halbtage-Workshop
    6.–10. Dezember 2021, Virtuell
Weitere IT-Trainings

Die gezeigten Ergebnisse sind gut: Googles Modell kann auch in herausfordernden Situationen verschiedene Sprecher trennen. Als Extrembeispiel zeigt Google zwei Stand-up-Komiker, die gleichzeitig ihre Programme aufführen. Der Algorithmus trennt die beiden Sprecher so gut, dass der andere jeweils nicht mehr zu hören ist.

Das System funktioniert dank der Einbeziehung der Mundbewegungen auch in der Extremsituation, wenn zwei gleiche Personen in einem Video zu sehen sind. Für dieses Experiment hat Google zwei Vorträge von Sundar Pichai in ein Video geschnitten und die Audiosignale anschließend getrennt.

Der Algorithmus eignet sich auch für alltägliche Nutzungsszenarien, wie etwa ein Videotelefonat mit Hintergrundgeräuschen. Google ist eigenen Angaben zufolge momentan dabei, Einsatzmöglichkeiten für den Algorithmus auszuloten. Wann das System in welche Google-Produkte kommt, ist aktuell noch nicht abzusehen.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Kanadische Polizei
Diebe nutzen Apples Airtags zum Tracking von Luxuswagen

Autodiebe in Kanada nutzen offenbar Apples Airtags, um Fahrzeuge heimlich zu orten.

Kanadische Polizei: Diebe nutzen Apples Airtags zum Tracking von Luxuswagen
Artikel
  1. Blender Foundation: Blender 3.0 ist da
    Blender Foundation
    Blender 3.0 ist da

    Die freie 3D-Software Blender bekommt ein Update - wir haben es uns angesehen.
    Von Martin Wolf

  2. 4 Motoren und 4-Rad-Lenkung: Tesla aktualisiert Cybertruck
    4 Motoren und 4-Rad-Lenkung
    Tesla aktualisiert Cybertruck

    Tesla-Chef Elon Musk hat einige Änderungen am Cybertruck angekündigt. Der elektrische Pick-up-Truck wird mit vier Motoren ausgerüstet.

  3. DSIRF: Hackerbehörde Zitis prüft österreichischen Staatstrojaner
    DSIRF
    Hackerbehörde Zitis prüft österreichischen Staatstrojaner

    Deutsche Behörden sind mit mehreren Staatstrojaner-Herstellern im Gespräch. Nun ist ein weiterer mit Sitz in Wien bekanntgeworden.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Saturn-Advent: SanDisk Ultra 3D 1 TB 77€ • KFA2 Geforce RTX 3070 OC 8GB 1.019€ • Alternate (u. a. AKRacing Core SX 269,98€) • Sharkoon PureWriter RGB 44,90€ • Corsair K70 RGB MK.2 139,99€ • 2x Canton Plus GX.3 49€ • Gaming-Monitore günstiger (u. a. Samsung G3 27" 144Hz 219€) [Werbung]
    •  /