Lyra: Google stellt extrem effizienten KI-Sprach-Codec vor

Zusammen mit AV1 sollen dank Googles Lyra Videochats bei 56 KBits/s möglich sein.

Artikel veröffentlicht am ,
Google will Lyra in seinem Videochat Duo verteilen, für besonders schlechte Netzverbindungen.
Google will Lyra in seinem Videochat Duo verteilen, für besonders schlechte Netzverbindungen. (Bild: Google)

Das KI-Team von Google hat mit Lyra einen neuen Audio-Codec vorgestellt, der speziell auf die Wiedergabe von Sprache bei extrem geringer Bitrate optimiert ist. Durch die Kombination bestehender Ideen für Audio-Codecs mit modernen KI-Techniken sei die Nutzung von Lyra als Schmalband-Codec bei noch 3 KBit/s möglich.

Lyra soll dabei nicht nur deutlich besser sein als die freien Codecs Speex und Opus, sondern auch besser als bestehende klassische Codecs in Bezug auf Sprachqualität. Google nennt hier explizit das in UMTS beziehungsweise 3G genutzte AMR sowie MELP, das vom US-Militär und der Nato für klassische Funkverbindungen eingesetzt wird. In diesem Bereich gibt es bisher als freie Alternative lediglich den Codec2, der speziell für den Amateurfunk entwickelt wurde, oder das deutlich schlechter klingende Speex.

Ein hoch moderner Vocoder

Konkret nutzt Lyra dabei die Idee klassischer Vocoder. Das heißt, die zu übertragende Sprachaufnahme wird nicht als Wellenform komprimiert, wie etwa in Opus. Stattdessen wird die Sprache in kleinere Segmente aufgeteilt und wichtige Parameter extrahiert, aus denen wiederum am anderen Ende der Verbindung Sprache erzeugt wird. Auf Seite der Verarbeitung setzt Lyra auf Spektrogramme, die das natürliche Hörempfinden von Menschen berücksichtigen.

Auf der Seite der Erzeugung nutzt Lyra ein KI-Modell, das eine leicht abgewandelte Form von Deepminds Wavenet ist und auch in vertretbarer Geschwindigkeit auf Smartphones laufen soll. Die Nutzung von Wavenet soll es außerdem ermöglichen, eine natürlich klingende Sprache zu erzeugen. Einen ähnlichen Ansatz nutzt das von Funkamateuren erstellte FreeDV 2020 mit dem Modell LPCnet, was sich dann sogar noch bei 2 KBit/s oder weniger nutzen lassen soll und so geeignet ist für die Verwendung zum Funken über Kurzwelle.

Googles KI-Team arbeitet seit Jahren an derartigen Techniken zu Spracherzeugung und Codierung und erreichte etwa mit dem Tacotron 2 schon erstaunlich gute Ergebnisse. Die Erkenntnisse dieser Forschung sind nun offenbar in Lyra wieder verwendet worden. Das Modell zur Spracherzeugung in Lyra sei zudem mit den Aufnahmen vieler verschiedener Sprecher in mehr als 70 Sprachen trainiert worden. Das soll Lyra universell einsetzbar machen.

In selbst durchgeführten Tests soll Lyra bei 3 KBit/s deutlich besser abschneiden als Opus bei 6 KBit/s. Das Team von Google zeigt die Leistungsfähigkeit von Lyra in der Ankündigung auch mit Hörbeispielen. Zusammen mit dem ebenfalls sehr effizienten Videocodec AV1 ermögliche Lyra Videoanrufe sogar noch mit einem Modem bei 56 KBit/s. Für besonders schlechte Verbindungen verteilt Google den Codec Lyra bereits in seiner Videochat-Anwendung Duo.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


ikhaya 10. Mär 2021

Damit kann man es dann in Jitsi und BBB anwenden.

johnsonmonsen 03. Mär 2021

Hallo Isodome, Das ist doch klar, es ging mir mehr um den Witz bezüglich der...

pgo 02. Mär 2021

Youtube -> Bode Vocoder 7702 Demonstration

ZerP 02. Mär 2021

Für angepriesene Videotelefonie reicht dann selbst das nicht mehr. Spricht irgendwie Bände.



Aktuell auf der Startseite von Golem.de
Reviews
Hogwarts Legacy mit PC-Problemen und Detailreichtum

Die ersten Tests von Hogwarts Legacy loben Welt und Kampfsystem. Probleme gibt's wohl mit der PC-Technik - und Unwohlsein wegen J.K. Rowling.

Reviews: Hogwarts Legacy mit PC-Problemen und Detailreichtum
Artikel
  1. Liberty Lifter: Zwei Teams entwickeln ein Ekranoplan für das US-Militär
    Liberty Lifter
    Zwei Teams entwickeln ein Ekranoplan für das US-Militär

    Die Darpa hat zwei Konzepte für den Liberty Lifter ausgewählt. Das Bodeneffektfahrzeug soll künftig US-Truppen und Ausrüstung über das Wasser transportieren.

  2. Künstliche Intelligenz: So funktioniert ChatGPT
    Künstliche Intelligenz
    So funktioniert ChatGPT

    Das mächtige Sprachmodell ChatGPT erzeugt Texte, die sich kaum von denen menschlicher Autoren unterscheiden lassen. Wir erklären die Technologie hinter dem Hype.
    Ein Deep Dive von Helmut Linde

  3. i4: BMW lässt sich am Berg nicht updaten
    i4
    BMW lässt sich am Berg nicht updaten

    Die Besitzerin eines BMW i4 hat die Fehlermeldung entdeckt, ihr Parkplatz sei zu steil für ein Update der Bordsoftware.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • RAM im Preisrutsch - neue Tiefstpreise! • Powercolor RX 7900 XTX 1.195€ • AMD Ryzen 7 5800X3D 329€ • Nur noch heute TV-Sale mit bis 77% Rabatt bei Otto • Lenovo Tab P11 Plus 249€ • MindStar: Intel Core i7 13700K 429€ • Logitech G915 Lightspeed 219,89€ • PCGH Cyber Week [Werbung]
    •  /