Zum Hauptinhalt Zur Navigation

Lyra: Google stellt extrem effizienten KI-Sprach-Codec vor

Zusammen mit AV1 sollen dank Googles Lyra Videochats bei 56 KBits/s möglich sein.
/ Sebastian Grüner
15 Kommentare News folgen (öffnet im neuen Fenster)
Google will Lyra in seinem Videochat Duo verteilen, für besonders schlechte Netzverbindungen. (Bild: Google)
Google will Lyra in seinem Videochat Duo verteilen, für besonders schlechte Netzverbindungen. Bild: Google

Das KI-Team von Google hat mit Lyra einen neuen Audio-Codec vorgestellt(öffnet im neuen Fenster) , der speziell auf die Wiedergabe von Sprache bei extrem geringer Bitrate optimiert ist. Durch die Kombination bestehender Ideen für Audio-Codecs mit modernen KI-Techniken sei die Nutzung von Lyra als Schmalband-Codec bei noch 3 KBit/s möglich.

Lyra soll dabei nicht nur deutlich besser sein als die freien Codecs Speex und Opus, sondern auch besser als bestehende klassische Codecs in Bezug auf Sprachqualität. Google nennt hier explizit das in UMTS beziehungsweise 3G genutzte AMR(öffnet im neuen Fenster) sowie MELP(öffnet im neuen Fenster) , das vom US-Militär und der Nato für klassische Funkverbindungen eingesetzt wird. In diesem Bereich gibt es bisher als freie Alternative lediglich den Codec2(öffnet im neuen Fenster) , der speziell für den Amateurfunk entwickelt wurde, oder das deutlich schlechter klingende Speex.

Ein hoch moderner Vocoder

Konkret nutzt Lyra dabei die Idee klassischer Vocoder(öffnet im neuen Fenster) . Das heißt, die zu übertragende Sprachaufnahme wird nicht als Wellenform komprimiert, wie etwa in Opus. Stattdessen wird die Sprache in kleinere Segmente aufgeteilt und wichtige Parameter extrahiert, aus denen wiederum am anderen Ende der Verbindung Sprache erzeugt wird. Auf Seite der Verarbeitung setzt Lyra auf Spektrogramme, die das natürliche Hörempfinden von Menschen berücksichtigen.

Auf der Seite der Erzeugung nutzt Lyra ein KI-Modell, das eine leicht abgewandelte Form von Deepminds Wavenet ist und auch in vertretbarer Geschwindigkeit auf Smartphones laufen soll. Die Nutzung von Wavenet soll es außerdem ermöglichen, eine natürlich klingende Sprache zu erzeugen. Einen ähnlichen Ansatz nutzt das von Funkamateuren erstellte FreeDV 2020 mit dem Modell LPCnet(öffnet im neuen Fenster) , was sich dann sogar noch bei 2 KBit/s oder weniger nutzen lassen soll und so geeignet ist für die Verwendung zum Funken über Kurzwelle.

Googles KI-Team arbeitet seit Jahren an derartigen Techniken zu Spracherzeugung und Codierung und erreichte etwa mit dem Tacotron 2 schon erstaunlich gute Ergebnisse. Die Erkenntnisse dieser Forschung sind nun offenbar in Lyra wieder verwendet worden. Das Modell zur Spracherzeugung in Lyra sei zudem mit den Aufnahmen vieler verschiedener Sprecher in mehr als 70 Sprachen trainiert worden. Das soll Lyra universell einsetzbar machen.

In selbst durchgeführten Tests soll Lyra bei 3 KBit/s deutlich besser abschneiden als Opus bei 6 KBit/s. Das Team von Google zeigt die Leistungsfähigkeit von Lyra in der Ankündigung auch mit Hörbeispielen. Zusammen mit dem ebenfalls sehr effizienten Videocodec AV1 ermögliche Lyra Videoanrufe sogar noch mit einem Modem bei 56 KBit/s. Für besonders schlechte Verbindungen verteilt Google den Codec Lyra bereits in seiner Videochat-Anwendung Duo.


Relevante Themen