Lyra: Google stellt extrem effizienten KI-Sprach-Codec vor
Zusammen mit AV1 sollen dank Googles Lyra Videochats bei 56 KBits/s möglich sein.

Das KI-Team von Google hat mit Lyra einen neuen Audio-Codec vorgestellt, der speziell auf die Wiedergabe von Sprache bei extrem geringer Bitrate optimiert ist. Durch die Kombination bestehender Ideen für Audio-Codecs mit modernen KI-Techniken sei die Nutzung von Lyra als Schmalband-Codec bei noch 3 KBit/s möglich.
Lyra soll dabei nicht nur deutlich besser sein als die freien Codecs Speex und Opus, sondern auch besser als bestehende klassische Codecs in Bezug auf Sprachqualität. Google nennt hier explizit das in UMTS beziehungsweise 3G genutzte AMR sowie MELP, das vom US-Militär und der Nato für klassische Funkverbindungen eingesetzt wird. In diesem Bereich gibt es bisher als freie Alternative lediglich den Codec2, der speziell für den Amateurfunk entwickelt wurde, oder das deutlich schlechter klingende Speex.
Ein hoch moderner Vocoder
Konkret nutzt Lyra dabei die Idee klassischer Vocoder. Das heißt, die zu übertragende Sprachaufnahme wird nicht als Wellenform komprimiert, wie etwa in Opus. Stattdessen wird die Sprache in kleinere Segmente aufgeteilt und wichtige Parameter extrahiert, aus denen wiederum am anderen Ende der Verbindung Sprache erzeugt wird. Auf Seite der Verarbeitung setzt Lyra auf Spektrogramme, die das natürliche Hörempfinden von Menschen berücksichtigen.
Auf der Seite der Erzeugung nutzt Lyra ein KI-Modell, das eine leicht abgewandelte Form von Deepminds Wavenet ist und auch in vertretbarer Geschwindigkeit auf Smartphones laufen soll. Die Nutzung von Wavenet soll es außerdem ermöglichen, eine natürlich klingende Sprache zu erzeugen. Einen ähnlichen Ansatz nutzt das von Funkamateuren erstellte FreeDV 2020 mit dem Modell LPCnet, was sich dann sogar noch bei 2 KBit/s oder weniger nutzen lassen soll und so geeignet ist für die Verwendung zum Funken über Kurzwelle.
Googles KI-Team arbeitet seit Jahren an derartigen Techniken zu Spracherzeugung und Codierung und erreichte etwa mit dem Tacotron 2 schon erstaunlich gute Ergebnisse. Die Erkenntnisse dieser Forschung sind nun offenbar in Lyra wieder verwendet worden. Das Modell zur Spracherzeugung in Lyra sei zudem mit den Aufnahmen vieler verschiedener Sprecher in mehr als 70 Sprachen trainiert worden. Das soll Lyra universell einsetzbar machen.
In selbst durchgeführten Tests soll Lyra bei 3 KBit/s deutlich besser abschneiden als Opus bei 6 KBit/s. Das Team von Google zeigt die Leistungsfähigkeit von Lyra in der Ankündigung auch mit Hörbeispielen. Zusammen mit dem ebenfalls sehr effizienten Videocodec AV1 ermögliche Lyra Videoanrufe sogar noch mit einem Modem bei 56 KBit/s. Für besonders schlechte Verbindungen verteilt Google den Codec Lyra bereits in seiner Videochat-Anwendung Duo.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Damit kann man es dann in Jitsi und BBB anwenden.
Hallo Isodome, Das ist doch klar, es ging mir mehr um den Witz bezüglich der...
Youtube -> Bode Vocoder 7702 Demonstration
Für angepriesene Videotelefonie reicht dann selbst das nicht mehr. Spricht irgendwie Bände.