Lyra: Google stellt extrem effizienten KI-Sprach-Codec vor

Zusammen mit AV1 sollen dank Googles Lyra Videochats bei 56 KBits/s möglich sein.

Artikel veröffentlicht am ,
Google will Lyra in seinem Videochat Duo verteilen, für besonders schlechte Netzverbindungen.
Google will Lyra in seinem Videochat Duo verteilen, für besonders schlechte Netzverbindungen. (Bild: Google)

Das KI-Team von Google hat mit Lyra einen neuen Audio-Codec vorgestellt, der speziell auf die Wiedergabe von Sprache bei extrem geringer Bitrate optimiert ist. Durch die Kombination bestehender Ideen für Audio-Codecs mit modernen KI-Techniken sei die Nutzung von Lyra als Schmalband-Codec bei noch 3 KBit/s möglich.

Stellenmarkt
  1. IT System Administrator (m/w/d) Schwerpunkt Netzwerk
    Hirschvogel Holding GmbH, Denklingen
  2. Data Solution Engineer (m/w/d)
    BSH Hausgeräte GmbH, Traunreut
Detailsuche

Lyra soll dabei nicht nur deutlich besser sein als die freien Codecs Speex und Opus, sondern auch besser als bestehende klassische Codecs in Bezug auf Sprachqualität. Google nennt hier explizit das in UMTS beziehungsweise 3G genutzte AMR sowie MELP, das vom US-Militär und der Nato für klassische Funkverbindungen eingesetzt wird. In diesem Bereich gibt es bisher als freie Alternative lediglich den Codec2, der speziell für den Amateurfunk entwickelt wurde, oder das deutlich schlechter klingende Speex.

Ein hoch moderner Vocoder

Konkret nutzt Lyra dabei die Idee klassischer Vocoder. Das heißt, die zu übertragende Sprachaufnahme wird nicht als Wellenform komprimiert, wie etwa in Opus. Stattdessen wird die Sprache in kleinere Segmente aufgeteilt und wichtige Parameter extrahiert, aus denen wiederum am anderen Ende der Verbindung Sprache erzeugt wird. Auf Seite der Verarbeitung setzt Lyra auf Spektrogramme, die das natürliche Hörempfinden von Menschen berücksichtigen.

Auf der Seite der Erzeugung nutzt Lyra ein KI-Modell, das eine leicht abgewandelte Form von Deepminds Wavenet ist und auch in vertretbarer Geschwindigkeit auf Smartphones laufen soll. Die Nutzung von Wavenet soll es außerdem ermöglichen, eine natürlich klingende Sprache zu erzeugen. Einen ähnlichen Ansatz nutzt das von Funkamateuren erstellte FreeDV 2020 mit dem Modell LPCnet, was sich dann sogar noch bei 2 KBit/s oder weniger nutzen lassen soll und so geeignet ist für die Verwendung zum Funken über Kurzwelle.

Golem Akademie
  1. Ansible Fundamentals: Systemdeployment & -management: virtueller Drei-Tage-Workshop
    6.–8. Dezember 2021, Virtuell
  2. Kotlin für Java-Entwickler: virtueller Zwei-Tage-Workshop
    14.–15. Oktober 2021, Virtuell
Weitere IT-Trainings

Googles KI-Team arbeitet seit Jahren an derartigen Techniken zu Spracherzeugung und Codierung und erreichte etwa mit dem Tacotron 2 schon erstaunlich gute Ergebnisse. Die Erkenntnisse dieser Forschung sind nun offenbar in Lyra wieder verwendet worden. Das Modell zur Spracherzeugung in Lyra sei zudem mit den Aufnahmen vieler verschiedener Sprecher in mehr als 70 Sprachen trainiert worden. Das soll Lyra universell einsetzbar machen.

In selbst durchgeführten Tests soll Lyra bei 3 KBit/s deutlich besser abschneiden als Opus bei 6 KBit/s. Das Team von Google zeigt die Leistungsfähigkeit von Lyra in der Ankündigung auch mit Hörbeispielen. Zusammen mit dem ebenfalls sehr effizienten Videocodec AV1 ermögliche Lyra Videoanrufe sogar noch mit einem Modem bei 56 KBit/s. Für besonders schlechte Verbindungen verteilt Google den Codec Lyra bereits in seiner Videochat-Anwendung Duo.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


ikhaya 10. Mär 2021

Damit kann man es dann in Jitsi und BBB anwenden.

johnsonmonsen 03. Mär 2021

Hallo Isodome, Das ist doch klar, es ging mir mehr um den Witz bezüglich der...

pgo 02. Mär 2021

Youtube -> Bode Vocoder 7702 Demonstration

ZerP 02. Mär 2021

Für angepriesene Videotelefonie reicht dann selbst das nicht mehr. Spricht irgendwie Bände.

ashahaghdsa 02. Mär 2021

Das ist halt ein Vocoder, also ein reiner Sprachcodec. Und LPCNet ist schon 2 Jahre alt...



Aktuell auf der Startseite von Golem.de
Cloud-Ausfall
Eine AWS-Region als Single Point of Failure

Ein stundenlanger Ausfall der AWS-Cloud legte zentrale Dienste und sogar Amazon selbst teilweise lahm. Das zeigt die Grenzen der Cloud-Versprechen.
Ein Bericht von Sebastian Grüner

Cloud-Ausfall: Eine AWS-Region als Single Point of Failure
Artikel
  1. Ampelkoalition: Das Verkehrsministerium wird zum Digitalministerium
    Ampelkoalition
    Das Verkehrsministerium wird zum Digitalministerium

    Aus dem geplanten Ministerium für Verkehr und Digitales wird ein Ministerium für Digitales und Verkehr. Minister Wissing erhält zusätzliche Kompetenzen.

  2. Bundesnetzagentur: 30 Messungen an drei unterschiedlichen Kalendertagen
    Bundesnetzagentur
    30 Messungen an drei unterschiedlichen Kalendertagen

    Die Bundesnetzagentur hat festgelegt, wann der Netzbetreiber/Provider den Vertrag nicht erfüllt. Es muss viel gemessen werden.

  3. Euro NCAP: Renault Zoe mit katastrophalem Crash-Ergebnis
    Euro NCAP
    Renault Zoe mit katastrophalem Crash-Ergebnis

    Mit dem Renault Zoe sollte man keinen Unfall bauen. Im Euro-NCAP-Crashtest erhielt das Elektroauto null Sterne.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Acer-Monitore zu Bestpreisen (u. a. 27" FHD 165Hz OC 199€) • Kingston PCIe-SSD 1TB 69,90€ & 2TB 174,90€ • Samsung Smartphones & Watches günstiger • Saturn: Xiaomi Redmi Note 9 Pro 128GB 199€ • Alternate (u. a. Razer Opus Headset 69,99€) • Release: Halo Infinite 68,99€ [Werbung]
    •  /