Videokonferenzen: Freier Audio-Codec Opus bekommt großes KI-Update
Dank KI-"Magie" soll der Opus-Vocoder deutlich besser klingen als bisher. Außerdem sollen Paketverluste in Konferenzen besser kompensiert werden.
Die Entwickler des freien Audio-Codecs Opus haben die Version 1.5 ihres Open-Source-Projektes veröffentlicht. Das Team selbst bezeichnet das als "ernsthaftes Machine-Learning-Upgrade"die Version sei völlig anders als bisher. Zwar nutzt der Codec laut Ankündigung bereits zahlreiche Machine-Learning-Techniken, aber die Veröffentlichung von Version 1.5 "ist das erste Mal, dass Deep-Learning-Techniken eingesetzt werden, um die Signale selbst zu verarbeiten oder zu erzeugen."
Anders als etwa die Forschungsarbeiten von Google an seinem KI-Codec Lyra fing das Opus-Team nicht von null an, sondern verbesserte Opus dabei auf eine Art und Weise mit KI, dass es vollständig kompatibel zu dem bisherigen Format ist. Das soll vor allem Upgrades auf die KI-Technik vereinfachen, da ein Codec-Wechsel entfällt.
KI-Neuerungen in Opus
Wichtigste Neuerungen in Opus 1.5 sind dabei eine KI-Verbesserung des sogenannten Packet Loss Concealment (PLC), das kleine Paketverluste ausgleichen soll. Hinzu kommt das sogenannte Deep Redundancy (Dred), das eine Häufung von Paketverlusten ausgleichen können soll. Dabei setzt das Team auf die Idee, die Sprachinformationen im Prinzip doppelt zu versenden, wobei die redundanten Informationen durch einen neuronalen Encoder verkleinert werden. Der Mehraufwand dafür belaufe sich im Bereich von 12-24 KBit/s. Entstanden war die Technik für Amazons Videokonferenzlösung Chime.
Als weitere große KI-Verbesserung beschreibt das Team einen sogenannten Postfilter. Diese sind dazu gedacht, bei der Kodierung entstandene und hörbar unschöne Artefakte so zu verändern, dass diese von Hörern weniger bemerkt werden. Auch hier setzt Opus 1.5 nicht auf eine völlig neue Entwicklung. Den gewählten Ansatz beschreibt das Team so: "Starte mit der bewährten Postfilter-Idee und sprenkel gerade genug DNN-Magie darüber". Das neuronale Netz optimiert dabei nicht etwa direkt das Audiosignal, sondern die vom Filter genutzten Koeffizienten zur Laufzeit.
Auf der Seite der Ankündigung bieten die Entwickler Beispiele ihrer Arbeiten zum Anhören. Die beschriebenen Techniken will das Opus-Team zudem innerhalb der IETF standardisieren, immerhin ist auch Opus selbst seit mehr als zehn Jahren ein IETF-Standard.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed










Nichts anderes ist es, was das Opus Team hier macht. Während andere Codes lange bei 80 kb...
Kommentieren