Google Deepmind: KI wandelt Video in Audio um

Das Google-Forschungsteam unter der Leitung von Ankush Gupta und Nick Pezzotti hat eine KI entwickelt, die Videos vertonen kann(öffnet im neuen Fenster) .
Die Forscher entwickelten Algorithmen, die es dem V2A-System ermöglichen, den Kontext und die Semantik von Videoszenen zu verstehen. Dadurch kann die Technologie Audioinhalte generieren, die nicht nur mit den visuellen Inhalten synchronisiert sind, sondern auch die emotionalen und atmosphärischen Elemente der Szene einfangen.
Eines der wichtigsten Merkmale der V2A-Technologie ist die Fähigkeit, eine Vielzahl von Audiotypen zu verarbeiten, von Umgebungsgeräuschen und Hintergrundmusik bis zu Dialogen und Soundeffekten. Das System verwendet Techniken wie Audiosynthese, Stimmklonen und Klangverräumlichung, um ein realistisches und immersives Klangerlebnis zu erzeugen.
Die Technik synchronisiert die Audioinhalte mit den Videobildern und stellt so sicher, dass die Klänge mit den visuellen Aktionen und Ereignissen auf dem Bildschirm übereinstimmen.
Die V2A-Technologie umfasst außerdem Algorithmen zur Rauschunterdrückung und Audioverbesserung, um die Gesamtqualität des erzeugten Tons zu verbessern. Dadurch werde die endgültige Ausgabe klar, deutlich und frei von unerwünschten Artefakten oder Verzerrungen, teilten die Forscher mit.
Um einen möglichen Missbrauch zu verhindern, integrierte das Unternehmen sein SynthID-Toolkit in die Forschung, das alle von der KI generierten Inhalte mit Wasserzeichen versieht.
Bevor das Team einen öffentlichen Zugang zu der Technologie in Betracht zieht, werden noch Sicherheitsbewertungen und -tests durchgeführt.



