Streaming: Bei 1 PByte reicht Bigtable nicht mehr für Spotify

Mit Googles Cloud-Datenbank Bigtable sollen sich schnell riesige Datenmengen verarbeiten lassen. Spotify setzt aber auf etwas Eigenes.

Artikel veröffentlicht am ,
Spotify verzichtet nach fast fünf Jahren auf Bigtable.
Spotify verzichtet nach fast fünf Jahren auf Bigtable. (Bild: Joe Scarnici/Getty Images for Spotify)

Zum Ende jedes Jahres erstellt Spotify einen individuellen Jahresrückblick für die Nutzer seines Audio-Streamingangebots und hat dabei erstmals auf Googles Bigtable verzichtet. Die Datenbank ist eigentlich für die Verarbeitung extrem großer Datenmengen gedacht. Wie das Team von Spotify in seinem Engineering-Blog schreibt, seien diesmal aber auch ohne Bigtable rund 1 PByte an Daten zusammengeführt worden.

Stellenmarkt
  1. Softwareentwickler IoT (m/w/d)
    Pfeiffer Vacuum GmbH, Aßlar
  2. Lead SAP ABAP Entwickler (m/w/x)
    über duerenhoff GmbH, München
Detailsuche

Die Kosten für den Datenfluss seien dabei im Vergleich zu der Umsetzung mit Bigtable aus dem Vorjahr um 50 Prozent zurückgegangen. Auch das Skalieren der Bigtable-Cluster zu ihrer sonst zwei- bis dreifachen Größe zum Verarbeiten der riesigen Datenmengen sei nicht nötig gewesen, was ebenfalls massive Einsparungen bedeute. Spotify setzte seit fast fünf Jahren auf die Google Cloud und Bigtable.

Um auf Bigtable zu verzichten, nutzt Spotify eine Technik, die Sort Merge Bucket (SMB) genannt wird und bei Spotify intern als Teil einer Masterarbeit entstand. Die grundlegende Idee dabei ist, Daten so zu speichern, dass diese beim Zusammenführen für Auswertungen möglichst wenig bis gar nicht neu sortiert oder verschoben werden müssen.

Daten einfacher zusammenführen

In der SMB-Dokumentation heißt es, es handle sich um "eine Technik zum Schreiben von Daten in das Dateisystem an deterministischen Orten, die nach einem vordefinierten Schlüssel sortiert sind, damit sie später als Gruppen mit gleichem Schlüssel eingelesen werden können (...). Da jedem Element ein Dateiziel (Bucket) zugewiesen wird, das auf einem Hash seines Schlüssels basiert, können wir mit derselben Technik mehrere Quellen gruppieren, solange sie mit demselben Schlüssel und demselben Hashing-Schema geschrieben werden."

Golem Karrierewelt
  1. Deep-Dive Kubernetes – Observability, Monitoring & Alerting: virtueller Ein-Tages-Workshop
    10.11.2022, Virtuell
  2. Deep Dive: Data Governance Fundamentals: virtueller Ein-Tages-Workshop
    30.11.2022, Virtuell
Weitere IT-Trainings

Die Schlüssel sind im Falle von Spotify etwa die User-ID, Nutzermetadaten oder auch Events eines einzelnen Nutzers. Mit SMB sollen sich dazugehörige Daten aus verschiedenen Quellen schnell zusammenführen und anschließend verarbeiten lassen. Genau das, was Spotify für die individuellen Jahresrückblicke braucht.

Im vergangenen Jahr hat der Streaminganbieter immer mehr auf SMB gesetzt, die Idee an vielen Stellen für den produktiven Einsatz erweitert und vor allem die eigentlichen Datenquellen auf das neue Format umgestellt. Für die Jahresauswertung hat das Team erst die Daten der einzelnen Wochen und danach wiederum die Wochenauswertungen zusammengeführt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Ukrainekrieg
Meta stoppt ausgefeilte russische Desinformationskampagne

Gefakte Webseiten deutscher Medien machen Stimmung gegen die Russland-Sanktionen. Die falschen Artikel wurden über soziale Medien verbreitet.

Ukrainekrieg: Meta stoppt ausgefeilte russische Desinformationskampagne
Artikel
  1. Berufsschule für die IT-Branche: Leider nicht mal ausreichend
    Berufsschule für die IT-Branche
    Leider nicht mal "ausreichend"

    Lehrmaterial wie aus einem Schüleralbtraum, ein veralteter Rahmenlehrplan und nette Lehrer, denen aber die Praxis fehlt - mein Fazit aus drei Jahren als Berufsschullehrer.
    Ein Erfahrungsbericht von Rene Koch

  2. Autonomes Fahren: VW will 2025 mit Robotaxis in Hamburg starten
    Autonomes Fahren
    VW will 2025 mit Robotaxis in Hamburg starten

    VW will den Dienst mit den autonom fahrenden Taxis auch in weiteren Städten in Europa und den USA anbieten.

  3. iPadOS 16: Apple bringt Stage Manager auf alte iPads
    iPadOS 16
    Apple bringt Stage Manager auf alte iPads

    Zuerst wollte Apple das wichtigste iPadOS-16-Feature nur auf M1-iPads bringen, doch nun kommt der Stage Manager auch für alte iPads.

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Jetzt PS5-Verkauf bei Amazon • Viewsonic Curved 27" FHD 240 Hz günstig wie nie: 179,90€ • MindStar (Gigabyte RTX 3060 Ti 499€, ASRock RX 6800 579€) • AMD Ryzen 7000 jetzt bestellbar • Alternate (Kingston Fury DDR5-5600 16GB 96,90€) [Werbung]
    •  /