Streaming: Bei 1 PByte reicht Bigtable nicht mehr für Spotify

Mit Googles Cloud-Datenbank Bigtable sollen sich schnell riesige Datenmengen verarbeiten lassen. Spotify setzt aber auf etwas Eigenes.

Artikel veröffentlicht am ,
Spotify verzichtet nach fast fünf Jahren auf Bigtable.
Spotify verzichtet nach fast fünf Jahren auf Bigtable. (Bild: Joe Scarnici/Getty Images for Spotify)

Zum Ende jedes Jahres erstellt Spotify einen individuellen Jahresrückblick für die Nutzer seines Audio-Streamingangebots und hat dabei erstmals auf Googles Bigtable verzichtet. Die Datenbank ist eigentlich für die Verarbeitung extrem großer Datenmengen gedacht. Wie das Team von Spotify in seinem Engineering-Blog schreibt, seien diesmal aber auch ohne Bigtable rund 1 PByte an Daten zusammengeführt worden.

Stellenmarkt
  1. IT Specialist First & Second Level Support (m/w/d)
    COLUMBUS McKINNON EMEA GmbH, Wuppertal, Kissing
  2. Web DevOps Engineer - Beschäftigte*r in der IT-Systemtechnik (d/m/w)
    Technische Universität Berlin, Berlin
Detailsuche

Die Kosten für den Datenfluss seien dabei im Vergleich zu der Umsetzung mit Bigtable aus dem Vorjahr um 50 Prozent zurückgegangen. Auch das Skalieren der Bigtable-Cluster zu ihrer sonst zwei- bis dreifachen Größe zum Verarbeiten der riesigen Datenmengen sei nicht nötig gewesen, was ebenfalls massive Einsparungen bedeute. Spotify setzte seit fast fünf Jahren auf die Google Cloud und Bigtable.

Um auf Bigtable zu verzichten, nutzt Spotify eine Technik, die Sort Merge Bucket (SMB) genannt wird und bei Spotify intern als Teil einer Masterarbeit entstand. Die grundlegende Idee dabei ist, Daten so zu speichern, dass diese beim Zusammenführen für Auswertungen möglichst wenig bis gar nicht neu sortiert oder verschoben werden müssen.

Daten einfacher zusammenführen

In der SMB-Dokumentation heißt es, es handle sich um "eine Technik zum Schreiben von Daten in das Dateisystem an deterministischen Orten, die nach einem vordefinierten Schlüssel sortiert sind, damit sie später als Gruppen mit gleichem Schlüssel eingelesen werden können (...). Da jedem Element ein Dateiziel (Bucket) zugewiesen wird, das auf einem Hash seines Schlüssels basiert, können wir mit derselben Technik mehrere Quellen gruppieren, solange sie mit demselben Schlüssel und demselben Hashing-Schema geschrieben werden."

Golem Akademie
  1. Terraform mit AWS
    14.-15. Dezember 2021, online
  2. AZ-104 Microsoft Azure Administrator
    13.-16. Dezember 2021, online
  3. OpenShift Installation & Administration
    31. Januar-2. Februar 2022, online
Weitere IT-Trainings

Die Schlüssel sind im Falle von Spotify etwa die User-ID, Nutzermetadaten oder auch Events eines einzelnen Nutzers. Mit SMB sollen sich dazugehörige Daten aus verschiedenen Quellen schnell zusammenführen und anschließend verarbeiten lassen. Genau das, was Spotify für die individuellen Jahresrückblicke braucht.

Im vergangenen Jahr hat der Streaminganbieter immer mehr auf SMB gesetzt, die Idee an vielen Stellen für den produktiven Einsatz erweitert und vor allem die eigentlichen Datenquellen auf das neue Format umgestellt. Für die Jahresauswertung hat das Team erst die Daten der einzelnen Wochen und danach wiederum die Wochenauswertungen zusammengeführt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Klimaforscher
Das Konzept der Klimaneutralität ist eine gefährliche Falle

Mit der Entnahme von CO2 in den nächsten Jahrzehnten netto auf null Emissionen zu kommen, klingt nach einer guten Idee. Ist es aber nicht, sagen Klimaforscher.
Von James Dyke, Robert Watson und Wolfgang Knorr

Klimaforscher: Das Konzept der Klimaneutralität ist eine gefährliche Falle
Artikel
  1. Build Hat: Neues Raspberry-Pi-Board steuert Lego Technic
    Build Hat
    Neues Raspberry-Pi-Board steuert Lego Technic

    Der Raspberry Pi Build Hat passt auf den kleinen Bastelrechner und kann vier Lego-Sensoren ansteuern. Er ist mit Lego Technic kompatibel.

  2. Apple-Kopfhörer im Vergleich: Airpods Pro oder Airpods 3 kaufen?
    Apple-Kopfhörer im Vergleich
    Airpods Pro oder Airpods 3 kaufen?

    Apple hat die aktuelle Generation der Airpods vorgestellt. Preislich sind sie nah an der Pro-Variante. Was ist der bessere Deal?
    Von Christian Hensen

  3. M1 Pro/Max: Dieses Apple Silicon ist gigantisch
    M1 Pro/Max
    Dieses Apple Silicon ist gigantisch

    Egal ob AMD-, Intel- oder Nvidia-Hardware: Mit dem M1 Pro und dem M1 Max schickt sich Apple an, die versammelte Konkurrenz zu düpieren.
    Eine Analyse von Marc Sauter

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Cyber Week: Bis zu 16% auf SSDs & RAM von Adata & bis zu 30% auf Alternate • 3 Spiele für 49€: PC, PS5 uvm. • Switch OLED 369,99€ • 6 Blu-rays für 40€ • MSI 27" Curved WQHD 165Hz HDR 479€ • Chromebooks zu Bestpreisen • Alternate (u. a. Team Group PCIe-4.0-SSD 1TB 152,90€) [Werbung]
    •  /