Abo
  • Services:

Presto: Wie Facebook 300 Petabyte in Echtzeit analysiert

Facebook hat Presto als Open Source veröffentlicht, eine interaktive SQL-Engine für Hadoop, mit der sich große Datenmengen in kurzer Zeit analysieren lassen. Presto soll dabei zehnmal schneller sein als das Gespann aus Hive und Mapreduce.

Artikel veröffentlicht am ,
Nicht nur für Hadoop
Nicht nur für Hadoop (Bild: Presto)

Facebook speichert nach eigenen Angaben mehr als 300 Petabyte an Daten und nutzt diese für verschiedene Applikationen. Dabei greift Facebook auf unterschiedliche Ansätze zur Datenanalyse zurück, von der Batch-Verarbeitung, um Verknüpfungen zwischen Nutzern zu modellieren, bis zu maschinellem Lernen und interaktiven Analysen, die in Echtzeit ablaufen. Gerade Letzteres ist bei Daten in der Größenordnung von Facebook eine enorme Herausforderung, denn je schneller die Systeme auf die Abfragen der Analysten antworten, desto besser lassen sich die Daten auch untersuchen.

Inhalt:
  1. Presto: Wie Facebook 300 Petabyte in Echtzeit analysiert
  2. Nicht nur für Hadoop

Dazu hat Facebook ein Data-Warehouse aufgebaut, dessen Daten in einigen wenigen großen Hadoop-Clustern gespeichert sind und gewöhnlich mittels Mapreduce und Hive analysiert werden. Doch bei Datenmengen in Petabyte kommt dieser Ansatz an seine Grenzen, weshalb Facebook ein interaktives Analysesystem entwickelt hat, das für kurze Antwortzeiten optimiert ist: Presto.

Verteilte SQL-Query-Engine für Ad-hoc-Analysen

Bei Presto handelt es sich um eine verteilte SQL-Query-Engine, die für Ad-hoc-Analysen mit hoher Geschwindigkeit optimiert ist. Presto unterstützt Ansi SQL einschließlich komplexer Abfragen, Aggregationen, Joins und Fensterfunktionen. Dabei sendet der Client eine SQL-Abfrage an den Presto-Koordinator, der die Anfrage parst und analysiert und die Ausführung plant. Anschließend stellt ein Scheduler eine Ausführungspipeline zusammen, verteilt Aufgaben an die Nodes, die möglichst nah an den Daten liegen, und überwacht den Fortschritt. Der Client erhält dann Daten aus der Output-Stage, die wiederum von darunterliegenden Stages gefüllt wird.

Das Ausführungsmodell von Presto unterscheidet sich fundamental von Hive und Mapreduce: Hive übersetzt Abfragen in mehrere Stufen von Mapreduce-Tasks, die dann nacheinander ausgeführt werden. Dabei liest jede Task Daten von den Platten und schreibt Zwischenergebnisse zurück. Presto hingehen nutzt kein Mapreduce, sondern eine eigene Abfrage- und Ausführungsengine, die der SQL-Semantik folgt.

Stellenmarkt
  1. BIM Berliner Immobilienmanagement GmbH, Berlin
  2. OHB System AG, Bremen, Oberpfaffenhofen

Um das Scheduling zu verbessern, werden alle Berechnungen im Speicher abgewickelt und zwischen verschiedenen Stages durchgereicht, um unnötiges I/O und die damit verbundenen Latenzen zu vermeiden. Dabei werden mehrere Stages parallel ausgeführt und Daten von einer Stage in die andere gestreamt, sobald sie zur Verfügung stehen. Das vermeidet Verzögerungen und sorgt für schnellere Antwortzeiten.

Umgesetzt wurde Presto in Java. Die Software kompiliert Teile des Query-Plans dynamisch in Byte-Code, aus dem die JavaVM optimierten nativen Maschinencode erzeugt.

Nicht nur für Hadoop 
  1. 1
  2. 2
  3.  


Anzeige
Spiele-Angebote
  1. 34,99€ (erscheint am 14.02.)
  2. (-63%) 34,99€
  3. 12,49€
  4. 34,99€ (erscheint am 15.02.)

draftbreaker 12. Nov 2013

Übrigens http://en.wikipedia.org/wiki/Profile-guided_optimization Java ist schnell...

unveu 08. Nov 2013

Man muss ja die ganzen Researcher und Admins langsam umstellen, die kriegen ja nen Schock...


Folgen Sie uns
       


Mit dem C64 ins Internet - Tutorial

Wir zeigen, wie man den C64 ins Netz bringt.

Mit dem C64 ins Internet - Tutorial Video aufrufen
Geforce RTX 2060 im Test: Gute Karte zum gutem Preis mit Speicher-Aber
Geforce RTX 2060 im Test
Gute Karte zum gutem Preis mit Speicher-Aber

Mit der Geforce RTX 2060 hat Nvidia die bisher günstigste Grafikkarte mit Turing-Architektur veröffentlicht. Für 370 Euro erhalten Spieler genug Leistung für 1080p oder 1440p und sogar für Raytracing, bei vollen Schatten- oder Textur-Details wird es aber in seltenen Fällen ruckelig.
Ein Test von Marc Sauter

  1. Grafikkarte Geforce GTX 1660 Ti soll 1.536 Shader haben
  2. Geforce RTX 2060 Founder's Edition kostet 370 Euro
  3. Turing-Architektur Nvidia stellt schnelle Geforce RTX für Notebooks vor

Schwer ausnutzbar: Die ungefixten Sicherheitslücken
Schwer ausnutzbar
Die ungefixten Sicherheitslücken

Sicherheitslücken wie Spectre, Rowhammer und Heist lassen sich kaum vollständig beheben, ohne gravierende Performance-Einbußen zu akzeptieren. Daher bleiben sie ungefixt. Trotzdem werden sie bisher kaum ausgenutzt.
Von Hanno Böck

  1. Sicherheitslücken Bauarbeitern die Maschinen weghacken
  2. Kilswitch und Apass US-Soldaten nutzten Apps mit fatalen Sicherheitslücken
  3. Sicherheitslücke Kundendaten von IPC-Computer kopiert

Elektroauto: Eine Branche vor der Zerreißprobe
Elektroauto
Eine Branche vor der Zerreißprobe

2019 wird ein spannendes Jahr für die Elektromobilität. Politik und Autoindustrie stehen in diesem Jahr vor Entwicklungen, die über die Zukunft bestimmen. Doch noch ist die Richtung unklar.
Eine Analyse von Dirk Kunde

  1. Monowheel Z-One One Die Elektro-Vespa auf einem Rad
  2. 2nd Life Ausgemusterte Bus-Akkus speichern jetzt Solarenergie
  3. Weniger Aufwand Elektroautos sollen in Deutschland 114.000 Jobs kosten

    •  /