Abo
  • Services:
Anzeige
Nicht nur für Hadoop
Nicht nur für Hadoop (Bild: Presto)

Presto Wie Facebook 300 Petabyte in Echtzeit analysiert

Facebook hat Presto als Open Source veröffentlicht, eine interaktive SQL-Engine für Hadoop, mit der sich große Datenmengen in kurzer Zeit analysieren lassen. Presto soll dabei zehnmal schneller sein als das Gespann aus Hive und Mapreduce.

Anzeige

Facebook speichert nach eigenen Angaben mehr als 300 Petabyte an Daten und nutzt diese für verschiedene Applikationen. Dabei greift Facebook auf unterschiedliche Ansätze zur Datenanalyse zurück, von der Batch-Verarbeitung, um Verknüpfungen zwischen Nutzern zu modellieren, bis zu maschinellem Lernen und interaktiven Analysen, die in Echtzeit ablaufen. Gerade Letzteres ist bei Daten in der Größenordnung von Facebook eine enorme Herausforderung, denn je schneller die Systeme auf die Abfragen der Analysten antworten, desto besser lassen sich die Daten auch untersuchen.

Dazu hat Facebook ein Data-Warehouse aufgebaut, dessen Daten in einigen wenigen großen Hadoop-Clustern gespeichert sind und gewöhnlich mittels Mapreduce und Hive analysiert werden. Doch bei Datenmengen in Petabyte kommt dieser Ansatz an seine Grenzen, weshalb Facebook ein interaktives Analysesystem entwickelt hat, das für kurze Antwortzeiten optimiert ist: Presto.

Verteilte SQL-Query-Engine für Ad-hoc-Analysen

Bei Presto handelt es sich um eine verteilte SQL-Query-Engine, die für Ad-hoc-Analysen mit hoher Geschwindigkeit optimiert ist. Presto unterstützt Ansi SQL einschließlich komplexer Abfragen, Aggregationen, Joins und Fensterfunktionen. Dabei sendet der Client eine SQL-Abfrage an den Presto-Koordinator, der die Anfrage parst und analysiert und die Ausführung plant. Anschließend stellt ein Scheduler eine Ausführungspipeline zusammen, verteilt Aufgaben an die Nodes, die möglichst nah an den Daten liegen, und überwacht den Fortschritt. Der Client erhält dann Daten aus der Output-Stage, die wiederum von darunterliegenden Stages gefüllt wird.

Das Ausführungsmodell von Presto unterscheidet sich fundamental von Hive und Mapreduce: Hive übersetzt Abfragen in mehrere Stufen von Mapreduce-Tasks, die dann nacheinander ausgeführt werden. Dabei liest jede Task Daten von den Platten und schreibt Zwischenergebnisse zurück. Presto hingehen nutzt kein Mapreduce, sondern eine eigene Abfrage- und Ausführungsengine, die der SQL-Semantik folgt.

Um das Scheduling zu verbessern, werden alle Berechnungen im Speicher abgewickelt und zwischen verschiedenen Stages durchgereicht, um unnötiges I/O und die damit verbundenen Latenzen zu vermeiden. Dabei werden mehrere Stages parallel ausgeführt und Daten von einer Stage in die andere gestreamt, sobald sie zur Verfügung stehen. Das vermeidet Verzögerungen und sorgt für schnellere Antwortzeiten.

Umgesetzt wurde Presto in Java. Die Software kompiliert Teile des Query-Plans dynamisch in Byte-Code, aus dem die JavaVM optimierten nativen Maschinencode erzeugt.

Nicht nur für Hadoop 

eye home zur Startseite
draftbreaker 12. Nov 2013

Übrigens http://en.wikipedia.org/wiki/Profile-guided_optimization Java ist schnell...

unveu 08. Nov 2013

Man muss ja die ganzen Researcher und Admins langsam umstellen, die kriegen ja nen Schock...



Anzeige

Stellenmarkt
  1. BASF Business Services GmbH, Ludwigshafen
  2. Robert Bosch GmbH, Böblingen
  3. andagon GmbH, Köln
  4. Bundeskriminalamt, Meckenheim


Anzeige
Hardware-Angebote
  1. 29,99€ + 5,99€ Versand (günstiger als die schlechtere Nicht-PCGH-Version)
  2. (u. a. Ryzen 5 1400 für 151,99€, Ryzen 5 1600 für 198,95€ und Ryzen 7 1700 für 292,99€)

Folgen Sie uns
       


  1. Gesundheitskarte

    T-Systems will Konnektor bald ausliefern

  2. Galaxy Tab Active 2

    Samsungs neues Ruggedized-Tablet kommt mit S-Pen

  3. Jaxa

    Japanische Forscher finden riesige Höhle im Mond

  4. Deep Descent

    Aquanox lädt in Tiefsee-Beta

  5. Android-Apps

    Google belohnt Fehlersuche im Play Store

  6. Depublizierung

    7-Tage-Löschfrist für ARD und ZDF im Internet fällt weg

  7. Netzneutralität

    Telekom darf Auflagen zu Stream On länger prüfen

  8. Spielebranche

    Kopf-an-Kopf-Rennen zwischen Pro und X erwartet

  9. Thunderobot ST-Plus im Praxistest

    Da gehe ich doch lieber wieder draußen spielen!

  10. Fahrdienst

    Alphabet investiert in Lyft



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Passwortmanager im Vergleich: Das letzte Passwort, das du dir jemals merken musst
Passwortmanager im Vergleich
Das letzte Passwort, das du dir jemals merken musst
  1. 30.000 US-Dollar Schaden Admin wegen Sabotage nach Kündigung verurteilt
  2. Cyno Sure Prime Passwortcracker nehmen Troy Hunts Hashes auseinander
  3. Passwortmanager Lastpass ab sofort doppelt so teuer

APFS in High Sierra 10.13 im Test: Apple hat die MacOS-Dateisystem-Werkzeuge vergessen
APFS in High Sierra 10.13 im Test
Apple hat die MacOS-Dateisystem-Werkzeuge vergessen
  1. MacOS 10.13 Apple gibt High Sierra frei
  2. MacOS 10.13 High Sierra Wer eine SSD hat, muss auf APFS umstellen

Elex im Test: Schroffe Schale und postapokalyptischer Kern
Elex im Test
Schroffe Schale und postapokalyptischer Kern

  1. Deitschland stellt sich wieder einmal hinter...

    Spitzkater | 18:17

  2. Re: Guter Trend auf Golem

    Milber | 18:17

  3. Re: Meanwhile in Germany...

    thinksimple | 18:12

  4. Re: Nicht nur die Telekommunikationsunternehmen...

    Matty194 | 18:12

  5. Re: Mobilfunkbetreiber: Ob es so eine gute Idee...

    tg-- | 18:08


  1. 18:00

  2. 17:47

  3. 16:54

  4. 16:10

  5. 15:50

  6. 15:05

  7. 14:37

  8. 12:50


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel