Abo
  • Services:
Anzeige
Nicht nur für Hadoop
Nicht nur für Hadoop (Bild: Presto)

Presto Wie Facebook 300 Petabyte in Echtzeit analysiert

Facebook hat Presto als Open Source veröffentlicht, eine interaktive SQL-Engine für Hadoop, mit der sich große Datenmengen in kurzer Zeit analysieren lassen. Presto soll dabei zehnmal schneller sein als das Gespann aus Hive und Mapreduce.

Anzeige

Facebook speichert nach eigenen Angaben mehr als 300 Petabyte an Daten und nutzt diese für verschiedene Applikationen. Dabei greift Facebook auf unterschiedliche Ansätze zur Datenanalyse zurück, von der Batch-Verarbeitung, um Verknüpfungen zwischen Nutzern zu modellieren, bis zu maschinellem Lernen und interaktiven Analysen, die in Echtzeit ablaufen. Gerade Letzteres ist bei Daten in der Größenordnung von Facebook eine enorme Herausforderung, denn je schneller die Systeme auf die Abfragen der Analysten antworten, desto besser lassen sich die Daten auch untersuchen.

Dazu hat Facebook ein Data-Warehouse aufgebaut, dessen Daten in einigen wenigen großen Hadoop-Clustern gespeichert sind und gewöhnlich mittels Mapreduce und Hive analysiert werden. Doch bei Datenmengen in Petabyte kommt dieser Ansatz an seine Grenzen, weshalb Facebook ein interaktives Analysesystem entwickelt hat, das für kurze Antwortzeiten optimiert ist: Presto.

Verteilte SQL-Query-Engine für Ad-hoc-Analysen

Bei Presto handelt es sich um eine verteilte SQL-Query-Engine, die für Ad-hoc-Analysen mit hoher Geschwindigkeit optimiert ist. Presto unterstützt Ansi SQL einschließlich komplexer Abfragen, Aggregationen, Joins und Fensterfunktionen. Dabei sendet der Client eine SQL-Abfrage an den Presto-Koordinator, der die Anfrage parst und analysiert und die Ausführung plant. Anschließend stellt ein Scheduler eine Ausführungspipeline zusammen, verteilt Aufgaben an die Nodes, die möglichst nah an den Daten liegen, und überwacht den Fortschritt. Der Client erhält dann Daten aus der Output-Stage, die wiederum von darunterliegenden Stages gefüllt wird.

Das Ausführungsmodell von Presto unterscheidet sich fundamental von Hive und Mapreduce: Hive übersetzt Abfragen in mehrere Stufen von Mapreduce-Tasks, die dann nacheinander ausgeführt werden. Dabei liest jede Task Daten von den Platten und schreibt Zwischenergebnisse zurück. Presto hingehen nutzt kein Mapreduce, sondern eine eigene Abfrage- und Ausführungsengine, die der SQL-Semantik folgt.

Um das Scheduling zu verbessern, werden alle Berechnungen im Speicher abgewickelt und zwischen verschiedenen Stages durchgereicht, um unnötiges I/O und die damit verbundenen Latenzen zu vermeiden. Dabei werden mehrere Stages parallel ausgeführt und Daten von einer Stage in die andere gestreamt, sobald sie zur Verfügung stehen. Das vermeidet Verzögerungen und sorgt für schnellere Antwortzeiten.

Umgesetzt wurde Presto in Java. Die Software kompiliert Teile des Query-Plans dynamisch in Byte-Code, aus dem die JavaVM optimierten nativen Maschinencode erzeugt.

Nicht nur für Hadoop 

eye home zur Startseite
draftbreaker 12. Nov 2013

Übrigens http://en.wikipedia.org/wiki/Profile-guided_optimization Java ist schnell...

unveu 08. Nov 2013

Man muss ja die ganzen Researcher und Admins langsam umstellen, die kriegen ja nen Schock...



Anzeige

Stellenmarkt
  1. Bechtle GmbH & Co. KG IT-Systemhaus, Mannheim
  2. Polizei Berlin, Berlin
  3. AKDB · Anstalt des öffent­lichen Rechts, Regensburg
  4. eResearchTechnology GmbH, Estenfeld (bei Würzburg)


Anzeige
Blu-ray-Angebote
  1. 29,99€ (Vorbesteller-Preisgarantie)
  2. 23,99€ (Vorbesteller-Preisgarantie)
  3. (u. a. Forrest Gump 9,97€, Gods of Egypt 9,97€, Creed 8,99€, Cloud Atlas 8,94€)

Folgen Sie uns
       

Anzeige
Whitepaper
  1. Mehr dazu im aktuellen Whitepaper von Freudenberg IT
  2. Wettbewerbsfaktor Analytics im Internet der Dinge.
  3. Leitfaden für den gezielten Einsatz von SAP HANA


  1. Betriebssysteme

    Linux 4.10 beschleunigt und verbessert

  2. Supercomputer

    Der erste Exaflop-Rechner wird in China gebaut

  3. Thomas de Maizière

    Doch keine Vorratsdatenspeicherung für Whatsapp

  4. Automatisierung

    Europaparlament fordert Roboterregeln

  5. Elitebook 810 Revolve G3

    HP gibt die klassischen Convertible-Notebooks auf

  6. Connected Modular

    Tag Heuers neue Smartwatch soll hybrid sein

  7. Megaupload

    Kim Dotcom kann in die USA abgeschoben werden

  8. Rechentechnik

    Ein Bauplan für einen Quantencomputer

  9. Roborace

    Roboterrennwagen bei Testlauf verunglückt

  10. Realface

    Apple kauft israelischen Gesichtserkennungsspezialisten



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
MX Board Silent im Praxistest: Der viel zu teure Feldversuch von Cherry
MX Board Silent im Praxistest
Der viel zu teure Feldversuch von Cherry
  1. Patentantrag Apple denkt über Tastatur mit Siri-, Emoji- und Teilen-Taste nach
  2. Kanex Faltbare Bluetooth-Tastatur für mehrere Geräte gleichzeitig
  3. Surface Ergonomic Keyboard Microsofts Neuauflage der Mantarochen-Tastatur

Der große Ultra-HD-Blu-ray-Test (Teil 2): 4K-Hardware ist nichts für Anfänger
Der große Ultra-HD-Blu-ray-Test (Teil 2)
4K-Hardware ist nichts für Anfänger
  1. Der große Ultra-HD-Blu-ray-Test (Teil 1) 4K-Filme verzeihen keine Fehler
  2. Deutsche Verkaufszahlen Unberechtigter Jubel über die UHD-Blu-ray
  3. 4K Blu-ray Sonys erster UHD-Player kommt im Frühjahr 2017

Everywhere: Ex-GTA-Producer heuert Ex-Crytek-Entwickler an
Everywhere
Ex-GTA-Producer heuert Ex-Crytek-Entwickler an
  1. Rockstar Games Weitere 5 Millionen verkaufte GTA-5-Spiele in drei Monaten
  2. Leslie Benzies GTA-Chefentwickler arbeitet an neuem Projekt
  3. Rockstar Games Spieleklassiker Bully für Mobile-Geräte erhältlich

  1. Und es gibt nicht mal Alternativen zu DE...

    Graveangel | 12:02

  2. Re: Er wollte es doch so

    Apfelbrot | 12:02

  3. Re: abgeschoben oder ausgeliefert?

    FrankRopen | 12:01

  4. Re: Wird ja auch mal Zeit

    nmSteven | 12:01

  5. Re: Verbrennen, in die Luft sprengen...

    cepe | 12:00


  1. 12:06

  2. 11:59

  3. 11:40

  4. 11:27

  5. 11:26

  6. 10:29

  7. 10:13

  8. 09:07


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel