Abo
  • Services:

Presto: Wie Facebook 300 Petabyte in Echtzeit analysiert

Facebook hat Presto als Open Source veröffentlicht, eine interaktive SQL-Engine für Hadoop, mit der sich große Datenmengen in kurzer Zeit analysieren lassen. Presto soll dabei zehnmal schneller sein als das Gespann aus Hive und Mapreduce.

Artikel veröffentlicht am ,
Nicht nur für Hadoop
Nicht nur für Hadoop (Bild: Presto)

Facebook speichert nach eigenen Angaben mehr als 300 Petabyte an Daten und nutzt diese für verschiedene Applikationen. Dabei greift Facebook auf unterschiedliche Ansätze zur Datenanalyse zurück, von der Batch-Verarbeitung, um Verknüpfungen zwischen Nutzern zu modellieren, bis zu maschinellem Lernen und interaktiven Analysen, die in Echtzeit ablaufen. Gerade Letzteres ist bei Daten in der Größenordnung von Facebook eine enorme Herausforderung, denn je schneller die Systeme auf die Abfragen der Analysten antworten, desto besser lassen sich die Daten auch untersuchen.

Inhalt:
  1. Presto: Wie Facebook 300 Petabyte in Echtzeit analysiert
  2. Nicht nur für Hadoop

Dazu hat Facebook ein Data-Warehouse aufgebaut, dessen Daten in einigen wenigen großen Hadoop-Clustern gespeichert sind und gewöhnlich mittels Mapreduce und Hive analysiert werden. Doch bei Datenmengen in Petabyte kommt dieser Ansatz an seine Grenzen, weshalb Facebook ein interaktives Analysesystem entwickelt hat, das für kurze Antwortzeiten optimiert ist: Presto.

Verteilte SQL-Query-Engine für Ad-hoc-Analysen

Bei Presto handelt es sich um eine verteilte SQL-Query-Engine, die für Ad-hoc-Analysen mit hoher Geschwindigkeit optimiert ist. Presto unterstützt Ansi SQL einschließlich komplexer Abfragen, Aggregationen, Joins und Fensterfunktionen. Dabei sendet der Client eine SQL-Abfrage an den Presto-Koordinator, der die Anfrage parst und analysiert und die Ausführung plant. Anschließend stellt ein Scheduler eine Ausführungspipeline zusammen, verteilt Aufgaben an die Nodes, die möglichst nah an den Daten liegen, und überwacht den Fortschritt. Der Client erhält dann Daten aus der Output-Stage, die wiederum von darunterliegenden Stages gefüllt wird.

Das Ausführungsmodell von Presto unterscheidet sich fundamental von Hive und Mapreduce: Hive übersetzt Abfragen in mehrere Stufen von Mapreduce-Tasks, die dann nacheinander ausgeführt werden. Dabei liest jede Task Daten von den Platten und schreibt Zwischenergebnisse zurück. Presto hingehen nutzt kein Mapreduce, sondern eine eigene Abfrage- und Ausführungsengine, die der SQL-Semantik folgt.

Stellenmarkt
  1. Robert Bosch GmbH, Stuttgart
  2. Haufe Group, Stuttgart

Um das Scheduling zu verbessern, werden alle Berechnungen im Speicher abgewickelt und zwischen verschiedenen Stages durchgereicht, um unnötiges I/O und die damit verbundenen Latenzen zu vermeiden. Dabei werden mehrere Stages parallel ausgeführt und Daten von einer Stage in die andere gestreamt, sobald sie zur Verfügung stehen. Das vermeidet Verzögerungen und sorgt für schnellere Antwortzeiten.

Umgesetzt wurde Presto in Java. Die Software kompiliert Teile des Query-Plans dynamisch in Byte-Code, aus dem die JavaVM optimierten nativen Maschinencode erzeugt.

Nicht nur für Hadoop 
  1. 1
  2. 2
  3.  


Anzeige
Blu-ray-Angebote
  1. (u. a. John Wick, Sicario, Deepwater Horizon, Die große Asterix Edition, Die Tribute von Panem)

draftbreaker 12. Nov 2013

Übrigens http://en.wikipedia.org/wiki/Profile-guided_optimization Java ist schnell...

unveu 08. Nov 2013

Man muss ja die ganzen Researcher und Admins langsam umstellen, die kriegen ja nen Schock...


Folgen Sie uns
       


Amazons Echo Plus (2018) - Test

Der neue Echo Plus von Amazon liefert einen deutlich besseren Klang als alle bisherigen Echo-Lautsprecher. Praktisch ist außerdem der eingebaute Smart-Home-Hub. Der integrierte Temperatursensor muss aber noch bessser in Alexa integriert werden. Der neue Echo Plus ist zusammen mit einer Hue-Lampe von Philips für 150 Euro zu haben.

Amazons Echo Plus (2018) - Test Video aufrufen
Gigabit: 5G-Planungen gehen völlig an den Nutzern vorbei
Gigabit
5G-Planungen gehen völlig an den Nutzern vorbei

Fast täglich hören wir Erklärungen aus der Telekommunikationsbranche, was 5G erfüllen müsse und warum sonst das Ende der Welt drohe. Wir haben die Konzerngruppen nach Interessenlage kartografiert.
Ein IMHO von Achim Sawall

  1. Fixed Wireless Access Nokia bringt mehrere 100 MBit/s mit LTE ins Festnetz
  2. Funklöcher Telekom bietet freiwillig hohe 5G-Netzabdeckung an
  3. 5G Telekom hat ihr Mobilfunknetz mit Glasfaser versorgt

Mate 20 Pro im Hands on: Huawei bringt drei Brennweiten und mehr für 1.000 Euro
Mate 20 Pro im Hands on
Huawei bringt drei Brennweiten und mehr für 1.000 Euro

Huawei hat mit dem Mate 20 Pro seine Dreifachkamera überarbeitet: Der monochrome Sensor ist einer Ultraweitwinkelkamera gewichen. Gleichzeitig bietet das Smartphone zahlreiche technische Extras wie einen Fingerabdrucksensor unter dem Display und einen sehr leistungsfähigen Schnelllader.
Ein Hands on von Tobias Költzsch

  1. Keine Spionagepanik Regierung wird chinesische 5G-Ausrüster nicht ausschließen
  2. Watch GT Huawei bringt Smartwatch ohne Wear OS auf den Markt
  3. Ascend 910/310 Huaweis AI-Chips sollen Google und Nvidia schlagen

Campusnetze: Das teure Versäumnis der Telekom
Campusnetze
Das teure Versäumnis der Telekom

Die Deutsche Telekom muss anderen Konzernen bei 5G-Campusnetzen entgegenkommen. Jahrzehntelang von Funklöchern auf dem Lande geplagt, wollen Siemens und die Automobilindustrie nun selbst Mobilfunknetze aufspannen. Auch der öffentliche Rundfunk will selbst 5G machen.
Eine Analyse von Achim Sawall

  1. Stadtnetzbetreiber 5G-Netz kann auch aus der Box kommen
  2. Achim Berg "In Sachen Gigabit ist Deutschland ein großer weißer Fleck"
  3. Telefónica Bündelung von Bandbreiten aus 4G und 5G ist doch möglich

    •  /