• IT-Karriere:
  • Services:

Rekord: Startup sortiert 100 Terabyte in 23 Minuten

Das US-Startup Databricks hat einen neuen Rekord in der Berechnung von Daten aufgestellt. Die Computer der Firma ordneten 100 Terabyte in nur 23 Minuten. Zuvor hatte Yahoo den Rekord gehalten.

Artikel veröffentlicht am , Thorsten Schröder
Große Datenmengen können dank neuer Generationen von Analysetools immer schneller berechnet werden.
Große Datenmengen können dank neuer Generationen von Analysetools immer schneller berechnet werden. (Bild: Indranil Mukherjee/Afp/Getty Images)

Das US-Startup Databricks hat einen neuen Weltrekord aufgestellt und 100 Terabyte in nur 23 Minuten verarbeitet. Das Startup verwendete dafür 206 virtuelle Maschinen mit 6.592 Prozessorkernen. Der Weltrekord wurde beim Benchmarking-Wettbewerb GraySort erreicht.

Stellenmarkt
  1. Media Cologne GmbH, Hürth
  2. Schwarz Dienstleistung KG, Raum Neckarsulm

Databricks stellt damit einen Rekord von Yahoo ein. Der Internetkonzern hatte mit Hilfe eines Hadoop-Clusters mit 2.100 virtuellen Maschinen 70 Minuten für die gleiche Datenmenge gebraucht. Databricks verwendete für die Berechnung das eigene Datentool Spark.

1 Petabyte in 234 Minuten

Nach eigenen Angaben berechnete das Startup zusätzlich außer Konkurrenz 1 Petabyte an Daten mit 190 Rechnern in 234 Minuten. Auch dies sei schneller als bisherige Ergebnisse mit dem Hadoop-Tool Mapreduce. "Databricks und die Open-Source-Community haben viel in die Optimierung von On-disk-Performance, deren Skalierbarkeit und Stabilität investiert", sagte Databricks-Chef Ion Stoica. "Der Rekord zeigt nicht nur, dass sich die Arbeit gelohnt hat, sondern auch, dass Spark seine Versprechen hält." Die Datenmenge in dem Wettbewerb sei größer als das meiste, was Unternehmen im Alltag berechnen müssten. Ein Vorteil von Spark sei es, dass Daten nicht nur auf Festplatten, sondern auch im Arbeitsspeicher verarbeitet werden könnten.

Spark wurde ursprünglich von der University of California Berkeley als Open-Source-Tool entwickelt und wird nun mit Hilfe von Databricks vertrieben. Neben Spark gibt es ähnliche Tools auch von anderen Firmen, darunter Impala von dem kalifornischen Startup Cloudera und Drill von MapR.

Das Analyseprojekt Hadoop wird noch immer von den meisten großen Internetunternehmen für die Datenanalyse verwendet, darunter Facebook, Twitter, Ebay und Intel. Neuere Tools wie Dremel können jedoch anders als Hadoop große Datenmengen auch in Echtzeit berechnen. Laut Databricks verwendete das Team für seinen Weltrekord das Analysetool Apache Spark in Kombination mit Hadoop File System (HDFS). Das Datencluster wurde dabei von Amazons Cloud-Dienst EC2 gehostet.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Anzeige
Spiele-Angebote
  1. 11,49€
  2. (u. a. Far Cry 5 für 14,99€, Far Cry New Dawn für 17,99€, Far Cry für 3,99€)
  3. 3,74€
  4. (-70%) 2,99€

neocron 15. Okt 2014

was war ein Argument? hier war kein Argument benannt vorher, wie kann es da "auch" ein...

Cerdo 15. Okt 2014

Die Fragen sind trotzdem gerechtfertigt. Wenn das nicht jedes Mal der gleiche Datensatz...

johann1979 15. Okt 2014

Ich habe es geschafft, 1 Petabyte Daten in nur 233 Minuten zu sortieren...und zwar...

s1ou 15. Okt 2014

Bei Startup denke ich an ein Unternehmen kleiner Größe, dass keinen Umsatz macht und noch...

DanielSchulz 15. Okt 2014

Ich finde auch, dass es ein Framework und kein Projekt ist. Zudem kann man auf Hadoop...


Folgen Sie uns
       


Looking Glass Holo-Display angesehen (CES 2020)

Der Looking Glass 8K ist ein Monitor, der mittels Lichtfeldtechnologie 3D-Inhalte als Hologramm anzeigen kann. Golem.de hat sich das Display auf der CES 2020 genauer angeschaut.

Looking Glass Holo-Display angesehen (CES 2020) Video aufrufen
Frauen in der Technik: Von wegen keine Vorbilder!
Frauen in der Technik
Von wegen keine Vorbilder!

Technik, also auch Computertechnik, war schon immer ein männlich dominiertes Feld. Das heißt aber nicht, dass es in der Geschichte keine bedeutenden Programmiererinnen gab. Besonders das Militär zeigte reges Interesse an den Fähigkeiten von Frauen.
Von Valerie Lux

  1. Bewerber für IT-Jobs Unzureichend qualifiziert, zu wenig erfahren oder zu teuer
  2. Männer und Frauen in der IT Gibt es wirklich Chancengleichheit in Deutschland?
  3. HR-Analytics Weshalb Mitarbeiter kündigen

Alphakanal: Gimp verrät Geheimnisse in Bildern
Alphakanal
Gimp verrät Geheimnisse in Bildern

Wer in Gimp in einem Bild mit Transparenz Bildbereiche löscht, der macht sie nur durchsichtig. Dieses wenig intuitive Verhalten kann dazu führen, dass Nutzer ungewollt Geheimnisse preisgeben.


    Videostreaming: Was an Prime Video und Netflix nervt
    Videostreaming
    Was an Prime Video und Netflix nervt

    Eine ständig anders sortierte Watchlist, ein automatisch startender Stream oder fehlende Markierungen für Aboinhalte: Oft sind es nur Kleinigkeiten, die den Spaß am Streaming vermiesen - eine Hassliste.
    Ein IMHO von Ingo Pakalski

    1. WhatsOnFlix Smartphone-App für bessere Verwaltung der Netflix-Inhalte
    2. Netflix Staffel-2-Trailer zeigt Cyberpunk-Welt von Altered Carbon
    3. Videostreaming Netflix musste Night of the Living Dead entfernen

      •  /