Yahoo nimmt größten Hadoop-Cluster in Betrieb
Bei Hadoop handelt es sich um eine freie Implementierung von Googles MapReduce, eine Art verteiltes Dateisystem, das es erlaubt, Rechenaufgaben möglichst nah an den jeweiligen Daten abzuwickeln. So lassen sich beispielsweise die bei Internetsuchmaschinen anfallenden Daten auf einem verteilten Cluster auswerten. Das Open-Source-Projekt ist mittlerweile bei Apache beheimatet und wird von Yahoo seit geraumer Zeit unterstützt.
Yahoo nutzt seinen Hadoop-Cluster, um seine so genannte Webmap zu erstellen. Sie beinhaltet alle Informationen, die Yahoo über das Web mit seinen Crawlern einsammelt, also jede einzelne Website, die Beziehungen zwischen Websites und Metadaten jeder einzelnen Seite. Dabei umfasst die Webmap mittlerweile über 11 Billionen Verknüpfungen zwischen einzelnen Webseiten. Die so gewonnenen Daten finden bei jeder Suchanfrage an Yahoo Verwendung, speist sich aus diesen Daten doch der Ranking-Algorithmus.
Der Umstieg auf Hadoop löst vor allem Skalierungsprobleme, die Yahoos alte Technik hatte, ist rund 50 Prozent schneller, verringert Ausfallzeiten und erleichtert die Administration. Dabei zeigt sich Yahoo sehr zufrieden mit Hadoop, obwohl die Software noch in einem sehr frühen Stadium ist.
- Anzeige Hier geht es zu den aktuellen Blitzangeboten bei Amazon Wenn Sie auf diesen Link klicken und darüber einkaufen, erhält Golem eine kleine Provision. Dies ändert nichts am Preis der Artikel.



