Yahoo veröffentlicht eigene Hadoop-Distribution
Ausgiebig getestete und erweiterte Hadoop-Version ausschließlich im Quelltext
Yahoo hat eine eigene Distribution von Apache Hadoop angekündigt. Die bei Yahoo intern eingesetzte Hadoop-Version stellt das Unternehmen Dritten im Quelltext zur Verfügung.
Apache Hadoop ist eine freie Implementierung von Googles MapReduce, eine Art verteiltes Dateisystem, das es erlaubt, Rechenaufgaben möglichst nah an den jeweiligen Daten abzuwickeln. So lassen sich beispielsweise die bei Internetsuchmaschinen anfallenden Daten auf einem verteilten Cluster auswerten.
Yahoo betreibt nach eigenen Angaben die größte Hadoop-Installation weltweit, verteilt auf mehr als 25.000 Server. Der Cluster analysiert die Daten aus mehreren Milliarden Suchanfragen monatlich und kommt auch bei Yahoo-Mail sowie für Yahoos Werbesystem zum Einsatz. Insgesamt werden täglich mehrere Petabyte an Daten verarbeitet.
Zwar setzt Yahoo dabei Apache Hadoop ein, testet die jeweils eingesetzten Versionen aber jeweils zwei Tage auf einem Testcluster mit 500 Servern und erweitert das System den eigenen Bedürfnissen entsprechend. Dabei entsteht eine ausgiebig getestete Version, die bei Yahoo im produktiven Einsatz ist und die nun auch Dritten zur Verfügung gestellt wird.
Die "Yahoo! Distribution of Hadoop" bietet Yahoo ausschließlich im Quelltext an. Die darin enthaltenen Patches werden zudem komplett dem Hadoop-Projekt zur Verfügung gestellt. Support gibt es von Yahoo nicht, das Unternehmen betont aber ausdrücklich, die Distribution könne auch als Basis für Unternehmen dienen, die kommerzielle Dienste anbieten wollen.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
- ohne Werbung
- mit ausgeschaltetem Javascript
- mit RSS-Volltext-Feed
Wir testen gerade unser Suchmaschinen Projekt auf einen Hadoop Cluster http://www.search2.net