RevoscaleR: R bandelt mit Hadoop an
Mit der RevoscaleR genannten Erweiterung für die kommerzielle R-Variante Revolution R Enterprise(öffnet im neuen Fenster) soll es möglich werden, Daten im Terabyte-Bereich in kurzer Zeit mit R(öffnet im neuen Fenster) zu analysieren, auf vergleichsweise moderater Hardware.
Dazu führt Revolution Analytics mit RevoscaleR ein neues Framework zur Analyse großer Datenmengen ein, das speziell auf die Nutzung von Multi-Core-Prozessoren optimiert ist. Mit XDF gibt es zudem ein neues binäres Dateiformat für große Datenmengen, aus dem mit R gezielt einzelne Datenzeilen, -blöcke oder -spalten angesprochen werden können.
Hinzu kommt eine Reihe weit verbreiteter Statistikalgorithmen, die ebenfalls auf die Verarbeitung hoher Datenmengen ausgelegt sind. Dazu zählen Algorithmen zur einfachen Summenbildung ebenso wie zur linearen und logistischen Regression als auch Kontingenztafeln. Weitere sollen in Zukunft ergänzt werden.
Werkzeuge zum Lesen und Umwandeln der Daten sollen es Nutzern darüber hinaus erlauben, Daten interaktiv zu erkunden und große Datenmengen zur Analyse aufzubereiten. Da die Software auf R basiert, kann sie leicht durch eigene Algorithmen in R erweitert werden.
Die beschriebenen großen Datenmengen kann die Software aus Quellen wie Hadoop und NoSQL-Datenbanken sowie einfache Key-Value-Stores und relationalen Datenbanken holen.
RevoscaleR soll innerhalb von 30 Tagen als Teil von Revolution R Enterprise 4.0 für Windows ausgeliefert werden. Eine Version für Red Hat Enterprise Linux (RHEL 5) soll im Laufe des Jahres folgen. R(öffnet im neuen Fenster) selbst wird im Rahmen des gleichnamigen GNU-Projekts entwickelt.