Maschinelles Lernen: Apache Mahout erhält neue Algorithmen

Das Apache-Projekt Mahout erhält zahlreiche neue Algorithmen. Über den Fortschritt der skalierbaren Implementierung von maschinenlernenden Algorithmen hat Entwickler Grant Ingersoll berichtet.

Artikel veröffentlicht am ,
Mahout erhielt zahlreiche neue Algorithmen.
Mahout erhielt zahlreiche neue Algorithmen. (Bild: Apache Software Foundation)

Seit Mahout im Mai 2010 ein Top-Level-Projekt bei Apache wurde, hat sich viel getan, wie Grant Ingersoll in einem Blog-Eintrag schreibt. Ingersoll ist Mitbegründer der Firma Lucid Imagination und beteiligt sich an der Entwicklung von Mahout. Der Fokus der Machine Learning Library sind die Themen Collaborative Filtering, Clustering und Classification. Mahout ist unter anderem für den Einsatz bei sozialen Netzwerken gedacht und benötigt auch die Apache Hadoop und Mapreduce.

Zu den neu hinzugekommenen Algorithmen gehören die Hidden Markov Models (HMM), ein stochastisches Modell, dessen Algorithmus in Mahout für die Spracherkennung eingesetzt wird. Für die Klassifizierung von Texten, wie sie etwa bei der gezielten Empfehlungen von Werbung für einzelne Nutzer genutzt wird, kann auf das Stochastic Gradient Descent (SGD) zugegriffen werden.

Der Einsatz von Singulärwertzerlegung soll als Vorstufe zur Klassifizierung beispielsweise eine automatische Funktionsauswahl ermöglichen. Weitere Algorithmen sollen ebenfalls das Dataminig in großen Datenbanken erleichtern und beschleunigen, etwa Dirichlet Clustering bei sich überlagernden und hierarchischen Daten oder Spectral Clustering bei großen und noch unbekannten Datensätzen.

Grants Blogeintrag bietet auch eine Anleitung zur Installation von Mahout in Amazons EC2. Als Datenbasis des Beispiels können Daten aus den E-Mail-Archiven der Apache Software Foundation verwendet werden.

Die nächste Version 0.6 von Mahout ist für Ende 2011 geplant. Bis zur Veröffentlichung der stabilen Version 1.0 soll die Software noch weiter getestet und ihre Leistung optimiert werden. Insbesondere produziert Hadoop auf verteilten Rechnern beim der Verwendung mit Mahout noch zu viele Festplattenzugriffe. Deshalb werden die Entwickler Mahout für den Einsatz im flüchtigen Speicher weiter optimieren. Ferner soll die API noch verbessert und weitere Algorithmen eingesetzt werden. Ein Erscheinungstermin für Mahout 1.0 ist noch nicht festgelegt.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


Aktuell auf der Startseite von Golem.de
Ticwatch Pro 5 im Test
Smartwatch mit zwei Displays hält lange durch

Mobvois neue Smartwatch überzeugt mit einer guten Akkulaufzeit und einem cleveren Always-On-Display, das wie eine Digitaluhr Flüssigkristalle verwendet.
Ein Test von Tobias Költzsch

Ticwatch Pro 5 im Test: Smartwatch mit zwei Displays hält lange durch
Artikel
  1. Blizzard: Preise im Itemshop von Diablo 4 entfachen Empörung
    Blizzard
    Preise im Itemshop von Diablo 4 entfachen Empörung

    Die Community reagiert sauer auf Leaks über die Preise im Itemshop von Diablo 4. Ein Rüstungsset kostet fast so viel wie früher ein Add-on.

  2. Medizin: Miniroboter, die durch den Körper wandern
    Medizin
    Miniroboter, die durch den Körper wandern

    Ein Forschungsteam hat sich von dem Film Die phantastische Reise von 1966 inspirieren lassen. Sie arbeiten an Minirobotern, die durch den menschlichen Körper wandern.

  3. Forschung oder Ölbohrung?: China gräbt ein zehn Kilometer tiefes Loch
    Forschung oder Ölbohrung?
    China gräbt ein zehn Kilometer tiefes Loch

    Die Bohrung im Westen Chinas soll dazu dienen, mehr über das Innere des Planeten herauszufinden - oder doch dazu, um nach Öl zu suchen?

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    • Daily Deals • Tiefstpreise: AMD Ryzen 9 7900X3D 534€, KFA2 RTX 3060 Ti 329,99€, Kingston Fury SSD 2TB (PS5-komp.) 129,91€ • Sony Days of Play: PS5-Spiele & Zubehör bis -70% • Roccat PC-Zubehör bis -50% • AVM Modems & Repeater bis -36% • Sony Deals Week [Werbung]
    •  /