Machine Learning: Yahoo veröffentlicht 13 TByte Daten an Nutzerverhalten

Für Forscher gibt Yahoo einen riesigen Datensatz frei, der den Umgang mit Nachrichten von Nutzern enthält. Gedacht ist dies für maschinelles Lernen und die Erprobung von Vorschlagsystemen.

Artikel veröffentlicht am ,
Yahoo gibt eigene Daten für die Forschung frei.
Yahoo gibt eigene Daten für die Forschung frei. (Bild: Yahoo)

Der Forschergemeinschaft sei es großes Interesse, neue Algorithmen und Methoden an den Daten von produktiven Anwendungen zu testen, heißt es bei Yahoo. Das Unternehmen stellt deshalb nun mit 13,5 TByte einen vergleichsweise sehr großen Datensatz bereit, mit dem vor allem die Forschung im Bereich des maschinellen Lernens vorangetrieben werden soll.

Stellenmarkt
  1. (Junior) .NET Entwickler (m/w/d)
    dmTECH GmbH, Karlsruhe
  2. IT-Projektmanager Personaleinsatzplanung inhouse (m/w/d)
    Helios IT Service GmbH, Berlin, deutschlandweit
Detailsuche

Die Daten sind zwischen Februar und Mai 2015 gesammelt worden und umfassen Aufzeichnungen des Umgangs von Nutzern mit Nachrichteneinträgen auf verschiedenen Seiten, etwa Yahoo News, Yahoo Sports oder auch Yahoo Finance. Es handele sich dabei um etwa 20 Millionen unterschiedliche Anwender sowie um rund 110 Milliarden selbstständige Ereignisse.

Die Datensätze sind dabei weitgehend anonymisiert, so dass sich keine Rückschlüsse auf konkrete Personen ergeben sollten. Allerdings stehen zu der eigentlichen Aufzeichnung des Verhaltens zu einem Teil der Nutzer auch demografische Informationen zur Verfügung wie etwa das Alter, das Geschlecht oder eine ungefähre geografische Zuordnung.

Der vollständige Datensatz ist von Yahoos Abteilung zur Personalisierung seines Angebots genutzt worden, um Verhalten zu modellieren, ein System für Vorschläge aufzubauen, bestimmte Onlinealgorithmen zu testen sowie für maschinelles Lernen in einem sehr großen verteilten Netzwerk. Yahoo hofft nun auf ähnliche Anwendungsfelder der Daten im akademischen Kontext.

Golem Akademie
  1. Cloud Computing mit Amazon Web Services (AWS): virtueller Drei-Tage-Workshop
    14.–16. Februar 2022, virtuell
  2. Netzwerktechnik Kompaktkurs: virtueller Fünf-Tage-Workshop
    6.–10. Dezember 2021, virtuell
Weitere IT-Trainings

Bereitgestellt wird der Datensatz über das Angebot Webscope, in dem sich weitere anonymisierte Nutzerdaten finden, die für nichtkommerzielle Zwecke genutzt werden können.

Bitte aktivieren Sie Javascript.
Oder nutzen Sie das Golem-pur-Angebot
und lesen Golem.de
  • ohne Werbung
  • mit ausgeschaltetem Javascript
  • mit RSS-Volltext-Feed


grünebanane 16. Jan 2016

Richtig, poste mal die Ergebnisse. MfG

Cok3.Zer0 16. Jan 2016

Business Intelligence ist ein großes und wichtiges Feld.

elgooG 15. Jan 2016

"""Der Datensatz""" würde sich auch sonst für viele andere Testzwecke eignen. 13 TB sind...

elgooG 15. Jan 2016

Verzei mir die Frage, aber dir ist tatsächlich noch nie BBCode untergekommen, oder...

sol 15. Jan 2016

Ich habe Yahoo immer nur genutzt um Google zu suchen.



Aktuell auf der Startseite von Golem.de
MS Satoshi
Die abstruse Geschichte des Bitcoin-Kreuzfahrtschiffs

Kryptogeld-Enthusiasten kauften ein Kreuzfahrtschiff und wollten es zum schwimmenden Freiheitsparadies machen. Allerdings scheiterten sie an jeder einzelnen Stelle.
Von Elke Wittich

MS Satoshi: Die abstruse Geschichte des Bitcoin-Kreuzfahrtschiffs
Artikel
  1. Solar Orbiter: Letzter Gruß an die Erde vor der wissenschaftlichen Mission
    Solar Orbiter
    Letzter Gruß an die Erde vor der wissenschaftlichen Mission

    Die Esa-Raumsonde Solar Orbiter soll zur Sonne fliegen. Mit ihrem Vorbeiflug an der Erde beginnt die wissenschaftliche Missionsphase.
    Von Patrick Klapetz

  2. Gigafactory Berlin: Tesla verzichtet für Akkufertigung auf staatliche Förderung
    Gigafactory Berlin
    Tesla verzichtet für Akkufertigung auf staatliche Förderung

    Tesla verzichtet für die geplante Akkufertigung in Grünheide bei Berlin auf eine mögliche staatliche Förderung in Milliardenhöhe.

  3. 50 Prozent bei IT-Weiterbildung sparen
     
    50 Prozent bei IT-Weiterbildung sparen

    Die Black Week 2021 in der Golem Karrierewelt läuft weiter: 50 Prozent bei zahlreichen Live-Workshops, Coachings und E-Learnings sparen - noch bis Montag!
    Sponsored Post von Golem Akademie

Du willst dich mit Golem.de beruflich verändern oder weiterbilden?
Zum Stellenmarkt
Zur Akademie
Zum Coaching
  • Schnäppchen, Rabatte und Top-Angebote
    Die besten Deals des Tages
    Daily Deals • Black Friday Wochenende • Corsair MP600 Pro XT 1TB 167,96€ • Apple Watch Series 6 ab 379€ • Boxsets (u. a. Game of Thrones Blu-ray 79,97€) • Samsung Galaxy S21 128GB 777€ • Premium-Laptops (u. a. Lenovo Ideapad 5 Pro 16" 829€) • MS Surface Pro7+ 888€ • Astro Gaming Headsets [Werbung]
    •  /