Abo
  • Services:
Anzeige
Yahoo gibt eigene Daten für die Forschung frei.
Yahoo gibt eigene Daten für die Forschung frei. (Bild: Yahoo)

Machine Learning: Yahoo veröffentlicht 13 TByte Daten an Nutzerverhalten

Yahoo gibt eigene Daten für die Forschung frei.
Yahoo gibt eigene Daten für die Forschung frei. (Bild: Yahoo)

Für Forscher gibt Yahoo einen riesigen Datensatz frei, der den Umgang mit Nachrichten von Nutzern enthält. Gedacht ist dies für maschinelles Lernen und die Erprobung von Vorschlagsystemen.

Der Forschergemeinschaft sei es großes Interesse, neue Algorithmen und Methoden an den Daten von produktiven Anwendungen zu testen, heißt es bei Yahoo. Das Unternehmen stellt deshalb nun mit 13,5 TByte einen vergleichsweise sehr großen Datensatz bereit, mit dem vor allem die Forschung im Bereich des maschinellen Lernens vorangetrieben werden soll.

Anzeige

Die Daten sind zwischen Februar und Mai 2015 gesammelt worden und umfassen Aufzeichnungen des Umgangs von Nutzern mit Nachrichteneinträgen auf verschiedenen Seiten, etwa Yahoo News, Yahoo Sports oder auch Yahoo Finance. Es handele sich dabei um etwa 20 Millionen unterschiedliche Anwender sowie um rund 110 Milliarden selbstständige Ereignisse.

Die Datensätze sind dabei weitgehend anonymisiert, so dass sich keine Rückschlüsse auf konkrete Personen ergeben sollten. Allerdings stehen zu der eigentlichen Aufzeichnung des Verhaltens zu einem Teil der Nutzer auch demografische Informationen zur Verfügung wie etwa das Alter, das Geschlecht oder eine ungefähre geografische Zuordnung.

Der vollständige Datensatz ist von Yahoos Abteilung zur Personalisierung seines Angebots genutzt worden, um Verhalten zu modellieren, ein System für Vorschläge aufzubauen, bestimmte Onlinealgorithmen zu testen sowie für maschinelles Lernen in einem sehr großen verteilten Netzwerk. Yahoo hofft nun auf ähnliche Anwendungsfelder der Daten im akademischen Kontext.

Bereitgestellt wird der Datensatz über das Angebot Webscope, in dem sich weitere anonymisierte Nutzerdaten finden, die für nichtkommerzielle Zwecke genutzt werden können.


eye home zur Startseite
grünebanane 16. Jan 2016

Richtig, poste mal die Ergebnisse. MfG

Cok3.Zer0 16. Jan 2016

Business Intelligence ist ein großes und wichtiges Feld.

elgooG 15. Jan 2016

"""Der Datensatz""" würde sich auch sonst für viele andere Testzwecke eignen. 13 TB sind...

elgooG 15. Jan 2016

Verzei mir die Frage, aber dir ist tatsächlich noch nie BBCode untergekommen, oder...

sol 15. Jan 2016

Ich habe Yahoo immer nur genutzt um Google zu suchen.



Anzeige

Stellenmarkt
  1. T-Systems International GmbH, verschiedene Standorte
  2. Daimler AG, Sindelfingen
  3. T-Systems International GmbH, Leinfelden-Echterdingen, Bonn, Bremen, Hamburg, München
  4. MOBOTIX AG, Langmeil


Anzeige
Spiele-Angebote
  1. 399,00€ (Vorbesteller-Preisgarantie) - Release 02.08.
  2. 59,99€ (Vorbesteller-Preisgarantie) - Release 02.08.
  3. 49,99€ (Vorbesteller-Preisgarantie)

Folgen Sie uns
       

Anzeige
Whitepaper
  1. Mehr dazu im aktuellen Whitepaper von SAS Institute
  2. Mehr dazu im aktuellen Whitepaper von SAS Institute
  3. Mehr dazu im aktuellen Whitepaper von SAS Institute


  1. Künstliche Intelligenz

    Softbank und Honda wollen sprechendes Auto bauen

  2. Alternatives Android

    Cyanogen soll zahlreiche Mitarbeiter entlassen

  3. Update

    Onedrive erstellt automatisierte Alben und erkennt Pokémon

  4. Die Woche im Video

    Ausgesperrt, ausprobiert, ausgetüftelt

  5. 100 MBit/s

    Zusagen der Bundesnetzagentur drücken Preis für Vectoring

  6. Insolvenz

    Unister Holding mit 39 Millionen Euro verschuldet

  7. Radeons RX 480

    Die Designs von AMDs Partnern takten höher - und konstanter

  8. Koelnmesse

    Tagestickets für Gamescom ausverkauft

  9. Kluge Uhren

    Weltweiter Smartwatch-Markt bricht um ein Drittel ein

  10. Linux

    Nvidia ist bereit für einheitliche Wayland-Unterstützung



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Schrott im Netz: Wie Social Bots das Internet gefährden
Schrott im Netz
Wie Social Bots das Internet gefährden
  1. Netzwerk Wie Ausrüster Google Fiber und Facebooks Netzwerk sehen
  2. Secret Communications Facebook-Messenger bald mit Ende-zu-Ende-Verschlüsselung
  3. Social Media Ein Netzwerk wie ein Glücksspielautomat

Masterplan Teil 2: Selbstfahrende Teslas werden zu Leihautos
Masterplan Teil 2
Selbstfahrende Teslas werden zu Leihautos
  1. Projekt Titan Apple Car soll später kommen
  2. Nissan Serena Automatisiert fahrender Minivan soll im August erscheinen
  3. Elon Musk Tesla-Chef arbeitet an neuem Masterplan

Dirror angeschaut: Der digitale Spiegel, der ein Tablet ist
Dirror angeschaut
Der digitale Spiegel, der ein Tablet ist
  1. Bluetooth 5 Funktechnik sendet mehr Daten auch ohne Verbindungsaufbau
  2. Smarter Schalter Wenn Github mit dem Lichtschalter klingelt
  3. Tony Fadell Nest-Gründer macht keine Omeletts mehr

  1. Re: Womit wir wieder bei Dezentralisierung wären.

    Moe479 | 08:22

  2. Re: Gab es dafür jemals einen Markt?

    wire-less | 08:10

  3. Gerade getestet...

    ve2000 | 07:20

  4. Re: Des Menschen Logik

    Analysator | 06:20

  5. Re: Riecht irgendwie faul...

    ve2000 | 03:18


  1. 15:17

  2. 14:19

  3. 13:08

  4. 09:01

  5. 18:26

  6. 18:00

  7. 17:00

  8. 16:29


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel