Abo
  • Services:
Anzeige
IMHO: Warum Googles Datensammeln gar nicht so böse ist
(Bild: Lucy Nicholson/Reuters)

Daten besiegen die Logik

Die Technik, mit der Maschinen lernen, ist für Google ein zentrales und dienstübergreifendes Paradigma (freies PDF). Im Vorbeigehen bekommen wir damit eine Erklärung, warum die Metapher von Google+ als Facebook-Konkurrenz nicht funktioniert. Facebook (der Dienst) ist für Facebook (die Firma) der Kern des Geschäftsmodells. Für Google dagegen ist maschinelles Lernen aus allen Daten dieser Welt der Kern des Geschäftsmodells - und Google+ vor allem eine weitere Quelle interessanter Daten. Wer interagiert wie mit wem? Welche Inhalte verbreiten sich in welchen Kreisen? Wie reagieren Nutzer auf personalisierte Suchergebnisse? Welche Transformationen durchläuft ein Gerücht? Welche Merkmale unterscheiden ein Mem von einem Shitstorm? Alleine die Liste der Fragen, zu denen man mit Googles Philosophie der Datenverarbeitung in Google+ nach Antworten suchen könnte, scheint endlos. Mit Facebook hat Google+ deshalb nur einige oberflächliche Funktionen gemeinsam, es dient aber - mutmaßlich - einem ganz anderen Zweck.

Künstliche Intelligenz, diesmal richtig

Doch funktioniert das überhaupt? Ist die künstliche Intelligenz (KI) nicht tot? Das ist sie, aber Google macht gerade keine klassische KI. Anfangs versuchte man in der KI, alle wesentlichen Aspekte eines Problems in nachvollziehbare Regeln zu fassen. Man versuchte also, Gehirne sich selbst beschreiben zu lassen. Das war ungefähr so schlau wie der Versuch, eine Turing-Maschine Aussagen über Turing-Maschinen machen zu lassen, aber irgendwo musste man ja anfangen, und das Internet als reichhaltige Datenquelle gab es auch noch nicht.

Anzeige

Letztlich geht es auch im Google-Ansatz um Regeln, aber formuliert werden sie nun unter Verwendung aller verfügbaren Daten und ohne die Notwendigkeit, dass ein Mensch diese Regeln nachvollziehen kann. Dass dabei bessere Regeln herauskommen können als aus menschlichen Gehirnen, gerade wenn das Problem kompliziert ist, zeigt ein Beispiel aus der IT-Sicherheit.

Bozorgi et al. beschäftigen sich in ihrem Paper Beyond Heuristics: Learning to Classify Vulnerabilities and Predict Exploits (PDF) mit der Vorhersage der Exploit-Wahrscheinlichkeit aus Verwundbarkeitsmeldungen. Gefundene Verwundbarkeiten in Software dokumentiert die Security-Community in Datenbanken, zum Beispiel der CVE oder der OSVDB. Ein Bewertungsschema für Verwundbarkeiten ist der CVSS-Score, ein Wert zwischen 0 und 10, der die Schwere des Problems angibt. 10 ist ganz schlimm, 0 völlig harmlos. Dieser Score wird auf eine nachvollziehbare und sinnvoll erscheinende Weise aus einer Reihe von Parametern gebildet. Für eine gegebene Verwundbarkeit in einer Software oder in einem System kann man sich den Score aus einigen Einschätzungen zusammenklicken und das Ergebnis stimmt meistens mit der Intuition des Fachmanns überein.

Computer schlägt Experten

Man sollte meinen, dass dieser Wert einen Anhaltspunkt liefert, ob ein Security-Bug nach seiner Entdeckung auch für Angriffe ausgenutzt wird - die mit dem Score 10 oft, die mit dem Score 0 nie. Bozorgi et al. zeigen jedoch, dass der CVSS-Score darüber wenig voraussagt, und stellen ihm angelernte Klassifikatoren gegenüber. Diese Klassifikatoren benutzt die gesamte Verwundbarkeitsdokumentation und liefert weit bessere Vorhersagen darüber, ob und wie schnell eine Verwundbarkeit ausgenutzt wird oder nicht.

Der verwendete Merkmalsraum hat 93.578 Dimensionen, die meisten abgeleitet aus Textfeldern wie den Namen der betroffenen Produkte oder den Freitextbeschreibungen des jeweiligen Sicherheitsproblems. Viele Dimensionen sind binär und geben einfach an, ob bestimmte Worte, zum Beispiel Buffer, in bestimmten Teilen eines Berichts vorkommen. Klassifikator lernt Cluster für ausgenutzte sowie für nicht ausgenutzte Verwundbarkeiten. Nebenbei liefert dieser Klassifikator noch einen Score, der sich daraus ergibt, wie weit eine Verwundbarkeitsmeldung nach der Merkmalsextraktion von der Clustergrenze entfernt liegt. Was tief im Cluster liegt, ist den anderen Punkten dort sehr ähnlich; was nahe der Grenze liegt, könnte nach kleinen Änderungen auch auf der anderen Seite, im anderen Cluster landen.

Das wirkt alles ein wenig wie Zauberei. Im Grunde genommen tut Google aber nichts anderes als unser Gehirn, nur ohne den Filter unserer Sinnesorgane, ohne Abgleich mit Lehrbuchwissen und mit viel mehr Daten und Aspekten dieser Daten als uns normalerweise bewusst werden. Google lernt Sprachen - oder Expertenintuition - wie wir, nur schneller und ohne den Umweg über Übungen und explizite Regeln direkt aus Beispielen und Feedback. Und wir sind die Lehrer.

 Lernende MaschinenUnd jetzt Werbung 

eye home zur Startseite
Tamashii 22. Nov 2013

Doch, natürlich kann auch solch eine Gesellschaft manipuliert werden! Stell Dir einfach...

samy 16. Mär 2012

Nun ja Gott missbraucht seien Datensammlung aber nicht. Bei Google bin ich mir da nicht...

BabylonXL 14. Mär 2012

Du willst also eine Suche benutzen, die gerade deshalb so gut funktioniert, weil sie...

samy 10. Mär 2012

Der Mensch wurde vermutlich von google dafür bezahlt...

Der Held vom... 09. Mär 2012

Ein überspitztes Beispiel: Du darfst kein kernwaffentaugliches Material besitzen...


Oliver Gassner: Digitale Tage / 18. Mär 2012

Daily Digest 18.03.2012



Anzeige

Stellenmarkt
  1. Statistisches Bundesamt, Wiesbaden
  2. redcoon Logistics GmbH, Erfurt
  3. über USP SUNDERMANN CONSULTING, Hamburg
  4. symmedia GmbH, Bielefeld


Anzeige
Blu-ray-Angebote
  1. Einzelne Folge für 2,99€ oder ganze Staffel für 19,99€ kaufen (Amazon Video)
  2. für 1€ über Sky Ticket (via App auch auf Smartphone/Tablet, Apple TV, PS3, PS4, Xbox One...
  3. 299,99€ (Vorbesteller-Preisgarantie)

Folgen Sie uns
       


  1. Uncharted The Lost Legacy im Test

    Abenteuer mit voller Frauenpower

  2. Nokia 8

    Top-Smartphone mit Zeiss-Optik und 360-Grad-Audio

  3. Frontrow

    Halskette als Kamera zum Dauerfilmen

  4. Streetscooter Work XL

    Deutsche Post stellt Elektro-Lkw mit 200 km Reichweite vor

  5. Interview auf Youtube

    Merkel verteidigt Ziel von 1 Million Elektroautos bis 2020

  6. Ransomware

    Not-Petya-Angriff kostet Maersk 200 Millionen US-Dollar

  7. Spielebranche

    Mikrotransaktionen boomen zulasten der Kaufspiele

  8. Autonomes Fahren

    Fiat Chrysler kooperiert mit BMW und Intel

  9. Auto

    Toyota will Fahrzeugsäulen unsichtbar machen

  10. Amazon Channels

    Prime-Kunden erhalten Fußball-Bundesliga für 5 Euro im Monat



Haben wir etwas übersehen?

E-Mail an news@golem.de


Anzeige
Google Home auf Deutsch im Test: "Tut mir leid, ich verstehe das nicht"
Google Home auf Deutsch im Test
"Tut mir leid, ich verstehe das nicht"
  1. Kompatibilität mit Sprachassistenten Trådfri-Update kommt erst im Herbst
  2. Smarte Lampen Ikeas Trådfri wird kompatibel mit Echo, Home und Homekit
  3. Lautsprecher-Assistent Google Home ab 8. August 2017 in Deutschland erhältlich

Mercedes S-Klasse im Test: Das selbstfahrende Auto ist schon sehr nahe
Mercedes S-Klasse im Test
Das selbstfahrende Auto ist schon sehr nahe
  1. 3M Verkehrsschilder informieren autonom fahrende Autos
  2. Waymo Autonomes Auto zerstört sich beim Unfall mit Fußgängern
  3. Mobileye Intel will 100 autonom fahrende Autos auf die Straßen lassen

LG 34UC89G im Test: Wenn G-Sync und 166 Hertz nicht genug sind
LG 34UC89G im Test
Wenn G-Sync und 166 Hertz nicht genug sind
  1. LG 43UD79-B LG bringt Monitor mit 42,5-Zoll-Panel für vier Signalquellen
  2. Gaming-Monitor Viewsonic XG 2530 im Test 240 Hertz, an die man sich gewöhnen kann
  3. SW271 Benq bringt HDR-Display mit 10-Bit-Panel

  1. Re: USP: möglichst lange Updates

    M.P. | 09:39

  2. Re: 200 km umgerechnet = maximal 2h fahrt mit 100Kmh

    Kondratieff | 09:38

  3. Re: Na, geht doch

    Berner Rösti | 09:37

  4. Woher weiss ich denn nun wenn der Postbote da ist?

    Flasher | 09:37

  5. Re: 8 Milliarden Diesel-Subventionen pro Jahr

    chewbacca0815 | 09:37


  1. 09:04

  2. 08:49

  3. 07:40

  4. 07:21

  5. 16:57

  6. 16:25

  7. 16:15

  8. 15:32


  1. Themen
  2. A
  3. B
  4. C
  5. D
  6. E
  7. F
  8. G
  9. H
  10. I
  11. J
  12. K
  13. L
  14. M
  15. N
  16. O
  17. P
  18. Q
  19. R
  20. S
  21. T
  22. U
  23. V
  24. W
  25. X
  26. Y
  27. Z
  28. #
 
    •  / 
    Zum Artikel