Graph500 statt Linpack: Supercomputer sollen Probleme von Facebook und Co. lösen

Die halbjährlich erstellte Liste der schnellsten Supercomputer heißt Top500, und in Anlehnung daran haben 30 HPC-Experten ihr Projekt auch Graph500 getauft. Die Idee dazu kam einer kleinen Gruppe am Rande der Konferenz Supercomputing 2009, und inzwischen ist unter Federführung der Sandia National Labs(öffnet im neuen Fenster) ein kleines Konsortium entstanden.
Nach Meinung der Wissenschaftler spiegelt der seit den 1970er Jahren eingesetzte Benchmark Linpack nicht mehr alle heutigen Anwendungsbereiche von Supercomputern wider. Linpack arbeitet zwar mit vielen Standardalgorithmen der linearen Algebra, die auch in vielen echten Anwendungen verwendet werden. Diese lassen sich aber meist in Form von kleinen Schleifen auflösen, was moderne Rechnerarchitekturen gut beherrschen.

Die Suche nach den Beziehungen von Daten untereinander wird aber für große Computer eine immer alltäglichere Aufgabe, zum Beispiel in sozialen Netzwerken wie Facebook. Eine typische Abfrage könnte lauten: Wie viele Benutzer in Deutschland haben heute Pizza zu Mittag gegessen, und mit welchen Kollegen haben sie ihre Mittagspause verbracht? Kombiniert mit einer neuen Werbekampagne einer Restaurantkette könnten sich daraus interessante Daten für die Marktforschung ergeben. Die Komplexität einer solchen Abfrage nimmt aber schnell zu, wenn weitere Bedingungen hinzukommen: War heute schönes Wetter? Wirkt sich das auf die Beliebtheit von Pizza aus?
Wie durchsucht man 15 Milliarden Log-Einträge?
In einer Beschreibung von Graph500(öffnet im neuen Fenster) geben die Sandia Labs auch ein anderes Beispiel aus der Medizin. Rund 50 Millionen US-Bürger verfügen über digitale Krankenakten, mit 20 bis 200 Einträgen pro Patient. Dort die richtigen Verknüpfungen zu finden, kann schnell zu Milliarden von Querverbindungen führen. Bei der Sicherheit von Rechenzentren ist die Komplexität ähnlich. Laut den Sandia Labs können die Logdateien von großen Unternehmen bis zu 15 Milliarden Einträge enthalten - pro Tag.
Um solche Datenmengen noch für den Menschen verständlich und für die Maschine schneller durchsuchbar zu machen, gibt es die Graphentheorie(öffnet im neuen Fenster) . Ein solcher Graph(öffnet im neuen Fenster) ist der Stammbaum einer Familie. Um herauszufinden, wer mit wem verwandt ist, reicht es, einzelnen Ästen des Stammbaums zu folgen. Für soziale Netze hatte Mark Zuckerberg auch den Begriff des " social graph(öffnet im neuen Fenster) " geprägt, der ähnlich arbeitet.
Solche Graphen sollen die Tests des Graph500 durchsuchen und erstellen. Dazu sehen die Spezifikationen Datensätze(öffnet im neuen Fenster) bis über 1 Petabyte vor. Das wird dem Trend bei Supercomputern gerecht, die nicht nur immer mehr Prozessoren, sondern auch immer mehr Speicher besitzen. Die erste Liste nach Graph500 will das Konsortium auf der SC10 vorstellen. Langfristig soll der neue Benchmark Linpack aber nicht ersetzen, sondern nur ergänzen.



