Original-URL des Artikels: https://www.golem.de/news/picsbuffet-forscher-erschaffen-ein-neues-verfahren-zur-bildersuche-1512-117734.html    Veröffentlicht: 02.12.2015 10:54    Kurz-URL: https://glm.io/117734

Picsbuffet

Forscher erschaffen ein neues Verfahren zur Bildersuche

Bildersuchen suchen bisher gar nicht nach Bildern, sondern nach Text. Entsprechend ungenau sind sie. Berliner Wissenschaftler wollen das ändern - mit Hilfe von Deep Learning.

Ein Bild sagt mehr als tausend Worte, heißt es, doch ohne Worte würde vielleicht nie jemand das Bild zu Gesicht bekommen - die Bildersuche in Datenbanken und Internet stützt sich überwiegend auf Text. Suchbegriffe werden mit Dateinamen, Schlüsselwörtern oder auch mit Texten im Umfeld von Bildern abgeglichen, nicht mit den Bildern selbst. Entsprechend ungenau sind die Ergebnisse: Bei Eingabe eines Personennamens werden Bilder aufgelistet, die diese Person zeigen, Bilder, die von ihr aufgenommen wurden, oder auch Bilder, die einen Text illustrieren, in dem an irgendeiner Stelle der gesuchte Name auftaucht - die aber ansonsten keinerlei Bezug zu der Person haben.

Solche textbasierten Suchverfahren stoßen bei großen Bildersammlungen an ihre Grenzen, selbst wenn die Bilder sorgfältig annotiert und verschlagwortet sind. Bei einer Suche über mehrere Datenbanken kann zudem nicht von einer einheitlichen Verschlagwortung ausgegangen werden. Und bei automatisch erzeugten Bildern, etwa von Überwachungskameras, ist die textbasierte Suche völlig unbrauchbar.

"Content-based Image Retrieval" heißt die Bildersuche

Forscher arbeiten daher an Konzepten, die sich unmittelbar auf die Bildinhalte beziehen. Diese inhaltsbasierte Bildersuche, auch bekannt unter dem Kürzel CBIR (Content-based Image Retrieval), muss zunächst zwei Probleme lösen. Zum einen muss ein Bild mathematisch beschrieben werden. Zum anderen braucht es ein Verfahren, um auf der Grundlage der abstrakten Beschreibung die Ähnlichkeit zweier Bilder bestimmen zu können.

Der erste Ansatzpunkt dafür seien "elementare statistische Eigenschaften der Bilder", sagt Kai Uwe Barthel, "wie beispielsweise die Farben, deren örtliche Verteilung, Texturen oder Kantenrichtungen". Der Professor für Visual Computing an der Hochschule für Technik und Wirtschaft (HTW) in Berlin spricht von "Low-Level-Feature-Vektoren" mit ungefähr 30 bis 300 Dimensionen. Damit ließen sich bereits ähnlich aussehende Bilder finden, die unter Umständen jedoch völlig unterschiedliche Inhalte zeigen: Ein Spiegelei etwa kann mit seinem vom Eiweiß umringten gelben Dotter dem Kopf eines Adlers ähneln, dessen weiße Kopffedern einen gelben Schnabel umrahmen.

Deep Learning bei der Bildersuche

Um den Bildsuchmaschinen auch die inhaltliche Dimension zu erschließen, kommen seit einigen Jahren verstärkt Techniken des maschinellen Lernens und insbesondere Deep-Learning-Netzwerke zum Einsatz. Die Herausforderung bestehe darin, so Barthel, diese neuronalen Netzwerke mit vielen Beispielbildern und den dazu gehörigen Schlagwörtern zu trainieren, so dass sie unbekannten Bildern automatisch Schlagwörter zuordnen können.

Grundsätzlich liegt den Analyseverfahren laut Barthel das Vektorraummodell zugrunde, bei dem ein Bild mit mehreren Millionen Werten auf einen Vektor mit deutlich weniger Dimensionen abgebildet wird.

Interessant wird es, wenn diese 64D-Bilddeskriptoren wiederum auf nur zwei Dimensionen abgebildet werden. Die gefundenen Bilder werden dann nach ihrer Ähnlichkeit sortiert und wie auf einer Landkarte angeordnet, durch die der Nutzer wie bei Google Maps navigieren kann: Er sucht sich zunächst einen Bereich, in dem Bilder zusammengefasst sind, die dem gesuchten Bild möglichst nahekommen. Durch das Hineinzoomen in diesen Bereich erschließt sich eine größere Auswahl ähnlicher Bilder.

Für den auf dieser Grundlage entwickelten Bildbrowser Picsbuffet haben Barthel und seine Mitarbeiter an der HTW wie auch in der von ihm mitgegründeten Firma Pixolution bei der Multimedia Modeling Conference 2015 die Best Demonstration Competition gewonnen.

Trotz der Anordnung nach Ähnlichkeit sind gelegentliche harte Brüche auf der Bilderlandkarte unvermeidlich. Die Suche nach dem Begriff Apfel etwa kann auf die Frucht, den Apfelbaum, vielleicht aber auch auf Apfelsaft verweisen. Neben dem Apfelsaft könnte als ähnliches Bild wiederum Orangensaft aufgelistet werden. Die Berliner Forscher arbeiten daher an Verfahren, die anstelle der 2D-Sortierung ein hierarchisches Bildernetzwerk verwenden und in der Lage sein sollen, in Echtzeit dreidimensionale Ansichten zu generieren.

Die Sache mit den Suchkriterien

Mit dem System Akiwi haben Barthel und seine Mitarbeiter zudem das Suchverfahren gewissermaßen in die andere Richtung entwickelt: Hier werden durch den Vergleich eines unbekannten Bildes mit bekannten und verschlagworteten Bildern Schlagworte vorgeschlagen. Durch das Eliminieren einzelner Vorschläge und Hinzufügen neuer Schlagworte kann der Nutzer die Suche gezielt verfeinern und rasch eine Bildauswahl zusammenstellen, die den Suchkriterien entspricht.

Damit zeigt sich: Ein Bild mag zwar mehr mitteilen können als tausend Worte. Aber wenn Bilder und Worte effektiv zusammenwirken, sind sie unschlagbar. Jedenfalls vorerst. Barthel sieht in der "intelligenten bildbasierten Datenexploration" jedenfalls "ein riesiges Potenzial für das zukünftige Gesicht des Internet: bild- und symbolträchtig, textbefreit, dreidimensional und holistisch selbstorganisierend".  (ham)


Verwandte Artikel:
Bildersuche mit dem Google-Strudel   
(19.11.2009, https://glm.io/71310 )
Bildersuche: Google entfernt Direktlink auf Fotos   
(16.02.2018, https://glm.io/132823 )
VectorMagic: Kostenlose Umwandlung von Bitmaps in Vektoren   
(06.12.2007, https://glm.io/56407 )
Vernetztes Fahren: Keine Kommunikationspflicht für Autos in den USA   
(02.11.2017, https://glm.io/130936 )
Urheberrecht: Google und Getty legen Streit bei   
(12.02.2018, https://glm.io/132706 )

© 1997–2020 Golem.de, https://www.golem.de/