Smart Semantics - intelligente Suchtechnik

Fraunhofer IAIS setzt auf IBMs UIMA auf

Das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme IAIS stellt mit "Smart Semantics" eine intelligente Suchtechnologie vor. Sie basiert auf UIMA, der von IBM initiierten und entwickelten Architektur zur Analyse unstrukturierter Daten, und soll die maschinelle Klassifizierung von Dokumenten sowie die automatische Schlagwortgenerierung und Namenserkennung ermöglichen.

Anzeige

Smart Semantics ist auf die Verarbeitung unstrukturierter Daten wie beispielsweise Webseiten oder Dokumenten ausgelegt. Im Gegensatz zu stichwort- oder regelbasierten Verfahren, wie sie die bekannten Suchmaschinen im Internet nutzen, verwenden Smart Semantics lernende und mustererkennende Verfahren. Sie sollen Nutzern aufwendiges Filtern der eigenen Suchergebnisse ersparen.

Die Smart-Semantic-Komponenten können als Plug-ins auf UIMA-basierenden Technologien wie der IBM-Suchlösung IBM Omnifind eingebunden werden, denn das Fraunhofer IAIS will die große Verbreitung von UIMA im Unternehmensumfeld nutzen, um seine Bausteine zur intelligenten Informationserschließung auch kleinen und mittelständischen Unternehmen verfügbar zu machen, die bisher die hohen Investitionskosten für semantische Technologien scheuten.

UIMA steht für "Unstructured Information Management Architecture" und bezeichnet ein maßgeblich im deutschen IBM Forschungs- und Entwicklungszentrum Böblingen entwickeltes Framework. UIMA ist ein offener OASIS-Standard und zudem als Open-Source-Implementierung von Apache verfügbar. Damit können beispielsweise Anwendungen zur Verarbeitung unstrukturierter Informationen erstellt werden, insbesondere natürlicher Sprache (Natural Language Processing, NLP).

Derzeit sind drei Smart-Semantic-Komponenten verfügbar: Site-Classifier, Named-Entity-Recognizer sowie der Keyword-Extractor. Der Site-Classifier erlaubt die maschinelle Klassifikation ganzer Dokumente wie Webseiten. Nach einer Trainingsphase sind auf diese Weise Projekt-, Mitarbeiter- oder Produktseiten automatisch als solche erkennbar und für die effizientere Suche nutzbar ("Zeige alle Seiten, die den Begriff X enthalten und als Produktseite klassifiziert wurden"). Gegenüber konventionellen Verfahren sollen die lernenden Verfahren den Vorteil haben, dass auch unbekannte Dokumente mit alternativen Begrifflichkeiten aufgrund ihrer Ähnlichkeit zu einem gelernten Modell klassifizierbar sind. Da auf diese Weise die Pflege von Stichwortlisten oder Heuristiken zur statischen Klassifikation entfällt, sollen Unternehmen umfangreichen Wartungsaufwand sparen.

Der Named-Entity-Recognizer identifiziert benannte Entitäten wie Personen, Organisationen, Orte und ermöglicht dadurch die Filterung von Dokumenten nach bestimmten Entitäten (zum Beispiel "Zeige alle Seiten, die X und zusätzlich Personennamen enthalten"). Im Gegensatz zu herkömmlichen Verfahren erkennt die Smart-Semantic-Komponente Bedeutungsunterschiede gleichlautender Begriffe, wie etwa den Unterschied zwischen "Vogel" als Tier und "Vogel" als Personenname, indem der inhaltliche Kontext des Begriffs berücksichtigt wird.

Der Keyword-Extractor ist eine Komponente, die statistisch signifikante Wörter aus Dokumenten extrahiert und diese beispielsweise für Tagclouds, Wortvorschläge bei Suchanfragen oder als Zusatzinformationen in der Suchergebnisdarstellung bereitstellt.

Unternehmen können die Smart Semantics ab Herbst 2009 über IBM erwerben, weitere Komponenten sind bereits in Planung.


Kommentieren




Anzeige
  1. Projektingenieur / Technischer Berater, Automatisierungstechnik (m/w)
    über Personalstrategie GmbH, Südbayern
  2. Abteilungsleiter (m/w) IT-Infrastruktur und IT-Services
    Landwirtschaftliche Rentenbank, Frankfurt am Main
  3. Technical Consultant Mobile Anwendungen (m/w)
    BayWa AG, München
  4. Produktsoftwareentwickler (m/w)
    E.G.O. Elektro-Gerätebau-GmbH, Oberderdingen

 

Detailsuche


Folgen Sie uns
       


Meistgelesen
  1. Gema-Vermerk

    Youtube sperrt irrtümlich Acta-Video von Bruno Kramm

  2. IBM-Mainframe

    Nasa schaltet letzten Großrechner ab

  3. Desktop-Roadmap

    Mozilla hat mit Firefox 2012 viel vor

  4. Spielebranche

    Diskussion über "stinkende Gamer"

  5. Samsung Galaxy Tab 2

    7-Zoll-Tablet mit Android 4.0 und Glonass-Unterstützung


Meistkommentiert
  1. Kommentare: 270 | letzter Beitrag 13.02. 23:28

  2. Kommentare: 187 | letzter Beitrag 01:43 Uhr

  3. Kommentare: 178 | letzter Beitrag 13.02. 22:01

  4. Kommentare: 116 | letzter Beitrag 13.02. 18:47

  5. Kommentare: 96 | letzter Beitrag 13.02. 16:40

Mehr


  1. Jugendschutz

    Filtersoftware von Jusprog und Telekom staatlich anerkannt

  2. Gema-Vermerk

    Youtube sperrt irrtümlich Acta-Video von Bruno Kramm

  3. Deutsche Post

    Zusatzfunktionen beim E-Postbrief dauern länger

  4. Gnome

    Neue Spezifikation für Fensterlayout

  5. Samsung Galaxy Tab 2

    7-Zoll-Tablet mit Android 4.0 und Glonass-Unterstützung

  6. IBM-Mainframe

    Nasa schaltet letzten Großrechner ab

  7. Appmenu Runner

    Head-Up Display auch in KDE

  8. Galaxy S2 mit Android 2.3.6

    Update wegen Abstürzen zurückgezogen?

  9. Fair Labor Association

    Apple lässt Foxconn überprüfen

  10. 802.11ac

    Broadcom will Chips für Gigabit-WLAN noch 2012 liefern



Haben wir etwas übersehen?

E-Mail an news@golem.de


WOA: Windows 8 für ARM im Detail
WOA
Windows 8 für ARM im Detail

Mit Windows on ARM (WOA) will Microsoft ein neues System mit einer ganz neuen Art von PCs etablieren. Damit Windows 8 auf ARM performant läuft und lange Akkulaufzeiten ermöglicht, musste Microsoft einige Kompromisse machen.

  1. Windows 8 auf ARM Microsoft zeigt Office 15

Test X-Plane 10: Flugsimulator mit Openstreetmap und vielen Rechnern
Test X-Plane 10
Flugsimulator mit Openstreetmap und vielen Rechnern

Ernsthafte Flugsimulationen gibt es kaum noch. Eine der letzten verbliebenen ist X-Plane 10 für Windows, Mac OS X und Linux. Golem.de hat sich ins virtuelle Cockpit gesetzt und den Flugsimulator mit mehreren Rechnern und iPads als Instrumente gespielt.


Bing, Blekko, Duck Duck Go: Googeln ohne Google?
Bing, Blekko, Duck Duck Go
Googeln ohne Google?

Die überarbeitete Version der Google-Suche "Search, plus Your World" hat heftige Debatten ausgelöst. Vor allem der Datenschutz steht mal wieder im Vordergrund der Kritik. "Geht es eigentlich auch ohne Google?", fragen sich daher viele Nutzer. Der Blogger Marcel Weiß hat es 18 Monate lang getestet.

  1. "Focus on the User" Facebook und Twitter zeigen Google, wie soziale Suche geht
  2. Neuer Algorithmus Google straft Seiten mit zu viel Werbung ab
  3. Theseus-Projekt Quote soll die erste Zitate-Suchmaschine Deutschlands werden

Zum Artikel