Revolutioniert die „Semantische Suche“ das Netz? Trends und Herausforderungen in der Forschung.

Enterprise Search und LinguistikDer Begriff „semantische Suche“ wird sehr unterschiedlich und teilweise inflationär genutzt. Eigentlich fällt schon jedes Verfahren darunter, das die Benutzeranfrage (Query) in irgendeiner Weise interpretiert und versucht, eine optimale Antwort (keine reine Volltextsuche) darauf zu geben. Verfahren wie die „semantisch-assoziative Suche“ der IntraFind Software AG liefern verwandte Begriffe auf Basis der indexierten Dokumente, die zur Verfeinerung oder Erweiterung einer Suche dienen können. Die Suche nach dem Begriff „Clinton“ liefert z.B. die möglichen Spezialisierungen „Hillary Clinton“, „Bill Clinton“ oder „Chelsea Clinton“, ohne dass diese Personen in einer Ontologie hinterlegt wären, rein auf Basis der vorhandenen Textdokumente. Jedoch wird auch der Begriff „Weißes Haus“ als mögliche Erweiterung der Suche geliefert. Das Verfahren ist vergleichbar zu Clustering-Techniken. Eigentlich wird eine Tag Cloud zur aktuellen Suche geliefert. Vorteil: Eine manuelle Pflege ontologischer Ressourcen ist nicht notwendig, da das Verfahren rein auf statistischer Basis, jedoch unter Berücksichtigung linguistischen Wissens (Wortkategorien, Noun Phrase-Erkennung) arbeitet. Einen ähnlichen Effekt kann man durch Einbeziehung eines manuellen Thesaurus erzielen. Auf dieser Basis kann sogar sprachübergreifend (crosslingual) gesucht werden.

In letzter Zeit prägen Google und Siri den Begriff „semantische Suche“. Benutzeranfragen werden interpretiert und anstelle einer Trefferliste werden wirkliche Antworten generiert, zumindest bei Faktenfragen wie der Frage nach einem chinesischen Restaurant in der Nähe oder nach dem Geburtsdatum der Bundeskanzlerin. Bei nicht eindeutig interpretierbaren Faktenfragen wird ein Artikel der Wikipedia zum Hauptsuchbegriff zurückgeliefert. Faktenfragen lassen sich schon mit relativ einfachen Verfahren (Wer, Wo, Wann, Wie groß, Wie viel, …) erkennen und interpretieren. Sie werden in den meisten Fällen durch Einträge aus Datenbanken (oder Triple Stores wie der dbpedia) beantwortet. Ohne diese strukturierte Information aus Datenbanken würde die „semantische Suche“ á la Google und Siri nicht funktionieren. Besonders beeindruckend sind natürlich solche Ergebnisse, wenn gleichzeitig der aktuelle Ort des Fragestellers mit einbezogen wird oder die „semantische Suche“ mit einer Spracherkennung verbunden ist. D.h. die hinter der semantischen Suche von Google und Siri steckende Technologie ist kein Hexenwerk. Echtes Textverständnis auf Basis von intelligenten Verfahren kommt nicht zum Einsatz.

Da jedoch in der Praxis oft die strukturierten Daten fehlen, versuchen wir bei IntraFind bzgl. „semantischer Suche“ etwas weiterzugehen. Wir erkennen Entitäten wir Personen, Organisationen und Orte in Texten. Schon vor 4 Jahren haben wir eine semantische Suchmaschine gebaut, die Faktenfragen rein auf der Basis von Text beantworten kann. Wie oben geschildert, werden Faktenfragen auf Basis einfacher Muster erkannt. So wird die Frage nach den Gründern von Microsoft („Wer hat Microsoft gegründet?“) übersetzt in eine Query nach Personen in der Nähe des Begriffs „Microsoft“ und Synonymen des Wortes „gründen“. Damit lässt sich die Frage auch ohne eine Datenbank mit Faktenwissen und ohne aufwändig manuell gepflegte Ontologien beantworten.

Aus meiner Sicht sind derartige Ansätze notwendig, um beim Thema „semantische Suche“ weiterzukommen, denn für die meisten interessanten Fragen gibt es keine manuell gepflegte Datenbanken, sondern nur textuelle Information. Für einen wirklichen Erfolg der semantischen Suche brauchen wir Verfahren, die Faktenwissen aus Texten extrahieren. Dies ist die Herausforderung für die nächsten Jahre.

Semantische Suche – Vorteile einer Semantischen Suche bei der Enterprise Search

Semantische Suche bei der Enterprise SearchSemantik ist die Wissenschaft von der Bedeutung. Semantische Suche bedeutet deshalb, dass der Suchalgorithmus so intelligent ist, dass er nicht nur auf formale Wortübereinstimmungen die Suche aufbaut, sondern auch die unterschiedliche Bedeutung von Wörtern berücksichtigen kann. Die semantische Suche ist wichtig für eine zukunftsgerecht ausgerichtete Enterprise Search oder Unternehmenssuche, weil Mitarbeiter und Manager mit der semantischen Suche zu besseren Ergebnissen kommen können.

Vom Beispiel zum Prinzip der semantischen Suche

Welche Bedeutung eine semantische Suche für den Sucherfolg hat, kann man an dem einfachen Wort „Golf“ besonders gut verdeutlichen. Golf ist nicht nur eine Sportart, sondern auch eine Meeresausbuchtung und sogar eine Marke bei PKWs. Ist der Suchalgorithmus einer Enterprise Search nicht in der Lage, diese unterschiedlichen Bedeutungen gleichgeschriebener Begriffe zu erfassen, dann führt eine Suche mit Begriffen oder Keywords ohne semantische Suche zu vielen Ergebnissen, die nur wenig Relevanz bzgl. der Benutzerwünsche aufweisen. Gute Suchalgorithmen können die Bedeutung eines Suchbegriffs für den Nutzer aus dem Kontext seiner Anfrage und aus dem sonstigen Benutzerverhalten und aus weiteren Relevanz-Berechnungen erschließen. Auch die Enterprise Search muss sich dieser Herausforderung durch die semantische Suche stellen.

Weiterlesen