Revolutioniert die “Semantische Suche” das Netz? Trends und Herausforderungen in der Forschung.

Enterprise Search und LinguistikDer Begriff „semantische Suche“ wird sehr unterschiedlich und teilweise inflationär genutzt. Eigentlich fällt schon jedes Verfahren darunter, das die Benutzeranfrage (Query) in irgendeiner Weise interpretiert und versucht, eine optimale Antwort (keine reine Volltextsuche) darauf zu geben. Verfahren wie die „semantisch-assoziative Suche“ der IntraFind Software AG liefern verwandte Begriffe auf Basis der indexierten Dokumente, die zur Verfeinerung oder Erweiterung einer Suche dienen können. Die Suche nach dem Begriff „Clinton“ liefert z.B. die möglichen Spezialisierungen „Hillary Clinton“, „Bill Clinton“ oder „Chelsea Clinton“, ohne dass diese Personen in einer Ontologie hinterlegt wären, rein auf Basis der vorhandenen Textdokumente. Jedoch wird auch der Begriff „Weißes Haus“ als mögliche Erweiterung der Suche geliefert. Das Verfahren ist vergleichbar zu Clustering-Techniken. Eigentlich wird eine Tag Cloud zur aktuellen Suche geliefert. Vorteil: Eine manuelle Pflege ontologischer Ressourcen ist nicht notwendig, da das Verfahren rein auf statistischer Basis, jedoch unter Berücksichtigung linguistischen Wissens (Wortkategorien, Noun Phrase-Erkennung) arbeitet. Einen ähnlichen Effekt kann man durch Einbeziehung eines manuellen Thesaurus erzielen. Auf dieser Basis kann sogar sprachübergreifend (crosslingual) gesucht werden.

In letzter Zeit prägen Google und Siri den Begriff “semantische Suche”. Benutzeranfragen werden interpretiert und anstelle einer Trefferliste werden wirkliche Antworten generiert, zumindest bei Faktenfragen wie der Frage nach einem chinesischen Restaurant in der Nähe oder nach dem Geburtsdatum der Bundeskanzlerin. Bei nicht eindeutig interpretierbaren Faktenfragen wird ein Artikel der Wikipedia zum Hauptsuchbegriff zurückgeliefert. Faktenfragen lassen sich schon mit relativ einfachen Verfahren (Wer, Wo, Wann, Wie groß, Wie viel, …) erkennen und interpretieren. Sie werden in den meisten Fällen durch Einträge aus Datenbanken (oder Triple Stores wie der dbpedia) beantwortet. Ohne diese strukturierte Information aus Datenbanken würde die „semantische Suche“ á la Google und Siri nicht funktionieren. Besonders beeindruckend sind natürlich solche Ergebnisse, wenn gleichzeitig der aktuelle Ort des Fragestellers mit einbezogen wird oder die „semantische Suche“ mit einer Spracherkennung verbunden ist. D.h. die hinter der semantischen Suche von Google und Siri steckende Technologie ist kein Hexenwerk. Echtes Textverständnis auf Basis von intelligenten Verfahren kommt nicht zum Einsatz.

Da jedoch in der Praxis oft die strukturierten Daten fehlen, versuchen wir bei IntraFind bzgl. „semantischer Suche“ etwas weiterzugehen. Wir erkennen Entitäten wir Personen, Organisationen und Orte in Texten. Schon vor 4 Jahren haben wir eine semantische Suchmaschine gebaut, die Faktenfragen rein auf der Basis von Text beantworten kann. Wie oben geschildert, werden Faktenfragen auf Basis einfacher Muster erkannt. So wird die Frage nach den Gründern von Microsoft („Wer hat Microsoft gegründet?“) übersetzt in eine Query nach Personen in der Nähe des Begriffs “Microsoft” und Synonymen des Wortes „gründen“. Damit lässt sich die Frage auch ohne eine Datenbank mit Faktenwissen und ohne aufwändig manuell gepflegte Ontologien beantworten.

Aus meiner Sicht sind derartige Ansätze notwendig, um beim Thema „semantische Suche“ weiterzukommen, denn für die meisten interessanten Fragen gibt es keine manuell gepflegte Datenbanken, sondern nur textuelle Information. Für einen wirklichen Erfolg der semantischen Suche brauchen wir Verfahren, die Faktenwissen aus Texten extrahieren. Dies ist die Herausforderung für die nächsten Jahre.

Big Data im Marketing – Chancen und Möglichkeiten

Big Data im MarketingZahlreiche Untersuchungen zeigen auf, dass Unternehmen, die ihre Zielbestimmungen auf Basis von Fakten, Daten und direkt darauf aufbauenden Analyse-Werkzeugen begründen, sich besser im Markt behaupten können, als Unternehmen, die eher situativ arbeiten oder sich auf früher bewährte Grundsätze verlassen. Relevant für diese Trendumkehr ist auch das Buzzword “Big Data”, das gegenwärtig die Diskussion im Medien- und Marketing-Bereich zu bestimmen scheint. Da immer mehr Daten über die Kunden und Ansprechpartner anfallen und somit immer mehr komplexe Auswertungsalgorithmen möglich werden, stellen sich diejenigen Unternehmen zukunftsfähig auf, die hier Big Data nutzen, um zu neuen und besseren Strategien zu kommen.

Notwendigkeit für neue oder verbesserte technischer Hilfsmittel bei Big Data

Wer die Motivation und das Verhalten seiner Kunden und Interessenten quantifiziert und punktgenau bestimmen kann, der kann besser auf deren Bedürfnisse eingehen und sichert sich so mittels Big Data langfristig den Geschäftserfolg. Doch ohne neue technische Hilfsmittel oder verbesserte Auswertungsalgorithmen ist dies nicht leistbar, insbesondere wenn man das unternehmerische Handeln in Echtzeit durch die Ergebnisse von Big Data verbessern möchte. Die umfangreichen Datenbestände, die aus den Online-Kauf- und Bestellvorgängen resultieren, müssen intelligent ausgewertet werden, damit aus den unverbundenen Daten Sichtweisen auf das tatsächliche Verhalten der Kontaktpersonen abgeleitet werden können.

Weiterlesen

Auf welche technologischen Grundlagen baut Google seine “Semantische Suche” auf?

Semantische Suche“Semantische Suche” ist ein schönes Buzzword — es bietet (so wie “Big Data”) die nötige Unschärfe um als Projektionsfläche für Geek-Träume einer fernen SciFi Zukunft zu dienen. Nun, was versteht Google unter semantischer Suche und worauf basieren dessen Lösungen?

Grundbaustein für Googles semantischer Suche ist der sogenannte Knowledge Graph (KG), ein Wissensnetz von öffentlich zugänglichen semantisch annotierten Daten (im Sinne des semantic web). In diesem Graph werden Entitäten (Personen, Orte, Organisationen, etc.) und deren Beziehungen zueinander hinterlegt. Von Google genannte Quellen für Inhalte sind: der “CIA World Factbook”, Freebase und Wikipedia. Die Befüllung des KG erfolgt somit hauptsächlich manuell (2013 hatte der KG eine Mächtigkeit von knapp 600Mio Entitäten und Fakten).

Weiterlesen

Was bringt die Semantische Suche bei Enterprise Search Projekten?

Semantische Suche

Die Semantik handelt von der Bedeutung, die Semantische Suche ist also eine Suchfunktion die auch die Bedeutung in Texten und anderen Dokumenten berücksichtigen kann. Der Anspruch an eine Semantische Suche ist eine zukunftsorientiere Aufgabe der Enterprise Search, insbesondere weil die Anzahl und der Umfang an Dokumenten zunimmt und daher sehr viel genauer als bisher auf die Anpassung der Bedeutung der Suchanfragen zu den gefundenen Dokumenten geachtet werden muss.

Mehrfachbedeutungen werden bei der Semantischen Suche angemessen berücksichtigt

Semantische Suche bedeutet also, dass der Algorithmus der Suche so intelligent gemacht wird, dass er über die Abfrage formaler Wortübereinstimmungen hinauskommen kann. Hierbei ist es wichtig, dass die unterschiedliche Bedeutung von Suchbegriffen angemessen erkannt werden kann. So kann “Bank” als Begriff aus dem Finanzwesen oder als Begriff aus dem Bereich der Architektur eine durchaus unterschiedliche Verwendung haben. Gute Suchalgorithmen der Enterprise Search erkennen im Kontext von Suchanfragen und von Dokumenten, welche Bedeutung jeweils gemeint ist und können dank der Semantischen Suche mit einem besseren Output antworten.

Weiterlesen

Semantische Suche – Vorteile einer Semantischen Suche bei der Enterprise Search

Semantische Suche bei der Enterprise SearchSemantik ist die Wissenschaft von der Bedeutung. Semantische Suche bedeutet deshalb, dass der Suchalgorithmus so intelligent ist, dass er nicht nur auf formale Wortübereinstimmungen die Suche aufbaut, sondern auch die unterschiedliche Bedeutung von Wörtern berücksichtigen kann. Die semantische Suche ist wichtig für eine zukunftsgerecht ausgerichtete Enterprise Search oder Unternehmenssuche, weil Mitarbeiter und Manager mit der semantischen Suche zu besseren Ergebnissen kommen können.

Vom Beispiel zum Prinzip der semantischen Suche

Welche Bedeutung eine semantische Suche für den Sucherfolg hat, kann man an dem einfachen Wort “Golf” besonders gut verdeutlichen. Golf ist nicht nur eine Sportart, sondern auch eine Meeresausbuchtung und sogar eine Marke bei PKWs. Ist der Suchalgorithmus einer Enterprise Search nicht in der Lage, diese unterschiedlichen Bedeutungen gleichgeschriebener Begriffe zu erfassen, dann führt eine Suche mit Begriffen oder Keywords ohne semantische Suche zu vielen Ergebnissen, die nur wenig Relevanz bzgl. der Benutzerwünsche aufweisen. Gute Suchalgorithmen können die Bedeutung eines Suchbegriffs für den Nutzer aus dem Kontext seiner Anfrage und aus dem sonstigen Benutzerverhalten und aus weiteren Relevanz-Berechnungen erschließen. Auch die Enterprise Search muss sich dieser Herausforderung durch die semantische Suche stellen.

Weiterlesen

Nach der CeBIT ist vor der CeBIT. Und eine Nachlese zur Promise von Dr. Christoph Goller.

Nach der CeBIT ist vor der CeBIT. Und wie jedes Jahr werden die Zahlen der Messe veröffentlicht und interessant interpretiert. Spiegel Online befasste sich mit diesem Phänomen und stellte die Frage, ob diese weltweit größte IT-Messe noch zeitgemäß oder bereits von der CES in Las Vegas bzw. von der Mobile World in Barcelona überholt ist.

Am Mittwoch, 2. Messetag und in der Regel der bestbesuchte CeBIT-Tag, machte ich mir mein eigenes Bild. Ein Tag in Hannover, einen Tag Messeluft schnuppern, frühere Kollegen, gute Geschäftspartner, alte Bekannte und Freunde treffen. Natürlich trumpften IBM, Microsoft, T-Systems & Co mit großen auffälligen Messeständen auf. Doch konnte man sich vor 10 Jahren auf dem Microsoft-Messestand nur durchschieben, blieb heute viel Weitblick und Raum für Bewegung. Die Hallen wirkten leer und schienen sich eher durch Ausstellerpersonal als durch Fachbesucher zu füllen. Meine Kollegen berichteten sogar von nie dagewesenen freien Sitzplätzen in der Straßenbahn und leeren Parkhallen, die in der Vergangenheit bereits um 8 Uhr morgens wegen Überfüllung geschlossen waren.

Angekommen an unserem Messestand in Halle 3 war zwar die Besucherdichte auch nicht frappierend höher, aber durch die zahlreichen kleinen und mittelgroßen Anbieter von ECM-, CRM- bis Enterprise Search-Lösungen doch von interessanten und abwechslungsreichen Gesprächen geprägt. Meine Kollegen waren beschäftigt. Unsere Marketing-Aktionen im Vorfeld hatten gegriffen und gezielt nach Search-Applikationen suchende Interessenten fanden uns. Qualität vor Quantität. Feedback meiner Kollegen: die Gespräche, die wir hatten, waren sehr gut. Für uns erfüllte sich somit die Mission der Messe, man würde Erfolg nicht daran messen, von Jahr zu Jahr neue Besucherrekorde zu brechen, sondern stattdessen auf die richtigen Besucher achten.

Ein Highlight für IntraFind war die Einladung von Dr. Christoph Goller, Leiter Forschung, zum PROMISE Network of Excellence, die einen Technology Transfer Day auf der CeBIT veranstalteten. Ziel dieses Netzwerkes ist die Erarbeitung von Standards und Benchmarks für die Evaluierung von komplexen multimedialen und multilingualen Information Retrieval Systemen. Dr. Goller fasst die Veranstaltung wie folgt zusammen:

„Im Rahmen des Technology Transfer Days wurden Softwareherstellern und Anwendern die bisherigen Projektergebnisse aus dem Bereich Information Retrieval vorgestellt.

Auftakt der Veranstaltung war die Panel Diskussion am 5.3., in der Steven Arnold, ein bekannter Analyst aus dem Bereich Information Retrieval, den geringen Fortschritt in der Praxis des Information Retrieval kritisierte. Im ganztägigen Workshop am 6.3. gab es interessante Anwender-Präsentationen, unter anderem von Emma Bayen vom National Archive UK. Wie viele Anwender sind diese gerade dabei, von Autonomy auf Lucene umzusteigen, da die Qualität der Autonomy Produkte die hohen Lizenzkosten in keiner Weise rechtfertigt. Weitere Anwendervorträge stellten Probleme und Lösungen beim Einsatz von Information Retrieval im Gesundheitsbereich dar.

Martin Braschler von der Züricher Hochschule für angewandte Forschung stellte als Projektergebnis einen pragmatischen Ansatz zur Evaluierung von Information Retrieval Systemen vor. Man muss hier anmerken, dass das Projekt PROMISE im akademischen Bereich viel zu Evaluierungskampagnen (CLEF, TREK) beigetragen hat. Hier ist jedoch immer die Existenz eines Testkorpus (Gold Standard) erforderlich. In der Praxis z.B. im Bereich Enterprise Search ist ein solches Vorgehen unmöglich. Deshalb sind der vorgestellte pragmatische Ansatz und der verwendete Kriterienkatalog besonders interessant. Der pragmatische Evaluierungsansatz wurde an einer Vielzahl von öffentlich zugänglichen Search Engines großer Unternehmen und Organisationen getestet. Das ernüchternde Ergebnis: die meisten Implementierungen schnitten nur sehr durchschnittlich ab. Oft waren die Indexe nicht aktuell oder vollständig. Die Tester konnten relativ leicht Dokumente ausmachen, die nicht über die Suche auffindbar waren. Auch die Qualität der Trefferlisten ließ sehr oft zu wünschen übrig. Wichtige IntraFind Alleinstellungsmerkmale wie Lemmatisierung und Decompounding und die Nutzung von Thesauren auch für die Crosslinguale Suche spielen übrigens in diesem Kriterienkatalog eine wichtige Rolle. Interessant ist auch zu bemerken, dass die mangelnde Qualität unabhängig von den Herstellern der Systeme festgestellt wurde. Auch eine auf die jeweilige Domäne eingeschränkte Google Suche schneidet nicht besser ab.

Vonseiten der Hersteller und Analysten möchte ich noch den Vortrag von Tony Russle-Rose erwähnen, der verschiedene Arten von Suchen und Informationsbedürfnissen von Nutzern analysierte. Henrik Strindberg von Findwise berichtete über ihre Service-Orientierte Architektur, die sehr ähnlich zu unseren IntraFind Ansätzen ist. Er schlägt ein offenes Dokumentenmodell vor, auf dem verschiedene NLP-Verfahren mit SOA-Schnittstellen ihre Annotationen schreiben könnten. Im EU Projekt Panacea wurde ein solches Modell bereits entwickelt. Gregory Grefenstette von Exalead stellte verschiedene Arbeiten aus dem Quäro-Projekt vor, hauptsächlich ging es um Multimedia Suche (Bilder und Sprache).

David Hawking präsentierte die Suchmaschine von Funnelback. In diesem System kann man besonders viel Einfluss auf das Scoring der Dokumente nehmen. Die Experten von Funnelback sehen ein Projekt auch nicht nach der Installation des Produktes als beendet an, sondern legen  sehr viel Wert auf eine ständige Pflege und Wartung des Systems. Dadurch erhöhen sie deutlich die Benutzerzufriedenheit. Da steckt aus meiner Sicht für alle Anbieter sehr viel Potential, denn auch ein SAP System kommt nicht ohne ständige Wartung aus.

Ich selbst hatte die Ehre, die IntraFind Enterprise Search Lösung zu präsentieren. Ich referierte über die enormen Verbesserungen in Lucene 4 und zeigte, wie wir durch Nutzung von qualitativ hochwertiger morphologischer Wortnormalisierung & Kompositazerlegung, Informationsextraktion und Textklassifizierung die Qualität der Trefferlisten maßgeblich verbessern können. Außerdem regte ich anhand von Beispielen von Google (Knowledge Graph) und IntraFind (Natürlichsprachliche Suche) eine Diskussion über die semantische Suche an.“