„Semantische Suche“ ist ein schönes Buzzword — es bietet (so wie „Big Data“) die nötige Unschärfe um als Projektionsfläche für Geek-Träume einer fernen SciFi Zukunft zu dienen. Nun, was versteht Google unter semantischer Suche und worauf basieren dessen Lösungen?
Grundbaustein für Googles semantischer Suche ist der sogenannte Knowledge Graph (KG), ein Wissensnetz von öffentlich zugänglichen semantisch annotierten Daten (im Sinne des semantic web). In diesem Graph werden Entitäten (Personen, Orte, Organisationen, etc.) und deren Beziehungen zueinander hinterlegt. Von Google genannte Quellen für Inhalte sind: der „CIA World Factbook“, Freebase und Wikipedia. Die Befüllung des KG erfolgt somit hauptsächlich manuell (2013 hatte der KG eine Mächtigkeit von knapp 600Mio Entitäten und Fakten).
Weiteres wichtiges Element des Systems ist die Verarbeitung der Suchanfrage und sonstigen Signalen des Benutzers. Dabei ist es wichtig, möglichst präzise, Gelegenheiten des Einsatzes des KG für die Beantwortung der Queries zu erkennen und auszunutzen. [Am Rande sei bemerkt, dass die reguläre Term-Suche immer noch durchgeführt wird und Ergebnisse aus dem KG die Trefferliste bereichern und nicht ersetzen.] Dazu kommen zusätzlich zur Verarbeitung natürlicher Sprache (Erkennung von Entitäten und Nominalphrasen, Benutzung von Thesauri für Termerweiterungen, soweit möglich auch das Parsen der Queries — Query-Sprache ist selten grammatisch), Signale wie geographische Lage, Query-History und -Trends, oder persönliche Informationen (z.B. aus Gmail erkannte Flugdaten oder Onlinebestellungen) hinzu. Die Kombination aus Verarbeitung natürlicher Sprache („bank“ –> etwas zum sitzen, oder ein Geldhaus, oder …) und Kontext (Benutzer hat kürzlich nach Stühlen gesucht –> also wahrscheinlicher die Bank zum sitzen) erlaubt eine präzise Disambiguierung von Begriffen, und somit eine sichere Ausbeute des KGs. Die immer tiefere Verwurzelung von Google in das Alltag vieler Menschen (über Android, Gmail, Google+, etc.) bietet einen unglaublichen Reichtum an Kontextinformationen.
Die hohe Datenqualität des KGs erlaubt Google eine bessere Platzierung von Anzeigen, und eröffnet völlig neue Geschäftsgebiete — statt nach einer Seite für Restaurantreservierungen zu suchen, reserviert man direkt bei Google.
tl;dr
Semantische Suche bei Google ist also eine dem persönlichen Kontext maßgeschneiderte Erweiterung der herkömmlichen Term-Suche mit Daten aus einer handkuratierten Wissensdatenbank. Über die Kombination von Verarbeitung natürlicher Sprache und Googles berüchtigter Datensammelwut (inkl. persönlicher Natur) erreicht die Disambiguierung von Suchanfragen und somit auch die Ausbeute des KGs eine hohe Präzision.