Nach der CeBIT ist vor der CeBIT. Und eine Nachlese zur Promise von Dr. Christoph Goller.

Nach der CeBIT ist vor der CeBIT. Und wie jedes Jahr werden die Zahlen der Messe veröffentlicht und interessant interpretiert. Spiegel Online befasste sich mit diesem Phänomen und stellte die Frage, ob diese weltweit größte IT-Messe noch zeitgemäß oder bereits von der CES in Las Vegas bzw. von der Mobile World in Barcelona überholt ist.

Am Mittwoch, 2. Messetag und in der Regel der bestbesuchte CeBIT-Tag, machte ich mir mein eigenes Bild. Ein Tag in Hannover, einen Tag Messeluft schnuppern, frühere Kollegen, gute Geschäftspartner, alte Bekannte und Freunde treffen. Natürlich trumpften IBM, Microsoft, T-Systems & Co mit großen auffälligen Messeständen auf. Doch konnte man sich vor 10 Jahren auf dem Microsoft-Messestand nur durchschieben, blieb heute viel Weitblick und Raum für Bewegung. Die Hallen wirkten leer und schienen sich eher durch Ausstellerpersonal als durch Fachbesucher zu füllen. Meine Kollegen berichteten sogar von nie dagewesenen freien Sitzplätzen in der Straßenbahn und leeren Parkhallen, die in der Vergangenheit bereits um 8 Uhr morgens wegen Überfüllung geschlossen waren.

Angekommen an unserem Messestand in Halle 3 war zwar die Besucherdichte auch nicht frappierend höher, aber durch die zahlreichen kleinen und mittelgroßen Anbieter von ECM-, CRM- bis Enterprise Search-Lösungen doch von interessanten und abwechslungsreichen Gesprächen geprägt. Meine Kollegen waren beschäftigt. Unsere Marketing-Aktionen im Vorfeld hatten gegriffen und gezielt nach Search-Applikationen suchende Interessenten fanden uns. Qualität vor Quantität. Feedback meiner Kollegen: die Gespräche, die wir hatten, waren sehr gut. Für uns erfüllte sich somit die Mission der Messe, man würde Erfolg nicht daran messen, von Jahr zu Jahr neue Besucherrekorde zu brechen, sondern stattdessen auf die richtigen Besucher achten.

Ein Highlight für IntraFind war die Einladung von Dr. Christoph Goller, Leiter Forschung, zum PROMISE Network of Excellence, die einen Technology Transfer Day auf der CeBIT veranstalteten. Ziel dieses Netzwerkes ist die Erarbeitung von Standards und Benchmarks für die Evaluierung von komplexen multimedialen und multilingualen Information Retrieval Systemen. Dr. Goller fasst die Veranstaltung wie folgt zusammen:

„Im Rahmen des Technology Transfer Days wurden Softwareherstellern und Anwendern die bisherigen Projektergebnisse aus dem Bereich Information Retrieval vorgestellt.

Auftakt der Veranstaltung war die Panel Diskussion am 5.3., in der Steven Arnold, ein bekannter Analyst aus dem Bereich Information Retrieval, den geringen Fortschritt in der Praxis des Information Retrieval kritisierte. Im ganztägigen Workshop am 6.3. gab es interessante Anwender-Präsentationen, unter anderem von Emma Bayen vom National Archive UK. Wie viele Anwender sind diese gerade dabei, von Autonomy auf Lucene umzusteigen, da die Qualität der Autonomy Produkte die hohen Lizenzkosten in keiner Weise rechtfertigt. Weitere Anwendervorträge stellten Probleme und Lösungen beim Einsatz von Information Retrieval im Gesundheitsbereich dar.

Martin Braschler von der Züricher Hochschule für angewandte Forschung stellte als Projektergebnis einen pragmatischen Ansatz zur Evaluierung von Information Retrieval Systemen vor. Man muss hier anmerken, dass das Projekt PROMISE im akademischen Bereich viel zu Evaluierungskampagnen (CLEF, TREK) beigetragen hat. Hier ist jedoch immer die Existenz eines Testkorpus (Gold Standard) erforderlich. In der Praxis z.B. im Bereich Enterprise Search ist ein solches Vorgehen unmöglich. Deshalb sind der vorgestellte pragmatische Ansatz und der verwendete Kriterienkatalog besonders interessant. Der pragmatische Evaluierungsansatz wurde an einer Vielzahl von öffentlich zugänglichen Search Engines großer Unternehmen und Organisationen getestet. Das ernüchternde Ergebnis: die meisten Implementierungen schnitten nur sehr durchschnittlich ab. Oft waren die Indexe nicht aktuell oder vollständig. Die Tester konnten relativ leicht Dokumente ausmachen, die nicht über die Suche auffindbar waren. Auch die Qualität der Trefferlisten ließ sehr oft zu wünschen übrig. Wichtige IntraFind Alleinstellungsmerkmale wie Lemmatisierung und Decompounding und die Nutzung von Thesauren auch für die Crosslinguale Suche spielen übrigens in diesem Kriterienkatalog eine wichtige Rolle. Interessant ist auch zu bemerken, dass die mangelnde Qualität unabhängig von den Herstellern der Systeme festgestellt wurde. Auch eine auf die jeweilige Domäne eingeschränkte Google Suche schneidet nicht besser ab.

Vonseiten der Hersteller und Analysten möchte ich noch den Vortrag von Tony Russle-Rose erwähnen, der verschiedene Arten von Suchen und Informationsbedürfnissen von Nutzern analysierte. Henrik Strindberg von Findwise berichtete über ihre Service-Orientierte Architektur, die sehr ähnlich zu unseren IntraFind Ansätzen ist. Er schlägt ein offenes Dokumentenmodell vor, auf dem verschiedene NLP-Verfahren mit SOA-Schnittstellen ihre Annotationen schreiben könnten. Im EU Projekt Panacea wurde ein solches Modell bereits entwickelt. Gregory Grefenstette von Exalead stellte verschiedene Arbeiten aus dem Quäro-Projekt vor, hauptsächlich ging es um Multimedia Suche (Bilder und Sprache).

David Hawking präsentierte die Suchmaschine von Funnelback. In diesem System kann man besonders viel Einfluss auf das Scoring der Dokumente nehmen. Die Experten von Funnelback sehen ein Projekt auch nicht nach der Installation des Produktes als beendet an, sondern legen  sehr viel Wert auf eine ständige Pflege und Wartung des Systems. Dadurch erhöhen sie deutlich die Benutzerzufriedenheit. Da steckt aus meiner Sicht für alle Anbieter sehr viel Potential, denn auch ein SAP System kommt nicht ohne ständige Wartung aus.

Ich selbst hatte die Ehre, die IntraFind Enterprise Search Lösung zu präsentieren. Ich referierte über die enormen Verbesserungen in Lucene 4 und zeigte, wie wir durch Nutzung von qualitativ hochwertiger morphologischer Wortnormalisierung & Kompositazerlegung, Informationsextraktion und Textklassifizierung die Qualität der Trefferlisten maßgeblich verbessern können. Außerdem regte ich anhand von Beispielen von Google (Knowledge Graph) und IntraFind (Natürlichsprachliche Suche) eine Diskussion über die semantische Suche an.“

Schreibe einen Kommentar