Welche technischen Herausforderungen gibt es bei Big Data Projekten?

Big Data im Enterprise Search UmfeldEnterprise Search bedeutet unternehmensweite Suche in komplexen Datenbeständen. Unternehmen haben erkannt, dass ihre Datenbestände tendenziell sehr schnell wachsen und insgesamt nicht mehr mit einfachen Algorithmen zu beherrschen sind. Deshalb ist gegenwärtig Big Data das Trendthema. Big Data erfordert neue technische Zugangsverfahren auf große Datenbestände; diese sollen für alle Mitarbeiter und Vorgesetzen umfassend für eine gute unternehmensinterne Suche aufbereitet werden können.

Big Data als Rahmenbedingung und Herausforderung für die Enterprise Search

Vorsichtige Schätzungen gehen davon aus, dass sich die Datenmengen auch in den Unternehmen alle zwei Jahre verdoppeln. Dies liegt daran, dass inzwischen jede Art von Informationsbearbeitung über elektronische Netzwerke geleitet wird, die große Mengen an Verbindungs- und Inhaltsdaten dauerhaft abspeichern. So werden alle Telefonverbindungen mit den relevanten Verbindungsdaten erfasst. Auch grundlegende Quellen der Internet-Recherche werden entweder als Link oder als direkte Ressourcenübernahme in Mails oder in anderen Dokumenten berücksichtigt.

Vorgedachte Strukturierung von Big Data für eine erfolgreiche Enterprise Search

Mit den steigenden Informationsmengen durch Big Data steigen auch die Anforderungen an die Enterprise Search. Denn Mitarbeiter wie Manager erwarten, dass die unternehmensinterne Suche ihnen auch Zugriffe auf diese bisher wenig erschlossenen Informationsquellen liefert. Es wäre für eine erfolgreiche Enterprise Search wichtig, dass man sich bereits jetzt Gedanken macht, wie zukünftige Potentiale von Big Data so strukturiert werden können, dass diese Datenmengen für Suchprozesse produktiv nützlich werden. So wäre z.B. wichtig, dass interne Abläufe, die in die Prozesse von Big Data einfließen, mit Schlagworten und weiteren Metadaten gekennzeichnet werden, die eine spätere Nutzung für Enterprise Search gut vorbereiten können. Dieses Tagging kann auch als Anreicherung mit Metadaten und weiteren wichtigen Kennwerten verstanden werden. Grundsätzlich hat sich das Unternehmen zu überlegen, wie Abläufe geschickt mit Metadaten und Kennwerten markiert und verdichtet werden können. Damit ist von vornherein gesichert, dass das Big Data der Informationen mit Strukturen wächst, die eine schnelle und kompetente Auswertung der Datenbestände fördert.

Enterprise Search als moderne Handlungsanforderung für die Informationsmengen von Big Data

Enterprise Search ist eine altbekannte Tatsache bei Mitarbeitern und Managern, doch bisher waren die Erfolge einer allzu simpel gestrickten internen Unternehmenssuchmaschine überschaubar. Oft griffen die Betroffenen auf externe Suchmaschinen zurück, wenn sie schnelle und passgenaue Informationen über wichtigen Ressourcen benötigten, selbst wenn die jeweilige Suchanfrage ausschließlich auf interne Prozesse bezogen war. Diese Leistungsfähigkeit der externen Systeme wird auch von den internen Systemen erwartet. Deshalb müssen die Algorithmen, die für eine zukunftsfähige Unternehmenssuche in den Zeiten von Big Data erwartet werden, so aufgebaut werden, dass sie mit gleicher Intensität und Genauigkeit die internen Informationsquellen erschließen können, wie man es ganz selbstverständlich bei externen Suchmaschinen erleben kann.

Technische Herausforderungen an die Ergebnisse der internen Suchmaschinen

Eine interne Suche kann bei großem Datenvolumen (wie es für Big Data zu erwarten ist), nicht unmittelbar auf den ursprünglichen Datenquellen umgesetzt werden. Benötigt wird ein leistungsfähiger Index, der möglichst alle relevanten Datenbestände des Unternehmens berücksichtigt und der zugleich diese Datenbestände hinsichtlich Schlüsselbegriffen und Metadaten zugriffsfähig macht. Diese Keywords und Metadaten werden auf Basis der vorher festgelegten Strukturdaten bestimmt; zugleich ist aber sicherzustellen, dass die Algorithmen der Enterprise Search auch die nicht in den vordefinierten Strukturen aufgenommenen Schlüsselbegriffe berücksichtigen. So sollte ein effizienter Algorithmus der Suche auch häufig verwandte Begriffe in Texten erkennen, insbesondere dann, wenn sie in Überschriften oder sonstigen wichtigen Bestandteilen des Dokuments verwandt werden.

Aufbereitung der Enterprise Search in Zeiten von Big Data

Auch bei der Aufbereitung der gefundenen Ergebnisse müssen moderne Anforderungen für benutzerfreundliche Darstellung berücksichtigt werden. Treffer des Suchprozesses müssen passend zum Kontext der verwendeten Suchbegriffe jeweils spezifisch dargestellt werden. Man spricht hier gern von einen Snippet oder Auszug, der mit einem Blick erkennbar macht, wie relevant das Suchergebnis für die jeweilige Suchanfrage ist. Zusätzlich kann auch ein Übereinstimmungswert errechnet und als Prozentangabe ausgegeben werden, womit sich die Enterprise Search in ihrer Akzeptanz deutlich steigern lässt. Das Snippet kann zugleich als Vorschau auf die gefundene Ressource genutzt werden. Der Text im Umfeld der eingegebenen Suchbegriffe wird angezeigt und ermöglicht so dem Benutzer besser zu bestimmten, welche der gefundenen Ressourcen ihm schnell weiterhelfen können.

Fazit: Big Data und Enterprise Search passen gut zusammen

Big Data sorgt dafür, dass alle aktuellen und zukünftigen Prozesse unternehmerischen Handelns in dokumentierte Ablaufprozesse eingefügt und transparent gemacht werden. Die Enterprise Search erschließt diese komplexen Datenmengen für spezifische Prozesse und fördert damit die Innovationskraft der Mitarbeiter und der Führungskräfte im Unternehmen.

Ein Gedanke zu „Welche technischen Herausforderungen gibt es bei Big Data Projekten?

  1. Lieber Herr Issel,

    der Absatz „Technische Herausforderungen…“ arbeitet sehr eindrücklich heraus, das Suchmaschinen, die über Basisfunktionalitäten hinausgehen, einen eigenen Index benötigen. Ohne Index kein intelligentes Filtern, keine assoziative oder kontextbasierte Suche etc..

    Einen nach meiner Erfahrung für Unternehmen bzw. die Realisierung von solchen Projekten ganz entscheidenden Punkt, wenn wir ernsthaft über „Big Data“ sprechen, lassen Sie hier allerdings aus: Der Index benötigt Speicherplatz!

    Mir sind hier schon von 20 bis 80 % der Ursprungsdatenmenge sämtliche Zahlen bei der Beschäftigung mit den verschiedenen Lösungsanbietern begegnet. Das ist natürlich auch abhängig von der Komplexität der Strukturen, die der Index vorhalten soll/muss.

    Ein Unternehmen, das ein „echtes“ Big Data Suchprojekt angehen möchte (wir sprechen da ggf. von dutzenden Petabyte) muss sich also damit auseinandersetzen, quasi ein zweites Rechenzentrum zu betreiben (und zu bezahlen!), das die intelligente Suchlösung beherbergt.

    Nach meiner Erfahrung ein echtes Problem!

    Viele Grüße, Peter Gottschalk.

Schreibe einen Kommentar