[Skip Global Navigation]

Text Mining

Startseite Lexiquest

Contact SPSS SalesKontakt

Die Suche nach der Nadel im Heuhaufen

Während Data Mining verborgene Muster in großen Datenmengen sucht, konzentriert sich Text Mining auf Informationen, die in Texten vorliegen. Das Ziel beim Text Mining ist, wichtige Informationen und Zusammenhänge in großen Textmengen zu finden wie sie z.B. in Datenbanken, technischen Handbüchern von Flugzeugen, dem gesammelten Wissen eines Unternehmens, täglich eintreffenden Kundenanfragen oder sogar dem ganzen WWW anzutreffen sind.

Text Mining: Informationssuche im Informationsüberfluss? Ein mühsames Unterfangen

Die im Folgenden skizzierte Technologie steht nicht mehr am Anfang, sondern hat sich weltweit im täglichen Einsatz bewährt. Text Mining unterstützt den Anwender, der gewaltigen Informationsflut weniger hilflos gegenüber zu stehen und die „Nadel im Informationshaufen" zu finden.

Die Suche nach entscheidenden Informationen war schon immer sehr wichtig. Während früher die Schwierigkeit vor allem darin lag, an Informationen heranzukommen, besteht das Problem aufgrund der modernen Kommunikationsformen heute eher darin, aus der Fülle der vorhandenen Informationen diejenigen herauszufiltern, die man benötigt.

Wer hat nicht schon mit diversen Suchmaschinen versucht, im Internet Informationen zu sammeln, sich dann mühsam durch hunderte von Dokumenten durchgekämpft, um schließlich zur Erkenntnis zu gelangen, dass ausgerechnet das zweitletzte Dokument die gesuchte Angabe enthielt? Oder - auf die Marktforschung übertragen - in wie vielen Befragungen sind die offenen Fragen nicht ausgewertet worden, weil schlicht die Zeit und die Ressourcen fehlten, um sich damit seriös auseinanderzusetzen, obwohl gerade dort die Informationsschätze liegen, die für eine Studie von entscheidender Bedeutung sein können?

Text Mining - mit LexiQuest lassen sich Texte schnell und einfach kategorisieren und analysieren

Text Mining. Die Frage heißt: Wie kann man freie Texte schnell und effizient nach relevanten Inhalten durchkämmen?

Seit den Anfängen der elektronischen Textverarbeitung gibt es Versuche, Texte nach inhaltlichen Kriterien zu durchforsten. Erste Ansätze bestanden darin, vorkommende Worte in Dokumenten zu zählen, Füllwörter (wie z.B. der, die, das etc.) auszuschließen und Synonymlisten zu verwenden, vergleichbar mit dem sozialwissenschaftlichen Ansatz der Inhaltsanalyse. Nachteil hierbei ist, dass Worte, die gleich geschrieben sind, nicht immer dasselbe meinen. "Müller" zum Beispiel: Ist hier die Berufsbezeichnung gemeint, oder könnte ein Herr Müller gemeint sein? Die wirkliche Bedeutung geht nur aus dem Textkontext hervor.

Text Mining: Linguistischer Ansatz als Lösung

Sinnvolles automatisches Textverständnis ist nur möglich, wenn Texte nicht nur in isolierte Worte zerlegt, sondern wenn Worte im Zusammenhang mit ihrem Umfeld analysiert werden. Eine solche Methode ist beispielsweise unter dem Kürzel NLP (Natural Language Processing) verfügbar. Diese Methode erlaubt es, nicht nur Worte zu erkennen, sondern Konzepte. Unter einem Konzept versteht man ein Wort oder eine Wortkombination unter Berücksichtigung des Kontextes.

Dabei ist es wichtig, zwischen allgemeinen Begriffen, Namen, Organisationen, Produkten und auch branchenspezifischen Begriffen zu unterscheiden. Nur im Textzusammenhang kann z.B. identifiziert werden, ob mit Charles de Gaulle eine Person oder ein Flughafen gemeint ist.

Sobald in einem Text die relevanten Konzepte identifiziert worden sind, stellen sich Fragen wie:

Text Mining - Textinhalte automatisch analysieren

Entsprechende linguistische Algorithmen sind in LexiQuest enthalten. So ist es möglich, große Dokumentenmengen analysieren zu lassen, indem lediglich angegeben wird, wo sich die Dokumente befinden. Der Algorithmus nimmt dann die Tätigkeit auf und ist in der Lage, Text in allen gängigen Formaten zu bearbeiten, wie Word, PowerPoint, HTLM, XML, PDF usw. Es ist sogar möglich, Dokumente in verschiedenen Sprachen in einem Schritt zu analysieren, wobei der Algorithmus zuerst eine Spracherkennung durchführt.

So können auch Webseiten sehr schnell auf Konzepte durchsucht werden. Es ist darüber hinaus möglich, Analysen periodisch durchzuführen, um Webseiten (etwa solche der Konkurrenz) auf Veränderungen der Inhalte zu analysieren.

Das Resultat wird anschließend in einem Browserfenster dargestellt.

Beispiel: Die Analyse von Reklamationen
Text Mining-Algorithmen in LexiQuest sind nahezu universell einsetzbar. Die Analyse von Webseiten und Informationsrecherchen in Ergänzung zu herkömmlichen Suchsystemen sind erst ein Schritt. Im Bereich des Customer Relationship Management erlaubt eine Strukturierung bisher unstrukturiert vorliegender Kunden-Mails das Zusammenführen und Nutzbarmachen von Daten aus allen vorhandenen Datenquellen.
So können wirklich valide Analysen von Reklamationen beispielsweise resultieren, wenn der Reklamationstext mit dem Kundenstamm und den Verkaufsdaten zusammengeführt werden und die Kombination von Text Mining und Data Mining dazu führt, Kunden besser kennen zu lernen und ihnen spezifischere Angebote machen zu können.

Beispiel: Automatisches Kategorisieren von Kundenanfragen
Sehr sinnvoll ist der Einsatz von LexiQuest auch für das automatische Kategorisieren von Anfragen. Die Einbindung in ein internes E-Mail System ermöglicht, dass E-Mails von Kunden an eine zentrale Firmenadresse automatisch an die zuständigen Stellen weitergeleitet werden. Ebenfalls eingesetzt wird die Software zur automatischen Übersetzung von Freitextfragen in strukturierte Fragen, und schließlich sogar zur Generierung von Vorschlägen für personalisierte automatische Antwort-Mails.

Der Einsatz von Text Mining garantiert den Angestellten einer europäischen Top Bank einen unkomplizierten und schnellen Zugang zu geschäftskritischen Informationen
Um alle Kunden in allen Ländern nach gleichen Qualitätsstandards bedienen zu können, suchte eine europäische Top Bank nach einem System, das allen Mitarbeiterinnen und Mitarbeiter weltweit den gleichen Zugang zu aktuellen Informationen über europäische Bankvorgänge garantiert. Die Informationen waren zwar alle auf dem Intranet zugänglich, aber durch deren große Menge glich die Suche nach bestimmten Dokumenten der Suche nach der Nadel im Heuhaufen. Die Suche über Begriffe führte mehr und mehr zu irrelevanten Suchresultaten, was gemessen am Zeitaufwand sehr ineffizient war.

Ein europäischer Autohersteller konnte durch den Einsatz von Text Mining die «Lernoberfläche» des Unternehmens wesentlich verbessern
Die Forschungsabteilung eines führenden europäischen Autoherstellers benötigte eine effizientere und genauere Methode, um mit Branchen- und Entscheidungs-Wissen umzugehen. Um konkurrenzfähig zu bleiben, ist die Verwaltung und Strukturierung dieses Wissens von vitaler Bedeutung. Das fortlaufende Durchforsten aller möglichen Informationsquellen - auch derjenigen der Konkurrenz - gestaltete sich jedoch als äußerst aufwändig.
Hinzu kam, dass durch die große Informationsflut immer häufiger die wirklich wichtigen Informationen nicht erkannt wurden.