Während Data Mining verborgene Muster in großen Datenmengen sucht, konzentriert sich Text Mining auf Informationen, die in Texten vorliegen. Das Ziel beim Text Mining ist, wichtige Informationen und Zusammenhänge in großen Textmengen zu finden wie sie z.B. in Datenbanken, technischen Handbüchern von Flugzeugen, dem gesammelten Wissen eines Unternehmens, täglich eintreffenden Kundenanfragen oder sogar dem ganzen WWW anzutreffen sind.
Die im Folgenden skizzierte Technologie steht nicht mehr am Anfang, sondern hat sich weltweit im täglichen Einsatz bewährt. Text Mining unterstützt den Anwender, der gewaltigen Informationsflut weniger hilflos gegenüber zu stehen und die „Nadel im Informationshaufen" zu finden.
Die Suche nach entscheidenden Informationen war schon immer sehr wichtig. Während früher die Schwierigkeit vor allem darin lag, an Informationen heranzukommen, besteht das Problem aufgrund der modernen Kommunikationsformen heute eher darin, aus der Fülle der vorhandenen Informationen diejenigen herauszufiltern, die man benötigt.
Wer hat nicht schon mit diversen Suchmaschinen versucht, im Internet Informationen zu sammeln, sich dann mühsam durch hunderte von Dokumenten durchgekämpft, um schließlich zur Erkenntnis zu gelangen, dass ausgerechnet das zweitletzte Dokument die gesuchte Angabe enthielt? Oder - auf die Marktforschung übertragen - in wie vielen Befragungen sind die offenen Fragen nicht ausgewertet worden, weil schlicht die Zeit und die Ressourcen fehlten, um sich damit seriös auseinanderzusetzen, obwohl gerade dort die Informationsschätze liegen, die für eine Studie von entscheidender Bedeutung sein können?
Seit den Anfängen der elektronischen Textverarbeitung gibt es Versuche, Texte nach inhaltlichen Kriterien zu durchforsten. Erste Ansätze bestanden darin, vorkommende Worte in Dokumenten zu zählen, Füllwörter (wie z.B. der, die, das etc.) auszuschließen und Synonymlisten zu verwenden, vergleichbar mit dem sozialwissenschaftlichen Ansatz der Inhaltsanalyse. Nachteil hierbei ist, dass Worte, die gleich geschrieben sind, nicht immer dasselbe meinen. "Müller" zum Beispiel: Ist hier die Berufsbezeichnung gemeint, oder könnte ein Herr Müller gemeint sein? Die wirkliche Bedeutung geht nur aus dem Textkontext hervor.
Sinnvolles automatisches Textverständnis ist nur möglich, wenn Texte nicht nur in isolierte Worte zerlegt, sondern wenn Worte im Zusammenhang mit ihrem Umfeld analysiert werden. Eine solche Methode ist beispielsweise unter dem Kürzel NLP (Natural Language Processing) verfügbar. Diese Methode erlaubt es, nicht nur Worte zu erkennen, sondern Konzepte. Unter einem Konzept versteht man ein Wort oder eine Wortkombination unter Berücksichtigung des Kontextes.
Dabei ist es wichtig, zwischen allgemeinen Begriffen, Namen, Organisationen, Produkten und auch branchenspezifischen Begriffen zu unterscheiden. Nur im Textzusammenhang kann z.B. identifiziert werden, ob mit Charles de Gaulle eine Person oder ein Flughafen gemeint ist.
Sobald in einem Text die relevanten Konzepte identifiziert worden sind, stellen sich Fragen wie:
Entsprechende linguistische Algorithmen sind in LexiQuest enthalten. So ist es möglich, große Dokumentenmengen analysieren zu lassen, indem lediglich angegeben wird, wo sich die Dokumente befinden. Der Algorithmus nimmt dann die Tätigkeit auf und ist in der Lage, Text in allen gängigen Formaten zu bearbeiten, wie Word, PowerPoint, HTLM, XML, PDF usw. Es ist sogar möglich, Dokumente in verschiedenen Sprachen in einem Schritt zu analysieren, wobei der Algorithmus zuerst eine Spracherkennung durchführt.
So können auch Webseiten sehr schnell auf Konzepte durchsucht werden. Es ist darüber hinaus möglich, Analysen periodisch durchzuführen, um Webseiten (etwa solche der Konkurrenz) auf Veränderungen der Inhalte zu analysieren.
Das Resultat wird anschließend in einem Browserfenster dargestellt.
Beispiel: Die Analyse von Reklamationen
Text Mining-Algorithmen in LexiQuest sind nahezu universell einsetzbar. Die
Analyse von Webseiten und Informationsrecherchen in Ergänzung zu herkömmlichen
Suchsystemen sind erst ein Schritt. Im Bereich des Customer Relationship Management
erlaubt eine Strukturierung bisher unstrukturiert vorliegender Kunden-Mails
das Zusammenführen und Nutzbarmachen von Daten aus allen vorhandenen
Datenquellen.
So können wirklich valide Analysen von Reklamationen beispielsweise resultieren,
wenn der Reklamationstext mit dem Kundenstamm und den Verkaufsdaten zusammengeführt
werden und die Kombination von Text Mining und Data Mining dazu führt,
Kunden besser kennen zu lernen und ihnen spezifischere Angebote machen zu
können.
Beispiel: Automatisches Kategorisieren von Kundenanfragen
Sehr sinnvoll ist der Einsatz von LexiQuest auch für das automatische
Kategorisieren von Anfragen. Die Einbindung in ein internes E-Mail System
ermöglicht, dass E-Mails von Kunden an eine zentrale Firmenadresse automatisch
an die zuständigen Stellen weitergeleitet werden. Ebenfalls eingesetzt
wird die Software zur automatischen Übersetzung von Freitextfragen in
strukturierte Fragen, und schließlich sogar zur Generierung von Vorschlägen
für personalisierte automatische Antwort-Mails.
Der Einsatz von Text Mining garantiert den Angestellten einer europäischen
Top Bank einen unkomplizierten und schnellen Zugang zu geschäftskritischen
Informationen
Um alle Kunden in allen Ländern nach gleichen Qualitätsstandards
bedienen zu können, suchte eine europäische Top Bank nach einem
System, das allen Mitarbeiterinnen und Mitarbeiter weltweit den gleichen Zugang
zu aktuellen Informationen über europäische Bankvorgänge garantiert.
Die Informationen waren zwar alle auf dem Intranet zugänglich, aber durch
deren große Menge glich die Suche nach bestimmten Dokumenten der Suche
nach der Nadel im Heuhaufen. Die Suche über Begriffe führte mehr
und mehr zu irrelevanten Suchresultaten, was gemessen am Zeitaufwand sehr
ineffizient war.
Ein europäischer Autohersteller konnte durch den Einsatz von
Text Mining die «Lernoberfläche» des Unternehmens wesentlich
verbessern
Die Forschungsabteilung eines führenden europäischen Autoherstellers
benötigte eine effizientere und genauere Methode, um mit Branchen- und
Entscheidungs-Wissen umzugehen. Um konkurrenzfähig zu bleiben, ist die
Verwaltung und Strukturierung dieses Wissens von vitaler Bedeutung. Das fortlaufende
Durchforsten aller möglichen Informationsquellen - auch derjenigen der
Konkurrenz - gestaltete sich jedoch als äußerst aufwändig.
Hinzu kam, dass durch die große Informationsflut immer häufiger
die wirklich wichtigen Informationen nicht erkannt wurden.
Predictive Analytics
kann Ihre Organisation noch
erfolgreicher machen
Weitere Produkte
Ressourcen