Überblick

Extractor ist ein außergewöhnliches Werkzeug zur Analyse von Text-Dokumenten. Basierend auf der patentierten Technologie GenEx (genetische Extraktion) werden aus Texten, e-Mails und HTML-Seiten gewichtete Listen mit Schlüsselworten und Schlüsselbegriffen zusammengestellt. Dokumente mit beliebiger Länge und Inhalt können verarbeitet werden, der genaue Inhalt der Seite wird kontextbezogen als Extrakt von Schlüssel-Wörtern und -Begriffen dargestellt. Damit ist Extractor besonders für Internet-Anwendungen geeignet. Ohne erneutes Training und ohne menschlichen Eingriff liefert die patentierte Technologie von Extractor genaue Zusammenfassungen zu jedem Thema.

Informationen im Kontext

Eine Möglichkeit der GenEx-Technologie ist besonders hervorzuheben: Extractor kann die wichtigen Schlüssel-Worte und -Begriffe im ursprünglichen Dokument hervorheben und zeigt so, wie sie im Kontext des Dokuments benutzt werden. Damit ist eine einmalige Relevanz zum jeweiligen Thema erreicht. Diese spezielle Funktion ermöglicht zum Beispiel den analytischen Vergleich zweier Dokumente. Auch bei einer Sammlung von Dokumenten können so ähliche oder unterschiedliche Merkmale gefunden werden. Damit ist Extractor ideal geeignet für Zusammenfassungen in Web-Portalen, für Indizierung von Dokumenten, für Linklisten und für Informationssysteme, basierend auf semantischen Informationen.

Relevante Informationen

im Gegensatz zu den von Menschen erstellten Analysen sind die Ergebnisse von Extractor schon bedingt durch das Design objektiv. Extractor liefert zu 85% bis 93% genaue Ergebnisse, unabhängig vom Themenbereich. Die Fähigkeit, relevante und sinnvolle Informationen schnell herauszufiltern, ist der Eckstein der Technologie von Extractor.

Definition der Schlüsselbegriffe

Viele Zeitschriften bitten ihre Autoren um eine Liste von Schlüsselworten. Wir bezeichnen diese als Schlüsselbegriffe und nicht Schlüsselworte, da es sich meist nicht um einzelne Worte sondern um Begriffe, bestehend aus zwei oder mehr Wörtern handelt. Wir definieren eine Liste von Schlüsselbegriffen als eine kurze Liste von meist fünf bis fünfzehn Begriffen, die die wichtigen Themen innerhalb eines Dokuments darstellen. Wir definieren als automatische Extraktion von Schlüsselbegriffen die Auswahl von wichtigen, relevanten Begriffen aus dem Hauptteil eines Dokumentes. Die automatische Extraktion von Schlüsselbegriffen ist ein spezieller Fall der automatischen Erzeugung von Schlüsselbegriffen, bei der die erzeugten Begriffe nicht unbedingt im Hauptteil des gegebenen Dokumentes enthalten sind.

Schlüsselbegriffe als Metadaten

Die Mehrheit der Forschergemeinde geht davon aus, dass Metadaten grundlegend zur Verwaltung von Dokumenten sind. Unter Metadaten werden dabei übergeordnete Informationen zu einem Dokument oder einen Satz von Dokumenten verstanden. Es gibt eine Reihe von Standards zu Metadaten für Dokumente. Dazu gehören das Dublin Core Metadata Element Set (bevorzugt vom US Online Computer Library Center), das MARC- (Machine-Readable Cataloging) Format der US Kongressbibliothek , der GILS- (Government Information Locator Service) Standard des US Amtes für Soziale und ökonomische Datenanalyse, und der CSDGM (Content Standards for Digital Geospatial Metadata) des US Federal Geographic Data Committees. Alle diese Standards enthalten einen Bereich für Schlüsselbegriffe - auch wenn sie hierfüg verschiedene Namen haben.

Schlüsselbegriffe hervorheben

Wenn wir ein Dokument schnell erfassen, suchen wir nach Schlüsselbegriffen, mit denen wir das Thema des Dokumentes bestimmen. Mit dem Hervorheben ist allgemein gemeint, dass Schlüsselbegriffe und Schlüsselpassagen, beispielsweise Sätze oder Absätze mit Unterstreichung, einem speziellen Font oder einer Farbe markiert werden. So wird das schnelle Erfassen eines Textes leicht möglich. Die automatische Extraktion von Schlüsselbegriffen ermöglicht, Schlüsselbegriffe in gedruckten Texten hervorzuheben. Aber auch Systeme zur Sprachsynthese können damit um Funktionen zum schnellen Erfassen des Textes erweitert werden.

Schlüsselbegriffe zur Indexierung

Eine alphabetische Liste von Schlüsselbegriffen, die aus einer Dokumentsammlung oder von Teilen eines einzelnen langen Dokumentes (Kapitel in einem Buch) stammt, kann als Index dienen.

Anfragen an Suchmaschinen mit Schlüsselbegriffen interaktiv verfeinern

Die Nutzung einer Suchmaschine ist oft ein iterativer Prozeß. Der Anwender gibt eine Frage ein, untersucht die entstehende Trefferliste, modifiziert die Frage und versucht es dann wieder. Die meisten Suchmaschinen haben keine speziellen Funktionen, die den iterativen Aspekt unterstützen. Ein Ansatz zu interaktiver Frageverfeinerung besteht darin, die zu der Frage des Anwenders passenden Dokumente zu bestimmen, deren Schlüsselbegriffe zu extrahieren und die Dokumente dem Anwender zusammen mit Vorschlägen zur Verfeinerung der Suche zu präsentieren. Die Vorschläge basieren dabei aus der Kombination der ersten Suchanfrage und den extrahierten Schlüsselbegriffen.

Schlüsselbegriffe zur Analyse von Log-Dateien

Die Betreiber einer Web-Site wollen oft wissen, was die Besucher Besucher der Site eigentlich suchen. Die meisten Web-Server erstellen Protokolldateien, die Informationen über Besucher einschließlich der Internetadresse des Client-PCs, der angeforderen Seiten und der Zeit der Anforderung enthalten. Es gibt mehrere kommerzielle Produkte, die diese Protokolle analysieren. Normalerweise wird ein solches Werkzeug einen Überblick zu den allgemeinen Verkehrsmustern der Site liefern und eine sortierte Liste der beliebtesten Seiten der Site erstellen. Um eine tieferen Einblick in den Besucher-Verkehr zu ermöglichen, kann ein Analyseprogramm Schlüsselbegriffe benutzen. Anstatt eine geordnete Liste der beliebtesten Seiten liefert das Analyseprogramm dann eine Liste der beliebtesten Schlüsselbegriffe der Site her. Dies ermöglicht dem Betreiber einen besseren Eindruck zu den häufig angefragten Themen der Web-Site.

"Semantik ist aktuell ein wichtiger Industriesektor - Ein Markt mit einem Umfang von derzeit zwei 2 Milliarden US Dollar pro Jahr, für den eine Steigerung auf 50 Milliarden US Dollar bis 2010 erwartet wird."
http://www.semantic-conference.com/

"Semantik ist das Studium der Bedeutung. Es ist so alt wie die alten Griechen. Für die meisten von uns war es eine tödlich langweilige Unterdisziplin der Philosophie, die man vermeinden wollte. Aber es stellt sich heraus, dass wir sie nicht vermeiden können. Wir ertrinken in einem Meer von Daten, das gelegentlich großzügig "Information" genannt wird. Die Wahrheit ist aber, dass fast alles von Menschen interpretiert werden muß, um von irgendeinem Nutzen zu sein. Das Wachstum und die Verfügbarkeit von Daten wächst exponentiell; und damit auch die Notwendigkeit, sie in Entscheidungsfindung und Planung zu berücksichtigen. Unsere Systeme tragen größtenteils zu dem Dilemma mit bei, statt Abhilfe zu schaffen."
CIO's Guide to Semantics, Copyright 2004 & 2005 Semantic Arts. Der vollständige Bericht:
CIOs-guide-to-semantics.pdf


"Nicht Inhalt sondern Kontext wird in etwa einem Jahrzehnt am wichtigsten sein. Die knappesten Ressourcen werden nicht Materialien sondern Standpunkte sein."
Paul Safo, "It's the Context Stupid" - Der vollständige Artikel:
http://www.saffo.com/essays/contextstupid.php

Definition Schlüsselworte und Anwendungsbeispiele mit freundlicher Genehmigung von Dr. Peter Turney