|
|
| Überblick
Extractor ist ein außergewöhnliches Werkzeug zur Analyse von Text-Dokumenten. Basierend auf der patentierten Technologie GenEx (genetische Extraktion) werden aus Texten, e-Mails und HTML-Seiten gewichtete Listen mit Schlüsselworten und Schlüsselbegriffen zusammengestellt. Dokumente mit beliebiger Länge und Inhalt können verarbeitet werden, der genaue Inhalt der Seite wird kontextbezogen als Extrakt von Schlüssel-Wörtern und -Begriffen dargestellt. Damit ist Extractor besonders für Internet-Anwendungen geeignet. Ohne erneutes Training und ohne menschlichen Eingriff liefert die patentierte Technologie von Extractor genaue Zusammenfassungen zu jedem Thema. Informationen im Kontext Eine Möglichkeit
der GenEx-Technologie ist besonders hervorzuheben: Extractor kann die
wichtigen Schlüssel-Worte und -Begriffe im ursprünglichen Dokument
hervorheben und zeigt so, wie sie im Kontext des Dokuments benutzt werden.
Damit ist eine einmalige Relevanz zum jeweiligen Thema erreicht. Diese
spezielle Funktion ermöglicht zum Beispiel den analytischen Vergleich
zweier Dokumente. Auch bei einer Sammlung von Dokumenten können so ähliche
oder unterschiedliche Merkmale gefunden werden. Damit ist Extractor ideal
geeignet für Zusammenfassungen in Web-Portalen, für Indizierung von
Dokumenten, für Linklisten und für Informationssysteme,
basierend auf semantischen Informationen.
im Gegensatz zu den von Menschen erstellten Analysen sind die Ergebnisse von Extractor schon bedingt durch das Design objektiv. Extractor liefert zu 85% bis 93% genaue Ergebnisse, unabhängig vom Themenbereich. Die Fähigkeit, relevante und sinnvolle Informationen schnell herauszufiltern, ist der Eckstein der Technologie von Extractor. Definition der Schlüsselbegriffe Viele Zeitschriften bitten ihre Autoren um eine Liste von Schlüsselworten.
Wir bezeichnen diese als Schlüsselbegriffe und nicht Schlüsselworte, da es sich meist nicht um einzelne Worte sondern um
Begriffe, bestehend aus zwei oder mehr Wörtern handelt. Wir definieren
eine Liste von Schlüsselbegriffen als eine kurze Liste von meist fünf bis
fünfzehn Begriffen, die die wichtigen Themen innerhalb eines
Dokuments darstellen. Wir definieren als automatische
Extraktion von Schlüsselbegriffen die Auswahl von wichtigen,
relevanten Begriffen aus dem Hauptteil eines Dokumentes. Die automatische
Extraktion von Schlüsselbegriffen ist ein spezieller Fall der automatischen
Erzeugung von Schlüsselbegriffen, bei der die erzeugten Begriffe nicht
unbedingt im Hauptteil des gegebenen Dokumentes enthalten sind. Die Mehrheit der Forschergemeinde
geht davon aus, dass Metadaten grundlegend zur Verwaltung von
Dokumenten sind. Unter Metadaten werden dabei übergeordnete Informationen
zu einem Dokument oder einen Satz von Dokumenten verstanden. Es gibt eine Reihe von
Standards zu Metadaten für Dokumente. Dazu gehören das Dublin Core
Metadata Element Set (bevorzugt vom US Online Computer Library
Center), das MARC- (Machine-Readable Cataloging) Format der US
Kongressbibliothek , der GILS- (Government Information Locator Service) Standard
des US Amtes für Soziale und ökonomische Datenanalyse, und der CSDGM (Content Standards for Digital Geospatial Metadata)
des US Federal Geographic Data Committees. Alle diese Standards enthalten einen
Bereich für Schlüsselbegriffe - auch wenn sie hierfüg verschiedene
Namen haben. Schlüsselbegriffe
zur Indexierung
Schlüsselbegriffe zur Analyse von Log-Dateien Die Betreiber einer
Web-Site wollen oft wissen, was die Besucher Besucher der
Site eigentlich suchen. Die meisten Web-Server erstellen Protokolldateien, die Informationen über Besucher
einschließlich der Internetadresse des Client-PCs, der angeforderen
Seiten und der Zeit der Anforderung enthalten. Es gibt mehrere
kommerzielle Produkte, die diese Protokolle
analysieren. Normalerweise wird ein solches Werkzeug einen Überblick zu
den allgemeinen Verkehrsmustern der Site liefern und eine sortierte Liste der beliebtesten
Seiten der Site erstellen. Um eine tieferen Einblick in den
Besucher-Verkehr zu ermöglichen, kann ein Analyseprogramm Schlüsselbegriffe
benutzen.
Anstatt eine geordnete Liste der beliebtesten Seiten liefert das
Analyseprogramm dann eine Liste der
beliebtesten Schlüsselbegriffe der Site her. Dies ermöglicht dem
Betreiber einen besseren Eindruck zu den häufig angefragten Themen der Web-Site. "Semantik ist aktuell ein
wichtiger Industriesektor - Ein Markt mit einem Umfang von derzeit zwei 2 Milliarden
US Dollar pro
Jahr, für den eine Steigerung auf 50 Milliarden US Dollar bis 2010
erwartet wird." "Semantik ist das
Studium der Bedeutung. Es ist so alt wie die alten Griechen. Für die meisten von
uns war es eine tödlich langweilige Unterdisziplin der
Philosophie, die man vermeinden wollte. Aber es stellt sich heraus, dass wir
sie nicht
vermeiden können. Wir ertrinken in einem Meer von Daten, das
gelegentlich großzügig "Information" genannt wird. Die Wahrheit
ist aber, dass fast alles von Menschen interpretiert werden muß, um von
irgendeinem Nutzen zu
sein. Das Wachstum und die Verfügbarkeit von Daten wächst
exponentiell; und damit auch die Notwendigkeit, sie in Entscheidungsfindung und Planung zu berücksichtigen.
Unsere Systeme tragen größtenteils zu dem Dilemma mit bei, statt Abhilfe
zu schaffen."
Definition Schlüsselworte und Anwendungsbeispiele mit freundlicher Genehmigung von Dr. Peter Turney |