Extractor ist eine patentierte Technologie, mit der aus beliebigen Texten die wesentlichen Inhalte zusammen gefasst werden können. Extractor wurde dafür ausgelegt, mit den gängigen Betriebssystemen Windows und Linux verwendbar zu sein, denn die freie Wahl des Betriebssystems ist ein zunehmend wichtiger Aspekt für IT-Lösungen. Das Extractor Software Development Kit (SDK) umfasst den Sourcecode in ANSI C und kann unter

¤ Linux,
¤ Solaris und
¤ Windows

verwendet werden. Anpassungen an weitere Plattformen sind auf Kundenwunsch möglich.

Entsprechend der Forderung nach plattformübergreifender Verwendbarkeit enthält das Extractor SDK auch API-Schnittstellen für diese Entwicklungsumgebungen:

¤ C#
¤ C (C, C++, VC++)
¤ Java
¤ Visual Basic
¤ Python
¤ Perl

Diese Möglichkeiten von Extractor stehen Ihnen für die Ihrer eigenen Anwendung zur Verfügung:

¤ Zusammenfassungen automatisch generieren
¤ Formate: Unformatierter Text, HTML und Email
¤ Hervorhebungen in Dokumenten und Markierung von Sätzen
¤ Unterstützte Sprachen: Englisch, Französisch, Deutsch, Japanisch, Koreanisch und Spanisch
¤ Gleichzeitige Analyse mehrere Dokumente durch MultiThreading
¤ Anzahl der gewünschten Schlagwörter bei der Ausgabe festsetzen
¤ Stop words: Eine Liste zu ignorierender Wörter übergeben
¤ Go words: Eine Liste besonders zu beachtender Wörter oder Satzteile übergeben
¤ Sortieren nach Häufigkeit: Ergebnisse in aufsteigender oder absteigender Reihenfolge mit/ohne Prozentwerte anzeigen

Für den Themenbereich der automatisierten Zusammenfassung von Texten existieren viele Definitionen und Implementationen. Am bekanntesten sind heuristische und linguistische Verfahren sowie Verfahren nach Bayes. Extractor benutzt einen als Genetic bezeichneten Ansatz, der einen Lernprozess umfasst. Dieser ermöglicht dem Werkzeug den einfachen Wechsel von einem Themenbereich zum anderen. Andere Ansätze sind traditionellerweise auf ein bestimmtes Thema beschränkt und erfordern bei einen Wechsel des Themenbereichs größere Interventionen des Anwenders zur Anpassung. Eine detaillierte Diskussion finden Sie unter »Learning Algorithms for Keyphrase Extraction«.