Achtung: Die Links der Form file://... funktionieren nur immerhalb des Fachbereichsnetzes (Domain cs.tu-berlin.de). Wer die Dateien benötigt, schicke bitte eine Mail an bjoern@cs.tu-berlin.de.

IP - Ein Testprogramm zur Indexierung von Dokumenten

Das Indexierungsprogramm IP dient zur computerunterstützten Indexierung von Dokumenten nach der Extraktionsmethode.

Das Programm IP benutzt intern eine Stoppworttabelle, in der Worte abgespeichert sind, die garantiert nichts zur Indexierung beitragen (z.B. Artikel).

Eingabedaten

Die Eingabedaten liegen in einem genormten Datenformat vor (siehe Spezifikation). Indexiert werden davon nur folgende Einträge: Numerische Einträge wie Seitenzahlen oder Einträge, die vorwiegend aus nicht-natürlichsprachlichen Wörtern bestehen, wie e-Mail-Adressen werden nicht mitindexiert. Hier finden Sie einen Beispiel-Datensatz.

Ausgabedaten

Die Ausgabedaten werden in folgendem Format generiert:

Deskriptor1 | Dokument-Id1 | Spalte1 |
Deskriptor2 | Dokument-Id2 | Spalte2 |
    ...     |      ...     |   ...   |

Beispiel:

Beckstein|1|1|
Unterstuetzungssystem|2|2|
Kuenstlich|2|3|
Begruendungsverwaltungssysteme|2|11|
Eigenschaft|2|11|
inkrementell|2|11|

Programmablauf

Beispielsitzung
Gruppe DELTA