Kurzreferat im Rahmen des CSLIB 2000 -Projektes
gehalten am: 8. Juni 1995
Verfasser: Björn Voigt (Gruppe DELTA)
Im Rahmen dieses Kurzreferates sollen einige für das Bibliotheksprojekt CSLIB 2000 wichtige Aspekte der DIN 31 623 (Indexierung zur inhaltlichen Erschließung von Dokumenten) behandelt werden. Jedem Dokument werden bei der Indexierung ein oder mehrere Deskriptoren (Begriffe) zugeordnet.
Daneben gibt es noch die formale Erschließung von Dokumenten, bei der aus dem Dokument formale Merkmale (z.B. Autor, Verlag, Erscheinungsjahr) abgeleitet werden.
"Das Indexieren umfaßt mehrere Schritte:
a) Das Verstehen des Dokumenteninhalts,
b) Das Ermitteln der Begriffe, die den wesentlichen Inhalt des vorliegenden Dokuments wiedergeben
c) Je nach Indexierungsmethode
Es gibt drei verschiedene Methoden der Indexierung:
Wie schon unter "Allgemeines zum Indexieren" erwähnt, gehört zur Indexierung das Verstehen des Textes. Das leisten heute Computersysteme nicht. Dieser Mangel kann aber durch die höhere Geschwindigkeit und Genauigkeit bei der computerunterstützter oder automatischer Indexierung teilweise wieder ausgeglichen werden.
"Extraktionsmethode ist die Indexierungsmethode, nach der Deskriptoren dem Dokument entnommen werden."
Vorteil: "Schnelle und spezifische Erfassung aller Begriffe, die im Text des Dokuments hinreichend explizit ausgedrückt sind."
Nachteil: "Möglicher Verlust solcher Begriffe, die im Text des Dokuments nicht eindeutig ausgedrückt bzw. nur umschrieben sind oder nur indirekt aus dem Zusammenhang hervorgehen."
"Additionsmethode ist die Indexierungsmethode, nach der einem Dokument Deskriptoren zugeteilt werden, die im Dokument nicht verbal enthalten sein müssen. Zum Beispiel können Dokumente ohne Text nur nach der Additionsmethode indexiert werden."
Vorteil: Die Deskriptoren können frei gewählt werden.
Nachteile: Eine gute Indexierungskonsistenz (Ähnlichkeit der Indexierungsergebnisse mit verschiedenen Indexierungsverfahren) ist kaum zu erreichen. Wenn die Indexierung z.B. durch zwei verschiedene Indexierer vorgenommen wird, entstehen bei der Additionsmethode meist zwei stark unterschiedliche Ergebnisse. Die Deskriptoren stammen dabei aus der "Sprache der Indexierer", die nicht unbedingt mit der Sprache der Nutzer eines Information-Retrieval-Systems vergleichbar sein muß.
Die Vorteile und Nachteile beider Verfahren können sich durch Kombination möglicherweise kompensieren.
Hierbei ist keine verbindliche Dokumentationssprache vorgegeben. Dennoch können Nachschlagewerke als Orientierungshilfen verwendet werden.
Vorteil: "Meist kann eine schnelle und spezifische Inhaltskennzeichnung erreicht werden. Der Indexierer wird von der Umsetzung der im Dokument enthaltenen Begriffe in eine vorgegebene Dokumentationssprache entlastet."
Nachteil: Es können vielfältige Bezeichnungsprobleme auftreten. Das Synonymproblem besteht in der Schwierigkeit, aus einer Reihe von synonymen Bezeichnungen eine geeignete auszuwählen. Das Homonymproblem taucht dann auf, wenn ein Begriff der natürlichen Sprache mehrere verschiedene Sachverhalte kennzeichnet.
"Indexierung mit verbindlichen Vokabular ist die Indexierungsmethode, bei der die Deskriptoren oder Notationen verbindlich zur Benutzung vorgegeben sind (z.B. Thesaurus als verbindliches Indexierungsvokabular, Klassifikation)."
Vorteil: Es dürfen nur Begriffe verwendet werden, die klar definiert und abgegrenzt sind.
Nachteil: Die Übertragung der Begriffe des Textes in einen Deskriptor der Dokumentationssprache verlangsamt den Indexierungsvorgang. Um einen Informationsverlust durch das Fehlen eines geeigneten Deskriptors in der Dokumentationssprache zu vermeiden, muß der neue Begriff der Sprache hinzugefügt werden. Die Aktualisierung solcher Sprachen wirft jedoch vielfältige Probleme auf.
Es soll eine computerunterstützte Indexierung vorgenommen werden. Das Programm filtert dabei zunächst alle sogenannetn Stoppwörter heraus. Das sind Wörter, die garantiert keine Deskriptoren sind. Übrig bleiben die markierten Teile des Textes. Der Indexierer arbeitet im Beipiel mit einer Kombination aus Extraktions- und Additionsmethode.
"Durch mitgeschleppte Fremdkörper-Partikel (1) kann es in kupfernen (2) Wasserleitungsrohren (3) zu lokal scharf begrenzten Zerstörungszonen (4) kommen. Es wird der Einbau von Filtern (5) empfohlen, die vorzugsweise aus feinen Polyamidgeweben (6) bestehen."
Folgende Deskriptoren wurden aus dem Text ermittelt:
(1) (nicht rechercherelevant) (2) KUPFER (3) WASSERLEITUNGSROHR (4) LOKALE ZERSTÖRUNG (5) MECHANISCHES FILTER, SCHUTZVORRICHTUNG (6) POLYAMID, GEWEBE
Folgende Kriterien sollte man bei der Auswahl eines Deskriptors beachten:
Die Probleme sollen anhand von einigen Beispielen verdeutlicht werden:
Wortfolgen imprägniertes Holz; Holz, imprägniert(es) fremdsprachliche Deskriptoren Server Numerus Eltern; Bank, Bänke, Banken Wortarten Imprägnieren, Imprägnierung Abkürzungen UKW Zerlegung Eisen/Bahn Zusammenführung Wohnungsbau
DIN 31 623: Indexierung zur inhaltlichen Erschließung von Dokumenten (Teil 1 und 2), Beuth Verlag, 1988.