Indexierung von Dokumenten

Kurzreferat im Rahmen des CSLIB 2000 -Projektes

gehalten am: 8. Juni 1995

Verfasser: Björn Voigt (Gruppe DELTA)

Im Rahmen dieses Kurzreferates sollen einige für das Bibliotheksprojekt CSLIB 2000 wichtige Aspekte der DIN 31 623 (Indexierung zur inhaltlichen Erschließung von Dokumenten) behandelt werden. Jedem Dokument werden bei der Indexierung ein oder mehrere Deskriptoren (Begriffe) zugeordnet.

Daneben gibt es noch die formale Erschließung von Dokumenten, bei der aus dem Dokument formale Merkmale (z.B. Autor, Verlag, Erscheinungsjahr) abgeleitet werden.

Inhalt:

  1. Allgemeines zum Indexieren
  2. Methoden der Indexierung
  3. Ermittlung der Deskriptoren
    1. Extraktionsmethode
    2. Additionsmethode
    3. Kombination von Extraktions- und Additionsmethode
  4. Dokumentationssprache
    1. Indexierung mit freiem Vokabular
    2. Indexierung mit verbindlichen Vokabular
  5. Beispiel
  6. Auswahl freier Deskriptoren
  7. Probleme bei der Formulierung von Deskriptoren
  8. Literatur

Allgemeines zum Indexieren

"Das Indexieren umfaßt mehrere Schritte:

a) Das Verstehen des Dokumenteninhalts,

b) Das Ermitteln der Begriffe, die den wesentlichen Inhalt des vorliegenden Dokuments wiedergeben

c) Je nach Indexierungsmethode

Methoden der Indexierung

Es gibt drei verschiedene Methoden der Indexierung:

Wie schon unter "Allgemeines zum Indexieren" erwähnt, gehört zur Indexierung das Verstehen des Textes. Das leisten heute Computersysteme nicht. Dieser Mangel kann aber durch die höhere Geschwindigkeit und Genauigkeit bei der computerunterstützter oder automatischer Indexierung teilweise wieder ausgeglichen werden.

Ermittlung der Deskriptoren

Extraktionsmethode

"Extraktionsmethode ist die Indexierungsmethode, nach der Deskriptoren dem Dokument entnommen werden."

Vorteil: "Schnelle und spezifische Erfassung aller Begriffe, die im Text des Dokuments hinreichend explizit ausgedrückt sind."

Nachteil: "Möglicher Verlust solcher Begriffe, die im Text des Dokuments nicht eindeutig ausgedrückt bzw. nur umschrieben sind oder nur indirekt aus dem Zusammenhang hervorgehen."

Additionsmethode

"Additionsmethode ist die Indexierungsmethode, nach der einem Dokument Deskriptoren zugeteilt werden, die im Dokument nicht verbal enthalten sein müssen. Zum Beispiel können Dokumente ohne Text nur nach der Additionsmethode indexiert werden."

Vorteil: Die Deskriptoren können frei gewählt werden.

Nachteile: Eine gute Indexierungskonsistenz (Ähnlichkeit der Indexierungsergebnisse mit verschiedenen Indexierungsverfahren) ist kaum zu erreichen. Wenn die Indexierung z.B. durch zwei verschiedene Indexierer vorgenommen wird, entstehen bei der Additionsmethode meist zwei stark unterschiedliche Ergebnisse. Die Deskriptoren stammen dabei aus der "Sprache der Indexierer", die nicht unbedingt mit der Sprache der Nutzer eines Information-Retrieval-Systems vergleichbar sein muß.

Kombination von Extraktions- und Additionsmethode

Die Vorteile und Nachteile beider Verfahren können sich durch Kombination möglicherweise kompensieren.

Dokumentationssprache

Indexierung mit freiem Vokabular

Hierbei ist keine verbindliche Dokumentationssprache vorgegeben. Dennoch können Nachschlagewerke als Orientierungshilfen verwendet werden.

Vorteil: "Meist kann eine schnelle und spezifische Inhaltskennzeichnung erreicht werden. Der Indexierer wird von der Umsetzung der im Dokument enthaltenen Begriffe in eine vorgegebene Dokumentationssprache entlastet."

Nachteil: Es können vielfältige Bezeichnungsprobleme auftreten. Das Synonymproblem besteht in der Schwierigkeit, aus einer Reihe von synonymen Bezeichnungen eine geeignete auszuwählen. Das Homonymproblem taucht dann auf, wenn ein Begriff der natürlichen Sprache mehrere verschiedene Sachverhalte kennzeichnet.

Indexierung mit verbindlichen Vokabular

"Indexierung mit verbindlichen Vokabular ist die Indexierungsmethode, bei der die Deskriptoren oder Notationen verbindlich zur Benutzung vorgegeben sind (z.B. Thesaurus als verbindliches Indexierungsvokabular, Klassifikation)."

Vorteil: Es dürfen nur Begriffe verwendet werden, die klar definiert und abgegrenzt sind.

Nachteil: Die Übertragung der Begriffe des Textes in einen Deskriptor der Dokumentationssprache verlangsamt den Indexierungsvorgang. Um einen Informationsverlust durch das Fehlen eines geeigneten Deskriptors in der Dokumentationssprache zu vermeiden, muß der neue Begriff der Sprache hinzugefügt werden. Die Aktualisierung solcher Sprachen wirft jedoch vielfältige Probleme auf.

Beispiel:

Es soll eine computerunterstützte Indexierung vorgenommen werden. Das Programm filtert dabei zunächst alle sogenannetn Stoppwörter heraus. Das sind Wörter, die garantiert keine Deskriptoren sind. Übrig bleiben die markierten Teile des Textes. Der Indexierer arbeitet im Beipiel mit einer Kombination aus Extraktions- und Additionsmethode.

"Durch mitgeschleppte Fremdkörper-Partikel (1) kann es in kupfernen (2) Wasserleitungsrohren (3) zu lokal scharf begrenzten Zerstörungszonen (4) kommen. Es wird der Einbau von Filtern (5) empfohlen, die vorzugsweise aus feinen Polyamidgeweben (6) bestehen."

Folgende Deskriptoren wurden aus dem Text ermittelt:

(1)    (nicht rechercherelevant)                       
(2)    KUPFER                                          
(3)    WASSERLEITUNGSROHR                              
(4)    LOKALE ZERSTÖRUNG                               
(5)    MECHANISCHES FILTER, SCHUTZVORRICHTUNG          
(6)    POLYAMID, GEWEBE                                

Auswahl freier Deskriptoren

Folgende Kriterien sollte man bei der Auswahl eines Deskriptors beachten:

Probleme bei der Formulierung von Deskriptoren

Die Probleme sollen anhand von einigen Beispielen verdeutlicht werden:

Wortfolgen                          imprägniertes Holz; Holz, imprägniert(es)    
fremdsprachliche Deskriptoren       Server                                      
Numerus                             Eltern; Bank, Bänke, Banken                 
Wortarten                           Imprägnieren, Imprägnierung                 
Abkürzungen                         UKW                                         
Zerlegung                           Eisen/Bahn                                  
Zusammenführung                     Wohnungsbau                                 

Literatur

DIN 31 623: Indexierung zur inhaltlichen Erschließung von Dokumenten (Teil 1 und 2), Beuth Verlag, 1988.


Projekt: CSLIB2000 Gruppe: DELTA