Information Retrieval

Allgemeines: Das Information Retrieval ist das gezielte Suchen und Wiederauffinden von Dokumentationseinheiten zu einem relevanten Sachverhalt. Der relevante Sachverhalt wird als verbale oder formale Suchfrage bezeichnet. Für die Recherche muß der relevante Sachverhalt beschrieben werden, dieses geschieht durch Deskriptoren, so daß hierdurch eine formale Suchanfrage gebildet wird. Mit der formalen Suchfrage wird der Deskriptorspeicher gezielt auch relevante Dokumente untersuch, und als Ergebnis erhält man dann Dokumentennummern, die das Dokument im Dokumentenspeicher ausfindig machen.

Definition: ISO 2382/1-1984: action, methods, and procedures for recovering stored data to provide information on a given subject.

  • "action" etc.: Textindexierung, Anfrageanalyse und Relevanzanalyse
  • "data": Texte, Tabellen, Diagramme, Bilder, Daten, Sprache, Video... Hypermedia: Texte und Teile von Texten vs. Dokumente
  • "information": Relevantes Wissen wird gesucht, das Problemlösung, Sachkenntnis, Studium, Innovation usw. unterstützen.
  • "subject": ein Thema (Begriff), keine Zeichenkette

  • Indexierung nach DIN 31623 (Indexierung zur inhaltlichen Erschießung von Dokumenten)

    Dokumentationssprache

    Eine Dokumentationssprache ist eine Menge von Ausdrücken, die nach bestimmten Regeln zur Beschreibung von dokumentarischen Bezugseinheiten zum Zwecke der gezielten Wiederauffindung (Retrieval) dienen. Dokumentationssprachen sind z.B. Schlagwortsysteme, Thesauri und Klassifikationen. Sie enthalten Bezeichnungen aus natürlichen und/oder künstlichen Sprachen.

    Indexierung

    Indexierung ist die Gesamtheit der Methoden und Verfahren sowie deren Anwendungen, die zur Zuordnung von Deskriptionen oder Notationen zu dokumentarischen Bezugseinheiten führen mit dem Ziel der inhaltlichen Erschließung sowie der gezielten Wiederauffindung.

    Indexieren

    Indexieren ist das Zuordnen von Deskriptoren und Notationen zu einer dokumentarischen Bezugseinheit zur Wiedergabe der einzelnen darin enthaltenen Sachverhalte. Es wird bestimmt durch Indexierungsmethoden und -verfahren.

    Grundlage der Dokumentation ist die Information

    Information

    Die Dokumentation ist danach das Sammeln, Ordnen und Nutzbarmachen bzw. gezielte Wiederauffindung von Dokumenten aller Art (Dokumentationsobjekten) ohne Rücksicht darauf, ob die dazugeörigen Schriftstücke verfügbar sind.

    Differenzierung der Dokumentation:

    1. direkte Dokumentation: Vollständige Information über das Dokument wird gespeichert (Online: in einem Dokument Retrieval System)
    2. Indirekte Dokumentation: Beschreibung (Charakterisierung) des Dokuments mittels Deskriptoren liegt vor (Dokumentenhinweissystem oder Dokumentennachweissystem). Auf Dokumente wird verwiesen.
    3. Referral: Hinweis auf Dokumente von Institutionen (Einordnung (Klassifikation) des Objekts liegt vor)

    Informationssysteme ist die Repräsentation von Wissen eines Wissensbereichs auf einer Maschine (Computer) Beispiele für Informationssysteme: Dokumentationssyteme, Datenbanken, Frage-Antwort-Systeme, Expertensysteme und jede andere Software. Dokumentaionssystem ist ein Informationssystem zur Verbreitung des Wissens über Dokumente und ihren Inhalt, wobei der Autor des Dokuments wie der Abnehmer des Wissens ausdrücklich in das System mit einbezogen werden. Ein Dokument ist eine Informationsobjekt z.B. Buch ,CD, Video ect. Ein Domentenbestand oder Dokumentenbank ist die Menge aller Dokumente.

    Verschiedenen Modellen von Suchsystemen im Dokumentationssystem:

    Das Boolesche System liefert eine ungeordnete Teilmenge des gesamten Dokumentenbestandes als Antwort. Das Anordnungssystem liefert eine nach einem bestimmten Kriterium vollst„ndige Anordnung des gesammten Dokumentenbestandes zu einer Anfrage. Unterschiedliche Anfragesprachen

    Die logisch-deskriptororientierte Anfragesprache besteht nur aus den logischen Symbolen und inhaltlichen Deskriptoren als deskriptive Sprachmittel. Inhaltliche Deskriptoren geben für jedes Dokument seinen Inhalt in verkürzter Form wieder. Die Deskriptorvergabe für jedes Dokument wird Indexieren genannt und wird entweder manuell von Menschen oder automatisch vom Rechner ausgeführt. Ein Thesaurus, als Hilfsmittel für das Indexieren, enthält die Menge aller Deskriptoren eines oder mehrerer Dokumentenbestände für einen begrenzten Wissensbereich. Deskriptoren werden benutzt um die Vielfalt der natürlichen Sprache zu begrenzen und um Mehrdeutigkeiten auszuschließen


    Literatur/WWW

    Introduction to Modern Information Retrieval
    Gerard Salton
    Michael J. McGill
    McGraw-Hill Book Company 1983

    Anfragesprachen für Informationssysteme
    Ulrike Reiner
    Deutsche Gesellschaft für Dokumentation 1991

    Zur Theorie von Dokumentationssystemen
    B.C. Vickery
    Verlag Dokumentation München-Pullach und Berlin 1970

    Information und Dokumentation
    Rolf G. Henzler
    Springer-Verlag Berlin Heidelberg 1992

    Dokumentations- und Ordnungslehre
    Wilhelm Gaus
    Springer-Verlag Berlin Heidelberg New York Tokyo 1983


    Projekt: CSLIB2000 Gruppe: DELTA