Weiter: Kodierungssystem Zurück: Einleitung Hoch: Entwicklung eines Kodierungssystems für

Problembestimmung

Das Problem besteht darin, ein Kodierungsschema zu finden, welches folgende Eigenschaften aufweist:

Es beschränkt sich auf die Verwendung von 7 bit Zeichen, wobei nur ,,printable character`` verwendet werden, also keine Steuerzeichen. Konkret bedeutet dies eine Beschränkung auf den Codebereich von 32-126, entsprechend ISO-646/ASCII. Hiermit werden keine besonderen Anforderungen an speichernde und verarbeitende Systeme gestellt.
Unsicherheit bzgl. der Kodierung, welche sich durch unterschiedliche Qualität der ins System eingebrachten Daten ergeben (wurde z.B. ,,ae`` statt ,,ä`` gewählt oder ,,a`` statt ,,à``), sind relativ schematisch, z.B. durch reguläre Ausdrücke, zu reduzieren.
Eine Sortierung auf der Ersatzdarstellung liefert, wenn auch keine korrekte, so zumindest eine ,,vernünftige`` Anordnung der Wörter, ohne daß zuerst eine Sortierwert-Repräsentation hergestellt werden muß. Als ,,vernünftig`` soll hierbei bereits gelten, wenn ein ,,ä`` immerhin noch vor einem ,,b`` erscheint, aber nicht erst nach einem ,,z``. Diese Bedingung kann den Implementierungsaufwand für die Aufbereitung von Daten reduzieren.

Abgrenzung

Prinzipiell macht es für ein im deutschen Sprachraum angesiedeltes System keinen Sinn, Zeichensysteme zuzulassen, welche nicht auf der lateinischen Schrift basieren. Für wichtige, nicht-lateinische Schriften sollten stets Transkriptions- oder Transliterationssysteme zu Anwendung kommen (siehe z.B. [DGKM73, S.787,]).

Die hiermit verbundene Transkriptions- bzw. Transliterationsunsicherheit ist natürlich durch ein Kodierungssystem allein nicht behebbar. Hierzu können, insbesondere bei Personennamen, nur entsprechende Verweistechniken zur Anwendung kommen, welche in Standards für die alphabetische Katalogisierung auch vorgesehen sind (z.B. [Mün92, S.75,]).

Auch prinzipiell nicht aufhebbar sind Transkriptions- bzw. Transliterationsunterschiede in unterschiedlichen Sprachen. Wenn der selbe (z.B. russische) Name im Amerikanischen anders transkriptiert bzw. transliteralisiert wird als im Deutschen. Hier bleibt zunächts auch nur die Verweistechnik.

Beim Aufbau von Thesaurie oder Volltextindexen könnte derartigen Mehrdeutigkeiten prinzipiell durch Synonymeinträge begegnet werden. Allerdings wären hier für alle denkbaren Varianten Einträge vorzusehen. Außerdem sollte eine der eingespeicherten Formen eine Form sein, welche den geringsten Informationsverlust aufweist, was einen nicht von einer Darstellung dieser Formen entbindet (z.B. sollten aus der Datenbank erzeugte Literaturverzeichnisse die korrekten Schreibweisen enthalten: Umlaute, Akzente, usw.). Eine geeignete Kodierung könnte, in Verbindung mit regulären Ausdrücken bei der Anfrage, einen Teil dieser Einträge überflüssig machen und damit bereits auf lexikalischer Ebene für Voraussehbarkeit sorgen (z.B.: ein ,,ä`` ist entweder als ,,a`` oder als ,,ae`` oder als ,,ä`` kodiert).

Es wurden bereits Methoden entwickelt, welche sich mit der Ähnlichkeit von Zeichenketten befassen (siehe [Fal85] für einen Überblick und [PPF95] für einen Vergleich der Retrieval-Qualität). Diese Verfahren sollen vorwiegend der Behandlung von Problemen im Zusammenhang von Schreibfehlern und der Suche nach phonetisch verwandten Wörtern dienen. Eine explizite Anwendung dieser Methoden im Zusammenhang mit internationalen Kodierungen und Mehrsprachigkeit ist mir nicht bekannt. Das Problem der ,,Identifikation von Namen`` wird weiterhin als offen angesehen [PPF95].

Die erwähnten Methoden erfordern den Aufbau spezieller Indexe, welche dann jeweils Identität oder Ähnlichkeit nach einem festen Schema realisieren. Neben der damit verbundenen Unflexibilität weisen sie also auch Redundanz auf. Die hier beschriebene Methodik der Verwendung regulärer Ausdrücke bei der Anfrage ist hingegen prinzipiell auf den unveränderten Originaldaten (in der korrekten oder genauesten Schreibweise) möglich. Die hier behandelte Methodik bezieht sich auf Probleme, welche im Zusammenhang mit der Kodierung und Sortierung dieser Daten stehen und weniger im Zusammenhang mit einer umfassenderen Steigerung des Recall auf lexikalischer Ebene. Sie kann deshalb als Ergänzung der erwähnten Methoden verstanden werden, wobei allerdings nicht untersucht wird, ob die Ansätze sinnvoll integrierbar sind.

Darstellungsmittel zur Hervorhebung oder speziellen Formatierung sollen keine Berücksichtigung finden, da diese Informationen aus zum Retrieval bestimmten Daten entfernt sein sollten. Gliederungsinformationen, wie sie z.B. für die Volltextrecherche sinnvoll sein können [Rei94], werden hier ebenfalls nicht betrachtet, obwohl eine Integration nicht ausgeschlossen werden sollte.

Bestehende Kodierungsysteme

Ein Variante, welche versuchen würde, immer die (landesübliche) Originalschreibweise zu speichern (was ja gerade im Regelfall nicht möglich sein wird), würde es erforderlich machen, potentiell jede Schrift kodieren zu können. Ansätze, welche sich mit dem letzteren Problem befassen, sind z.B. Unicode bzw. ISO-10646 (Überblick in [Beh92]). Davon abgesehen, daß dies tatsächlich die aufwendigste Lösung wäre, würde sie erstaunlicherweise keine der eingangs gemachten Bedingungen erfüllen.

Eine weitere Alternative bestünde in der Beschränkung auf einen Zeichensatz, welcher auch tatsächlich von einem bestehenden System unterstützt werden kann (d.h. bei Anzeige und Eingabe). Für Unix bzw. das darauf aufsetzende X-Windowssystem wäre das z.B. der ISO 8859-Latin1 Zeichensatz. Diese Beschränkung kann jedoch als etwas willkürlich erscheinen, wenn man sie mit den Standards anderer Systeme vergleicht. Wieder werden jedoch keine der eingangs gemachten Bedingungen erfüllt.

Als weiterer Ansatzpunkt könnten die Möglichkeiten eines Textverarbeitungssystems dienen. Im Bereich der Informatik und Mathematik ist hier, aufgrund der großen Anzahl von Publikationen, die mit ihm erstellt werden, insbesondere das Textformatiersystem LaTeX zu nennen [Lam86]. Die Bedeutung dieses Systems für das CSLIB2000 Bibliothekssystem wird noch dadurch erhöht, daß es ein Textformat für die Datensätze einer Literaturdatenbank definiert, welche durch ein spezielles Programm (BibTeX, [Lam86,Pat88]) ausgelesen und zur Zitierung in einem Dokument formatiert werden können. Inzwischen gibt es bereits Literaturserver, welche Anfrageergebnisse in diesem Textformat liefern [Ach95]. Die Kodierung von LaTeX erfüllt zumindest bereits die Bedingung, daß sie mit 7 bit auskommt.

Im Rest des Dokuments wird nun ein Kondierungsschema vorgeschlagen und diskutiert, welches alle drei eingangs gemachten Bedingungen erfüllt.

Weiter: Kodierungssystem Zurück: Einleitung Hoch: Entwicklung eines Kodierungssystems für

Holger Westphal
Tue Sep 26 15:36:15 MET 1995