Die Vorwärtsverkettung der terminalen Begriffe bei der Recherche

Das semantische (wissensbasierte) Informationretrieval, kann als eine Suche entlang eines semantischen Graphen verstanden werden, bei der die Knoten die Begriffe und die Kanten die Relationen zwischen den Begriffen sind. Die Terminalbegriffe, d.h. die Lexikoneinträge des Systems bilden die äußersten Knoten des Begriffsnetzes, und sollen als Einstiegspunkte für jede Recherche dienen.

Wird vom Benutzer nicht ein Terminalbegriff als Einstiegspunkt gewählt, und dieser kann vom System nicht abgeleitet werden, d.h. durch Zusammensetzung der Terminalbegriffe, so muß die Benutzereingabe zerlegt werden und die atomaren Wörter der Eingabe hin überprüft werden, ob diese nun Terminalbegriffe des Systems sind. Bei einer Übereinstimmung kann dieses als ein Einstiegspunkt für die Recherche sein oder der Benutzer kann eine Änderung seiner Eingabe vornehmen.

In dem Beispiel "Die Rückwärtsverkettung der terminalen Begriffe bei der Recherche" wurde ein semantische Graph über die ersten drei Sätze gebildet.

Es soll nun angedeutet werden wie ein solcher Graph genutzt werden kann um geeigneten Dokumente ausfindig zu machen.

Angenommen wir suchen nach einem Dokument in dem eine "Verarbeitung der natürlichen Sprache mittels eines Computers" beschrieben wird.

Das System sollte nun folgendes leisten:

Es wird die Satzstruktur der Anfrage analysiert. Hierbei kann analog zum Indexierungsvorgang verfahren werden. Der Benutzer kann nun seine Frage bezüglich des Prädikatterminus oder des Subjektterminus beurteilen und die Relationen, die in seiner Anfrage zwischen den Begriffen gelten, entsprechend bestimmen. Angenommen der Benutzer wählt aus den 14 Relation, die in dem Beispiel "Die Rückwärtsverkettung der terminalen Begriffe bei der Recherche" definiert wurde, die EZ - Relation, weil er z.B. im Angebot für synonyme Relationen verarbeitet = erzeugt findet. Daher währe die " Indexierung des Dokuments Benutzeranfrage" EZ(Computer, ID(natürlichen, Sprache)). Natürlich ist diese Interpretation der Anfrage sehr grob, jedoch soll dieses hier auch nur zu Veranschaulichung des Verfahrens dienen. Die Definition hinreichender Relationen kann sich erst in der Praxis einstellen. Deshalb soll das System so dynamisch wie nur möglich implementiert werden.

Wenn nicht ein solches Dokument im System existiert, so hätte man schon nach einer Anfrage die Gewißheit, daß bisher kein Autor eine solche Relation gebildet hat, bzw. kein Indexierer eine solche Relation in einem Dokument bemerkt hat. Und der Benutzer könnte nun anfangen selbst ein Buch über dieses Thema zu schreiben.

Doch wir wollen uns noch weiter von anderen Autoren inspirieren lassen und lassen das System weiter arbeiten. Wir wollen in diesem Beispiel nun noch weiter annehme, daß im System mehr Relation existieren als diese im semantischen Graphen gegeben sind. Über diese Relationen könnte das System nun zwei Einstiegspunkte für das indexierte Dokument finden.

Über den Begriff Computer z.B. , könnte man auf dem Begriff Datenstruktur kommen, ( denn Computer taugen nur, wenn es Programme für Sie existieren und alle Pragramme haben eine Datenstruktur).

Über den Begriff natürliche Sprache könnte man über die entsprechende Relation auf den Begriff, Semantik natürlicher Sprache kommen. Denn eine solche Relation, wird bereits in dem Beispielsdokument gefordert, wenn man vorgibt, jeden Deskriptor eines Textes bezüglich eines Terminalbegriffes "abzusichern". Somit wäre, wären keine weiteren Dokumente im System vertreten, die eine solche Relation fordern, das Dokument schon ausfindig gemacht. Wollen wir jedoch über das Dokument mehr erfahren, um es z.B. von anderen Dokumenten besser zu differenzieren, oder nur uns eine geeignete Terminologie des Dokuments anzueignen, damit sowohl eine größere Inspiration als auch eine neue Motivation für eine andere Anfrage erwächst, so können wir durch die Wanderung entlang des Graphen uns weitere Begriffe und Beziehungen zwischen Ihnen ausgeben lassen. Mit den entsprechenden Verfahren könnte dann durch die Rücktransformation der Begriffs-Relationsnetze auf eine natürlichsprachliche Darstellung der Thematik des Dokuments kommen. Werden diese sehr groben "Sätze" nicht eindeutig verstanden so kann man, durch das Prinzip der Hyperlink auf das originale Textdokument, sich den Satz oder sogar einen gesamten Abschnitt ausgeben lassen, der eine solche Relation gefordert hat.


Die Rücktransformation der Relationen im Beispiel:

Die Rücktransformation kann in drei Schritten erfolgen.

1) Die schnelle Rücktransformation

Die Deskriptoren und kontrollierten Relationen werden in ein Satz zurücktransformiert.

Formalismus behandelt Semantik natürlicher Sprache.

2) Relation durch Synonym der Relation ersetzen

Formalismus beschreiben Semantik natürlicher Sprache

3) Der Satz aus dem Volltext wird referenziert in dem die Relation gültig ist.

Hier wird "zufällig" der erste Satz referenziert : Im Laufe der Zeit wurden eine ganze Reihe verschiedener Formalismen entwickelt, mit deren Hilfe die Semantik natürlicher Sprache beschrieben werden kann.

Meistes enthält der zweite Schritt schon die Kerninformation, so daß man auf das Lesen des ganzen Satzes aus Zeitgründen verzichten wird. Denn wen interessiert, daß " Im Laufe der Zeit" "eine ganze Reihe verschiedener Formalismen entwickelt" wurden. Wir sind nur an deren Existenz interessiert.

Die Ableitungskette:

Formalismus behandelt Semantik natürlicher Sprache.

Diskursrepräsentationstheorie ist Formalismus.

Diskursrepräsentationstheorie besitzt ( zweigeteilte ist (Diskursrepräsentationsstruktur ist Datenstruktur) ) besitzt (Diskursreferenten ist Referenten) und

((Nominalphrasen erzeugt Menge von Bedingungen) und

(Verbalphrasen erzeugt Menge von Bedingungen) ) besitzt (Diskursreferenten ist Referenten)

Wenn uns die Terminologie vertraut ist, so muß das System die Deskriptoren nicht bis zum Terminalbegriff ableiten, so das sich die "Sätze" besser verstehen lassen.

z.B. ergibt sich dann:

Diskursrepräsentationstheorie besitzt ( zweigeteilte ist Diskursrepräsentationsstruktur) besitzt Diskursreferenten und

(Nominalphrasen erzeugt Menge von Bedingungen) und

(Verbalphrasen erzeugt Menge von Bedingungen) besitzt Diskursreferenten.