Hauptseite, vorige Seite, nächste Seite

Soundex-Algorithmus

Der Soundex-Code für einen Begriff wird wie folgt berechnet:
  1. Entferne alle Vokale und die Konsonanten H, W, Y. Von aufeinanderfolgenden gleichen Zeichen bleibt nur eins erhalten. Das erste Zeichen bleibt erhalten.
  2. Entwickle den Soundex-Code für den ersten und die darauffolgenden maximal 3 Zeichen nach der Soundex-Tabelle.
    ZeichenSoundex-Code
    B F P V1
    C G J K Q S X Z2
    D T3
    L4
    M N5
    R6

    Beispiele:

    StringZwischenschrittSoundex-Code
    Stadtstdt2333
    stattst23
    Staatst23

    Der Soundex-Algorithmus basiert auf der Annahme, daß Worte, die ähnlich klingen, auch von der Semantik her ähnlich sind. Soundex reduziert jedes Wort auf einen eindeutigen maximal vier Zeichen langen Code.

    Soundex ist damit sehr leicht in relationalen Datenbanken implementierbar. Der Soundex-Code sollte für jeden Begriff in der Datenbank in einer Relation abgespeichert werden. Die Suche nach Begriffen, die ähnlich zu einem Suchwort sind, kann man über den invertierten Index der Soundex-Codes realisieren.

    Soundex liefert aufgrund seiner Einfachheit vergleichsweise schlechte Ergebnisse. Etwas besser arbeitet der Phonix-Algorithmus, der aber gegenüber Soundex etwas komplexer ist.