Zeichen | Soundex-Code |
---|---|
B F P V | 1 |
C G J K Q S X Z | 2 |
D T | 3 |
L | 4 |
M N | 5 |
R | 6 |
String | Zwischenschritt | Soundex-Code |
---|---|---|
Stadt | stdt | 2333 |
statt | st | 23 |
Staat | st | 23 |
Der Soundex-Algorithmus basiert auf der Annahme, daß Worte, die ähnlich klingen, auch von der Semantik her ähnlich sind. Soundex reduziert jedes Wort auf einen eindeutigen maximal vier Zeichen langen Code.
Soundex ist damit sehr leicht in relationalen Datenbanken implementierbar. Der Soundex-Code sollte für jeden Begriff in der Datenbank in einer Relation abgespeichert werden. Die Suche nach Begriffen, die ähnlich zu einem Suchwort sind, kann man über den invertierten Index der Soundex-Codes realisieren.
Soundex liefert aufgrund seiner Einfachheit vergleichsweise schlechte Ergebnisse. Etwas besser arbeitet der Phonix-Algorithmus, der aber gegenüber Soundex etwas komplexer ist.