Soundex-Algorithmus

Soundex-AlgorithmusDer Soundex-Code für einen Begriff wird wie folgt berechnet: Entferne alle Vokale und die Konsonanten H, W, Y. Von aufeinanderfolgenden gleichen Zeichen bleibt nur eins erhalten. Das erste Zeichen bleibt erhalten. Entwickle den Soundex-Code für den ersten und die darauffolgenden maximal 3 Zeichen nach der Soundex-Tabelle. Zeichen Soundex-Code B F P V 1 C G J K Q S X Z 2 D T 3 L 4 M N 5 R 6 Beispiele:String Zwischenschritt Soundex-Code Stadt stdt 2333 statt st 23 Staat st 23 Der Soundex-Algorithmus basiert auf der Annahme, daß Worte, die ähnlich klingen, auch von der Semantik her ähnlich sind. Soundex reduziert jedes Wort auf einen eindeutigen maximal vier Zeichen langen Code.Soundex ist damit sehr leicht in relationalen Datenbanken implementierbar. Der Soundex-Code sollte für jeden Begriff in der Datenbank in einer Relation abgespeichert werden. Die Suche nach Begriffen, die ähnlich zu einem Suchwort sind, kann man über den invertierten Index der Soundex-Codes realisieren.Soundex liefert aufgrund seiner Einfachheit vergleichsweise schlechte Ergebnisse. Etwas besser arbeitet der Phonix-Algorithmus, der aber gegenüber Soundex etwas komplexer ist.