Suche mit Ähnlichkeitsmaßen in Datenbanken

Warum Suche mit Ähnlichkeitsmaßen ?Die Suche mit Ähnlichkeitsmaßen erhöht die Retrievalqualität bei Tippfehlern (Groß- und Kleinschreibung, Buchstabendreher, … ), unterschiedlichen Schreibweisen z.B. Fantasie, Phantasie, Zeichensatzdifferenzen z.B. Müller, Mueller, Suffixdifferenzen z.B. Lehre, Lehrer.Durch Ähnlichkeitsmaße können aber auch Fehlklassifikationen entstehen.Beispiele: gift – Gift , statt – Stadt – Staat

Soundex-Algorithmus

Soundex-AlgorithmusDer Soundex-Code für einen Begriff wird wie folgt berechnet: Entferne alle Vokale und die Konsonanten H, W, Y. Von aufeinanderfolgenden gleichen Zeichen bleibt nur eins erhalten. Das erste Zeichen bleibt erhalten. Entwickle den Soundex-Code für den ersten und die darauffolgenden maximal 3 Zeichen nach der Soundex-Tabelle. Zeichen Soundex-Code B F P V 1 C G Read more about Soundex-Algorithmus[…]

String-Ähnlichkeit (plain string similarity)

String-Ähnlichkeit (plain string similarity)Dieses Ähnlichkeitsmaß basiert auf n-grams. n-grams sind Substrings der Länge n eines gegebenen Strings. Normalerweise werden digrams (n=2) und trigrams (n=3) benutzt.Die String-Ähnlichkeit ist die Anzahl der gemeinsamen n-grams durch die Anzahl der auftretenden n-grams zweier Strings s1 und s2.Für die Suche ist s1 der Suchbegriff und s2 ein Begriff in der Read more about String-Ähnlichkeit (plain string similarity)[…]

Damerau-Levenstein-Maß

Damerau-Levenstein-MaßDas Damerau-Levenstein-Maß ist ein Ähnlichkeitsmaß, welches sozusagen die Tippfehler im Suchbegriff gegenüber den vorhandenen Begriffen in der Datenbank zählt. Es berechnet die minimale Anzahl von Operationen, um den String s in den String t zu überführen.Die erlaubten Operationen dabei sind Einfügen, Löschen, Ersetzen von einem Zeichen oder Vertauschen zweier benachbarter Zeichen. Das Damerau-Levenstein-Maß(s,t)=f(n,m)n=Länge von s, Read more about Damerau-Levenstein-Maß[…]

Simons Online Schachduell – Nachtrag

Die Index-Erstellung über den Schachspielen der MySQL-Tabelle war ein enormer Performance-Boost. Jetzt läuft alles stabil und doch gibt es wieder etwas im BETA-TEST: Die Spieler haben sich oft gefragt wie die Spielstärke berechnet wird bzw. finden die Berechnung ungerecht. Daher jetzt neu: Das ELO-System wurde von mir implementiert. Dabei handelt es sich um das vom Read more about Simons Online Schachduell – Nachtrag[…]