|
|
|
Sicher haben Sie schon den einen oder anderen Begriff irgendwo aufgeschnappt: … Latente semantische Analyse, Porter-Stemmer Algorithmus, Computerlinguistik, Levenshtein Distanz, Hamming-Distanz , Hamming-Gewicht, Kölner Phonetik, Verfahren, Soundex / Metaphone Algorithmus, Sequenzalignment, Data-Mining und Mustererkennung … Es handelt sich um Algorithmen und Konzepte, die zur Erkennung ähnlicher Wörter heran gezogen werden können und werden.
Einige von ihnen werden besonders gern genutzt. Die Levenshtein Distanz und der Soundex Algorithmus. Sie sind Bestandteil der Programmiersprache PHP und liegen direkt als Befehl vor. Soundex wurde schon sehr früh als Standardbefehl in Oracle Datenbanken integriert. Dadurch ist es natürlich sehr einfach, mehrere Wörter auf Ähnlichkeit zu überprüfen ohne selber diese Algorithmen zu codieren. Doch die überprüfbare Ähnlichkeit mittels Levenstein und Soundex bezieht sich jeweils nur auf einen kleinen Raum möglicher Variationen. Soundex (ein phonetischer Algorithmus) ermittelt lediglich dem Klang nach ähnliche Übereinstimmungen des englischen Sprachraumes. So liefern z.B. die beiden völlig unterschiedlichen Wörter „Britney „ und „bewährten“ den identischen Code „B635“, was für eine 100%ige Übereinstimmung steht. Um dieses Problem zu umgehen, wurde die sog. „Kölner Phonetik“ entwickelt, eine „deutsche“ Variante des Soundex Algorithmus. Die grundlegende Unzulänglichkeit bleibt jedoch bestehen, sobald ein Text deutsche als auch englische Begriffe enthält. Der Levenstein Algorithmus ermittelt die minimale Anzahl von Operationen, die nötig ist um eine Zeichenkette (Wort) in eine andere zu wandeln. Die Relevanz sinkt mit dem Unterschied der Längen beider Strings. Levenstein kann Fallweise zur Unterscheidung von Plural/ Singular Aufkommen eingesetzt werden oder bei Buchstabendrehern. Im obigen Beispiel („Britney „ und „bewährten“) würde Soundex einen perfekten Treffer landen, Levenstein diesen, und das zu recht, völlig negieren. Auf der anderen Seite sind Konstellationen alltäglich, in denen Levenstein durch Soundex korrigiert werden muss. Damit nicht genug: Überwiegend, vor allem in großen Datenmengen, versagen beide im Doppelpack. Es müssen weitere Algorithmen zur Relevanzbewertung integriert und vor allem „gewichtet“ werden.
|
|
Letzte Aktualisierung ( Mittwoch, 4. April 2007 )
|
|
|
related Keywords
Who's Online
Zufallsbild
Keine Bilder
Livesuche Fanshop
1 Tina tuner 2 depech mod 3 evanter 4 penuts shirt 5 kinski 6 spil igel 7 antibel halband 8 evanter hollyfild 9 vanter hollfild
|