Partnerlinks Startseite

Lyrics, Songtexte, CD DVD Fan Ticker
www.fan-ticker.com
Geballte Ladung - alles über Deinen Star -
Flyer, Visitenkarten, Poster, Druck Ratgeber 'Druck'
www.druck-anbieter.info
Sie wollen etwas drucken oder drucken lassen? ...
Yachtcharter Ostsee Grünke Yacht Vermietung The Yacht - Charter Infos
www.the-yacht.info
Yachtcharter - Ostsee Angebote und weltweite Informationen. Das Portal für Einsteiger
Zitate, Reden, Musterreden und witze Zitate, Witze, Reden ...
www.gutzitiert.de
Eine vorbildlich katalogisierte Sammlung von Zitaten, Musterreden und Witzen. Der Standard ...

Registrierung aufheben

Click here to unregister
unscharfe Suche
Wettbewerbsvorteile arrow Technologie
Suchtechnologie

Sicher haben Sie schon den einen oder anderen Begriff irgendwo aufgeschnappt:

… Latente semantische Analyse, Porter-Stemmer Algorithmus, Computerlinguistik, Levenshtein Distanz, Hamming-Distanz , Hamming-Gewicht, Kölner Phonetik, Verfahren, Soundex / Metaphone Algorithmus, Sequenzalignment, Data-Mining und  Mustererkennung …

Es handelt sich um Algorithmen und Konzepte, die zur Erkennung ähnlicher Wörter heran gezogen werden können und werden.

Einige von ihnen werden besonders gern genutzt. Die Levenshtein Distanz und der Soundex Algorithmus. Sie sind Bestandteil der Programmiersprache PHP und liegen direkt als Befehl vor. Soundex wurde schon sehr früh als Standardbefehl in Oracle Datenbanken integriert. Dadurch ist es natürlich sehr einfach, mehrere Wörter auf Ähnlichkeit zu überprüfen ohne selber diese Algorithmen zu codieren.

Doch die überprüfbare Ähnlichkeit mittels Levenstein und Soundex bezieht sich jeweils nur auf einen kleinen Raum möglicher Variationen. Soundex (ein phonetischer Algorithmus) ermittelt lediglich dem Klang nach ähnliche Übereinstimmungen des englischen Sprachraumes. So liefern z.B. die beiden völlig unterschiedlichen Wörter „Britney „ und „bewährten“ den identischen Code „B635“, was für eine 100%ige Übereinstimmung steht.

Um dieses Problem zu umgehen, wurde die sog.  „Kölner Phonetik“ entwickelt, eine „deutsche“ Variante des Soundex Algorithmus. Die grundlegende Unzulänglichkeit bleibt jedoch bestehen, sobald ein Text deutsche als auch englische Begriffe enthält.

Der Levenstein Algorithmus ermittelt die minimale Anzahl von Operationen, die nötig ist um eine Zeichenkette (Wort) in eine andere zu wandeln. Die Relevanz sinkt mit dem Unterschied der Längen beider Strings. Levenstein kann Fallweise zur Unterscheidung von Plural/ Singular Aufkommen eingesetzt werden oder bei Buchstabendrehern.

Im obigen Beispiel („Britney „ und „bewährten“) würde Soundex einen perfekten Treffer landen, Levenstein diesen, und das zu recht, völlig negieren. Auf der anderen Seite sind Konstellationen alltäglich, in denen Levenstein durch Soundex korrigiert werden muss.

Damit nicht genug: Überwiegend, vor allem in  großen Datenmengen, versagen beide im Doppelpack. Es müssen weitere Algorithmen zur Relevanzbewertung integriert und vor allem „gewichtet“ werden.

Letzte Aktualisierung ( Mittwoch, 4. April 2007 )
 
< zurück   weiter >

Umfrage

Wie sinnvoll wäre eine intelligente Suche für Dich?
 

related Keywords

Who's Online

Zufallsbild

Keine Bilder

Livesuche Fanshop

1 Tina tuner
2 depech mod
3 evanter
4 penuts shirt
5 kinski
6 spil igel
7 antibel halband
8 evanter hollyfild
9 vanter hollfild
© 2009
Joomla! is Free Software released under the GNU/GPL License.