Heute möchte ich mich mal dem Begriff Stemming widmen. Dieser Artikel soll ein bisschen mit dem Begriffswirrwarr aufräumen der gerade um das Wort Stemming gebastelt wird.
Zunächst die Wikipedia, die ja bekanntlich meistens das Richtige kopiert alles weiß:
Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information-Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf Wiki und schrieb auf schreiben.
Kurz gesagt: Mittels Stemming kann eine Suchmaschine Beugungsformen und sämtliche anderen morphologische Änderungen (=Verwurstungen) an einem Wort dem korrekten Wortstamm zuordnen. Egal ob ich schreibe ich habe etwas aufgebaut, ich baute etwas auf oder etwas ist im Aufbau begriffen, wird eine schlaue Maschine erkennen, dass es um aufbauen bzw. den Aufbau geht.
Soweit erklärt das auch Malte, der in seinem Artikel, inspiriert von Sistrix das Stemming der Suchmaschinen auf den Teststand stellen will. Allerdings kümmert er sich um ein ganz anderes Phänomen, was eher am Rande mit Stemming zu tun hat:
Google hat nämlich ein ziemlich cleveres Feature entwickelt, welches bei Eingabe des Suchwortes anscheinend den Such-String (z.B. cbs) in seine Buchstaben (1:C,2:B,3:S) zerlegt und in den Serps nach einer Folge von Wörtern sucht, die in der richtigen Reihenfolge mit genau jenen Buchstaben beginnen (z.B. Cologne Business School aber auch Columbia Broadcasting System). Ich vermute, dass eingehende Links mit der Abkürzung als Anchor bzw. das Vorkommen der Abkürzung auf der Seite das Highlighting bekräftigen. Anders würde das Mapping von MS auf Microsoft oder PKV auf Private Krankenversicherung nicht klappen.
Aufgrund der Vielfalt der Beispiele, und der Tatsache, dass Google für eine Abkürzung durchaus mehrere Entsprechungen highlighten kann, ist die Aussage, dass “Google Abkürzungen kennt” wohl eher fraglich. Dazu wäre die Masse an erkannten Abkürzungen viel zu groß. Vielmehr müsste es heißen: “Google ERkennt abgekürzte Wortgruppen”. Ein Paar interessante Beispiele: WOTR, WWM.
Auf jeden Fall erhöht das ganz, so man nach Abkürzungen sucht die Qualität der Suchergebnisse. Allerdings gibt es das Feature im Moment bei Google und von Google belieferten wie web.de oder T-Online.
Schlagworte: Information-Retrieval, Stemming, Suchmaschinen
Hach ja, das erinnert mich an die Information Retrieval Vorlesung in der Uni.. eine der wenigen Veranstaltungen, in der man was SEO-relevantes gelernt hat
Auf alle Fälle ist das bei WOTR interessant zu entdecken – die ordnen tatsächlich “Webmasters on the Roof” zu, wie man in der Fettschrift sehen kann. Das ist ja nun wirklich kein allgemein bekannter Massenbegriff wie PKV oder Ähnliches.