Artikel-Schlagworte: „Suchmaschinen“

What is “Stemming” … (And what’s not…)

Donnerstag, 5. Juli 2007

Heute möchte ich mich mal dem Begriff Stemming widmen. Dieser Artikel soll ein bisschen mit dem Begriffswirrwarr aufräumen der gerade um das Wort Stemming gebastelt wird.

Zunächst die Wikipedia, die ja bekanntlich meistens das Richtige kopiert alles weiß:

Als Stemming (Grundformenreduktion, Normalformenreduktion) bezeichnet man im Information-Retrieval ein Verfahren, mit dem verschiedene morphologische Varianten eines Wortes auf ihren gemeinsamen Wortstamm zurückgeführt werden, z. B. Wikis auf Wiki und schrieb auf schreiben.

Kurz gesagt: Mittels Stemming kann eine Suchmaschine Beugungsformen und sämtliche anderen morphologische Änderungen (=Verwurstungen) an einem Wort dem korrekten Wortstamm zuordnen. Egal ob ich schreibe ich habe etwas aufgebaut, ich baute etwas auf oder etwas ist im Aufbau begriffen, wird eine schlaue Maschine erkennen, dass es um aufbauen bzw. den Aufbau geht.

Soweit erklärt das auch Malte, der in seinem Artikel, inspiriert von Sistrix das Stemming der Suchmaschinen auf den Teststand stellen will. Allerdings kümmert er sich um ein ganz anderes Phänomen, was eher am Rande mit Stemming zu tun hat:

Google hat nämlich ein ziemlich cleveres Feature entwickelt, welches bei Eingabe des Suchwortes anscheinend den Such-String (z.B. cbs) in seine Buchstaben (1:C,2:B,3:S) zerlegt und in den Serps nach einer Folge von Wörtern sucht, die in der richtigen Reihenfolge mit genau jenen Buchstaben beginnen (z.B. Cologne Business School aber auch Columbia Broadcasting System). Ich vermute, dass eingehende Links mit der Abkürzung als Anchor bzw. das Vorkommen der Abkürzung auf der Seite das Highlighting bekräftigen. Anders würde das Mapping von MS auf Microsoft oder PKV auf Private Krankenversicherung nicht klappen.
Aufgrund der Vielfalt der Beispiele, und der Tatsache, dass Google für eine Abkürzung durchaus mehrere Entsprechungen highlighten kann, ist die Aussage, dass “Google Abkürzungen kennt” wohl eher fraglich. Dazu wäre die Masse an erkannten Abkürzungen viel zu groß. Vielmehr müsste es heißen: “Google ERkennt abgekürzte Wortgruppen”. Ein Paar interessante Beispiele: WOTR, WWM.

Auf jeden Fall erhöht das ganz, so man nach Abkürzungen sucht die Qualität der Suchergebnisse. Allerdings gibt es das Feature im Moment bei Google und von Google belieferten wie web.de oder T-Online.

Amazon speckt A9.com ab – Rückzug?

Donnerstag, 5. Oktober 2006

Der größte Vesandhändler der Welt hatte bisher einiges an Energie in seine eigene Meta-Suchmaschine A9.com verschwendet gesteckt. Der Dienst, der inzwischen die Suchergebnisse von MSN/Live statt von Google bezieht wird nun weiter verschlankert. Die Features Karten-Suche und Suchverlauf wird es zukünftig nicht mehr geben. Golem deutet darin den schleichenden oder besser galoppierenden Rückzug aus dem SuMa-Geschäft.

Natürlich könnte es auch sein, dass Amazon die Suchmaschine verschlanken will, weil man darin die Vorteile der Konkurrenz sieht. Insgesamt scheint die erste Variante aber wahrscheinlicher.

Auswertung der AOL Suchdaten

Freitag, 11. August 2006

Mit seiner Analyse der AOL-Daten hat sich SISTRIX wirklich viel Mühe gemacht und ein paar Links verdient. Wirklich sehr gut und eine schöne Referenz für die Zukunft.

Danke für die gute Arbeit.