Der Wortraum – Suchmaschinenrelevanz High-End

Wir erläutern das Prinzip Wortraum und die damit verbundene Textanalyse. Hierbei handelt es sich tatsächlich um eine Darstellung von Sprache im Raum. Entfernungen in diesem „Raum“ lassen auf die Ähnlichkeit zweier Worte schließen. Auch für die Suchmaschinenrelevanz ist der Wortraum von Bedeutung.

Anwendung für Suchmaschinenrelevanz und Textanalyse

Das Wortraummodell wird vorwiegend zur Textanalyse und zur Erhebung von Suchmaschinenrelevanz  verwendet. Das ist für Texter und natürlich auch Suchmaschinenoptimierer von Bedeutung.  Suchmaschinenanbieter nutzen das Wortraummodell auf unterschiedlichste Art und Weise zur Textanalyse.

Entstehung der Theorie Wortraum

Miller & Charles kommen 1991 zu folgender These: „The semantic similarity [between words] is a function of the contexts in which they are used.”  – die Ähnlichkeit zweier Wörter geht also aus dem Kontext hervor, in dem sie benutzt werden. Im Bezug auf Textanalyse und Suchmaschinenrelevanz spielt das eine große Rolle. Nach eben diesem Prinzip wird der Wortraum ermittelt.

Umsetzung der Textanalyse

Aus der Aussage von Miller & Charles kann man weiter ableiten. Die Ähnlichkeit zweier Wörter lässt sich feststellen sofern deren Kontext vergleichbar dargestellt wird. Die Darstellung ist hier der Wortraum. In den folgenden Schritten erläutern wir grob, wie der Kontext eines Wortes in der Textanalyse bestimmt wird.

Umfeld des Wortes

Zuerst untersuchen wir, welches Wort gemeinsam mit dem Wort in welcher Anzahl auftritt. Nehmen wir beispielsweise das Umfeld von acht Wörtern vor und nach dem untersuchten Wort. So ergeben sich Aussagen wie: „Das Wort Suchmaschinenrelevanz tritt gemeinsam mit dem untersuchten Wort Suchmaschinenoptimierung 200 mal in den gegebenen Texten auf“.

Darstellung der Textanalyse im Wortraum

Als zweiter der Textanalyse Schritt folgt die Darstellung im Wortraum. Wir verwenden weiter das oben genannte Beispiel aus der Textanalyse. Daraus ergibt sich eine eindimensionale Darstellung des Wortraumes.

Screenshot Beispiel Suchmaschinenrelevanz

Dimensionen im Wortraum

Nehmen wir zusätzlich noch eine Aussage. Das Wort „Sprache“ trat mit dem Wort „Suchmaschinenrelevanz“ beispielsweise nur 25 mal in denselben Texten auf. Diese Aussage der Textanalyse fügen wir als eine weitere Dimension in den bisher eindimensionalen Wortraum ein. Dadurch ergibt sich folgende zweidimensionale Darstellung des Wortraumes:

Screenshot Suchmaschinenrelevanz

Deutlich erkennbar ist hier schon, dass der untersuchte Begriff „Suchmaschinenrelevanz“ im Wortraum wesentlich näher an „Suchmaschinenoptimierung“ liegt als an „Sprache“. Das heißt im Klartext, dass sich diese beiden Worte laut Textanalyse mehr ähnelnDanach fügen wir weitere Dimensionen an, so dass der Wortraum ein sehr hochdimensionaler Raum wird. Diese Räume sind ab der vierten Dimension nicht mehr  einfach darstellbar, trotzdem können wir sie festhalten. So können wir Ergebnisse der Textanalyse maschinell weiterverarbeiten.

Weiterverarbeitung der Textanalyse

Wir haben so einen zwar einfachen aber großen Wortraum geschaffen. Je nach Anwendungsgebiet sind noch einige weitere Schritte notwendig. Das Grundprinzip einer solchen Textanalyse ist damit jedoch erläutert. Schon mit diesem einfachen Modell stellen wir Wortähnlichkeiten fest. Dies beweist das Ergebnis einer zu Testzwecken an der Universität Stuttgart durchgeführten Textanalyse.

Ein Beispiel daraus: Auf die Anfrage nach dem Kontext des Wortes „audience (Publikum)“  erhielt man durch die Textanalyse des Wortraum Wikipedia das folgende Ergebnis:

 AnzahlBegriff
1.999 viewers (Zuschauer)
2.811 audiences (Besuchergruppen)
3.795 wider (breiteres)
4.791 listeners (Zuhörer)
5.787 enthusiastic (enthusiastisch)
6.763 stage (Bühne)
7.763 show (Show)
8.761 viewing (Ausstellung)
9.760 shows (Shows)
10.758 performers (Darsteller / Künstler)

In Anlehnung an:

Salton, G. / Wong, A. / Yang, C. S.: “A Vector Space Model for Automatic Indexing”, Association for Computing Machinery, 1975.

Schütze, H.: “Distributional Semantics”, Institute for Natural Language Processing, University of Stuttgart, 2010.