Worthäufigkeit bei LinguLab

Textverständlichkeit ist essentiell für alle Arten von nicht-lyrischen Texten. Wer Informationen vermitteln will, der muss verstanden werden! Unser Ansatz hierzu: Häufig verwendete Wörter sind verständliche Wörter. Wir erläutern unser Modul Worthäufigkeit und gehen auf die Relevanz für Textverständlichkeit und Lesbarkeit ein.

Mit dem Modul Worthäufigkeit als Teil der Textverständlichkeit  wollen wir zum Beispiel Lektoraten bzw. Lektoren helfen, die aufgrund ihres professionellen Hintergrundes nur schwer entscheiden können, ob ein Text auch für Laien verständlich ist. Doch woher wissen wir, ob ein Wort häufig verwendet wird und damit verständlich ist? Korpus- und Computerlinguisten erstellen hierfür seit langem maschinell Worthäufigkeitslisten. Aus diesen ziehen wir Schlüsse wie eben die Textverständlichkeit. Wir von LinguLab verfolgen hierbei einen ganz besonderen Ansatz: LinguLab bezieht die Worthäufigkeit erstmals direkt aus dem Internet.

Die Worthäufigkeit

Worthäufigkeit ist seit langem ein Thema für Sprachwissenschaftler. Worthäufigkeiten sagen wie der Name bereits vermuten lässt aus, wie häufig ein Wort in einer Sprache verwendet wird. In der Korpuslinguistik stellen Experten die Worthäufigkeit mit Hilfe von statistischen Methoden an Textkorpora fest. Ein Textkorpus ist eine Sammlung von Texten oder Sprachaufzeichnungen. Dieser muss eine bestimmte Größe haben, um zu repräsentativen Ergebnissen zu führen.

Worthäufigkeitslisten

Der bisherige Ansatz zur Feststellung der Worthäufigkeit funktioniert meist wie folgt: Ein Rechner zählt eine ausreichend große Anzahl Texte Wort für Wort ab. Daraus wird eine “Bestenliste” erstellt. Diese “Bestenliste” bezeichnet die Linguistik als eine Worthäufigkeitsliste. Die Liste stellt  der Ersteller üblicherweise nicht in abgezählter Form dar. Stattdessen verwendet er Darstellungsformen, die einzelne Wörter möglichst anschaulich in Relation setzen. Ein Beispiel sind Häufigkeitsklassen. Das Wort “der” ist nach dieser Methode beispielsweise im Deutschen in fast allen Textkorpora das häufigste.

Die wohl bekannteste Worthäufigkeitsliste des Deutschen stellt das Institut für Deutsche Sprache in Mannheim zur Verfügung. Der Textkorpus “Deutscher Referenzkorpus“, der hier verwendet wird, umfasst mehr als drei Milliarden Wörter aus Texten unterschiedlichster Kategorien.

Worthäufigkeit bei LinguLab

Der Ansatz, den wir verfolgen, unterscheidet sich von der klassischen Methode im verwendeten Textkorpus. LinguLab benutzt keinen festen Textkorpus aus gesammelten Schriftstücken, sondern analysiert basierend auf Web-Texten. Diese neue Art der Analyse ist für uns sehr viel versprechend. Sie repräsentiert das sich täglich aktualisierende Gegenwartsdeutsch und liefert uns Informationen zu Textverständlichkeit anhand der Worthäufigkeit im Alltag.

Wie verarbeitet LinguLab Worthäufigkeit in eine Liste?

Wir sammeln, speichern und verarbeiten seit langer Zeit Daten von qualifizierten Internetseiten. Diese ‘Qualifikation’ erfolgt durch langzeitliche Messung der Qualität und Quantität der dort gefundenen Texte. Wir erreichen dadurch eine realitätsnahe Wortliste  des Gegenwartsdeutschen anhand von aktuellen, stets wachsenden Web-Texten. Hier müssen wir natürlich darauf achten, nicht ausschließlich ‘Web-Wortschatz’ zu sammeln. Wir wollen eine möglichst allgemeine Datenbank erreichen. Um das zu gewähren verfeinern wir ständig manuell die Algorithmen, die hierfür zuständig sind.

Unser Ziel

Unser Ziel mit dieser neuen Form der Textanalyse und Datengewinnung ist, das Gegenwartsdeutsche möglichst realitätsnah einzufangen. Um ein Beispiel zu nennen: Wer kannte vor zwei Jahren Barack Obama? Wohl kaum jemand, und so erwähnt auch niemand ihn in deutschen Texten. Heute, zwei Jahre später, ist der “mächtigste Mann der Welt” in aller Munde. Bewerten wir nach einem festen Textkorpus, ist sein Name statistisch gesehen immer noch sehr unbekannt!

Da wir unsere Daten zur Worthäufigkeit einsetzen, um die Textverständlichkeit zu bewerten, reicht das Sammeln von Daten aus vorgefertigten Texten nicht aus. Wir behaupten: LinguLab Live kennt Barack Obama aus dem Internet!