Kookkurrenzen

Das DiskursBarometer bietet einen datengestützten, quantifizierenden Einblick in die aktuelle sprachliche und diskursive Großwetterlage. Für dieses automatische Monitoring werden täglich tausende Texte aus öffentlich zugänglichen Online-Portalen erfasst, computerlinguistisch aufbereitet und mithilfe von Text-Mining-Verfahren ausgewertet. Langfristiges Ziel ist, Metriken zu entwickeln und bereitzustellen, die bestimmte Facetten diskursiver Dynamiken in Abhängigkeit von Zeitverlauf, Medien, AutorInnen u.a. hinweg abbilden. Nähere Erläuterungen finden Sie in einem Hintergrund-Dossier.

Kookkurrenzen (engl. co-occurrence – gemeinsames Vorkommen) sind zwei Token (hier: Wörter), die innerhalb einer Textmenge besonders häufig zusammen (hier: innerhalb eines Satzes) und selten in anderen Kombinationen vorkommen (z. B. mit anderen Token). Das DiskursBarometer nutzt hierzu den CorpusExplorer und berechnet die Kookkurrenzen für alle Token pro Tag (Kreuzvergleich), sortiert diese nach absteigender Signifikanz (berechnet mittels Poisson-Verteilung) und erstellt aus den 50 signifikantesten Kookkurrenz-Paaren die folgenden Grafiken:

Anmerkung: In Bezug auf diese Kookkurrenz-Visualisierung wurden wir gefragt, ob das LIVE-Korpus stark medienlastig ist, da unter den Kookkurrenzen sehr viele Medien-, TV und Film-Kookkurrenzen auftreten. Im LIVE-Korpus sind in der Tat einige Pressemeldungen (z. B. zu Filmpremieren) oder Fernsehprogramme (bzw. TV-Tipps – z. B. als Pressebeilage) enthalten aber das ist nicht der Hauptgrund für die häufigen Kookkurrenzen mit Medienbezug. Wie oben erwähnt, berechnen wir aktuell zu allen Token alle Kookkurrenzen. Nur die Kookkurrenzen mit den höchsten Signifikanzwerten werden für die Visualisierung herangezogen. Die Textsorte ‚Film/TV‘ ist eine sehr homogene und abgeschlossene Gruppe. Daher sind hier die Signifikanzwerte besonders hoch. Was wir für die Weiterentwicklung planen: Die einfachste Idee wäre, eine Stopwortliste als Filter einzusetzen. Dies hätte aber den Nachteil, dass diese Liste ständig überprüft und gepflegt werden muss – außerdem wäre so eine Liste ein direkter Eingriff. Daher haben wir uns gegen eine derartige Lösung entschieden und arbeiten aktuell daran, Texte entsprechen zu klassifizieren (mittels Machine Learning). Für die so ermittelten ‚Textkategorien‘ sollen dann separate Kookkurrenzberechnungen angeboten werden.

Selbst mit Kookkurrenzen im LIVE-Korpus experimentieren

Die folgende Analyse lässt Sie mit den Kookkurrenzen des vergangenen Tages experimentieren. Da die Daten sehr umfangreich sind, wird die Analyse erst geladen, wenn Sie dies bestätigen. Danach können Sie nach beliebigen Token (nur einzelne Token) suchen und bekommen alle Kookkurrenzen zum Such-Token angezeigt (das Suchtoken steht dabei in der Mitte). Zum Vergleich mehrerer Token, führen Sie die Suche mehrfach hintereinander aus. Überlappende Kookkurrenzen werden mehrfarbig unterstrichen. Suchtipp: Suchen Sie nacheinander nach Deutschland und Frankreich.