Das DiskursBarometer bietet einen datengestützten, quantifizierenden Einblick in die aktuelle sprachliche und diskursive Großwetterlage. Für dieses automatische Monitoring werden täglich tausende Texte aus öffentlich zugänglichen Online-Portalen erfasst, computerlinguistisch aufbereitet und mithilfe von Text-Mining-Verfahren ausgewertet. Langfristiges Ziel ist, Metriken zu entwickeln und bereitzustellen, die bestimmte Facetten diskursiver Dynamiken in Abhängigkeit von Zeitverlauf, Medien, AutorInnen u.a. hinweg abbilden. Nähere Erläuterungen finden Sie in einem Hintergrund-Dossier.

Aktuelle Größe des LIVE-Korpus

Das DiskursBarometer LIVE-Korpus wächst täglich – daher ändern sich auch täglich alle auf dieser Webseite gezeigten Visualisierungen. Das erste Release des DiskursBarometers umfasst verschiedene interaktive Analysemodule (Frequenz, Kookkurrenz, Schlagwörter, KWIC uvm.) zur Auswertung des LIVE-Korpus. Bis Mitte 2020 planen wir die Freigabe einer API (Programmierschnittstelle) für die akademische Nutzung unserer Korpora. Der API-Fortschritt kann im Entwickler-Blog verfolgt werden. Langfristig (bis Ende 2020) wird das DiskursBarometer um weitere Analysemöglichkeiten ergänzt, die sowohl LIVE- als auch Referenzkorpora verwenden. Eine Übersicht zum LIVE-Korpus und den Referenzkorpora finden Sie auf den entsprechenden Unterseiten. Auf den Hintergrundseiten finden Sie zudem weiterführende Informationen zum wissenschaftlichen und technischen Background. Analysen werden auch mit anderen Teilprojekten wie dem DiskursGlossar, der DiskursReview oder der DiskursWerkstatt verbunden.

Umfang der täglichen Korpusakquise

Die nachfolgende Grafik zeigt, wie viele Token, Sätze und Dokumente vom DiskursBarometer (pro Tag) erfasst wurden. Sprünge in der erfassten Korpusmenge haben verschiedene Ursachen. So kann dies auf ein erhöhtes Publikationsaufkommen hindeuten (wie im Fall März 2020 – der globalen Pandemie mit SARS-CoV-2) oder aber an der Erschließung neuer Korpusquellen für das LIVE-Korpus liegen (wie zum Zeitpunkt: 2019-09-10).

Bitte beachten Sie, dass die Y-Achse unterschiedliche Skalierungen aufweist (K=1’000 / M=1’000’000). Die exakten Werte erhalten Sie, wenn Sie den Mauszeiger über einen Datenpunkt bewegen. Außerdem können Sie in die Grafik zoomen, indem Sie die Maus über die Grafik bewegen und das Mausrad benutzen. Danach lassen sich die gezoomten Datenbereiche per Drag & Drop verschieben.

Ereignis-Anmerkungen

Folgende Ereignisse sind bei der Interpretation des LIVE-Korpus zu berücksichtigen (Datumsangaben im ISO-Format [Jahre-Monat-Tag – Bsp.: 2020-04-23]):

  • Pre-Test-Phase I (2019-06-18 – 2019-06-23)
    Diese Phase umfasst Daten aus einem Pre-Test (interner Alpha-Test). Enthalten sind nur wenige Texte. Das System wurde in dieser Phase rein technisch (Zusammenspiel der Komponenten getestet. Die Phase wurde abgeschlossen – alle Komponenten arbeiten gut zusammen.
  • Pre-Test-Phase II (2019-06-24 -2019-09-08)
    Diese Phase umfasst Daten aus dem Pre-Test (interner Beta-Test). Pro Tag wurden ca. 4-6 Mio. Token erfasst. Das System wurde mit einer begrenzten Anzahl an Quellen auf Belastbarkeit getestet. Parallel zu Phase II lief die Suche nach weiteren Quellen. Die Ergebnisse aus Phase II erlaubten eine Vorhersage über die Belastbarkeit des Systems und gaben uns die Möglichkeit, das System besser zu spezifizieren.
  • Launch (2019-09-09) – LIVE-Quellen v1.0
    Der Peek am 2019-09-09 ist dadurch zu erklären, dass Texte mit erfasst wurden, die vor dem 2019-09-09 geschrieben wurden, aber am Stichtag immer noch in den Quellen vorhanden waren.
  • Corona / COVID19 / SARS-CoV-2 (ab 2020-03-11)
    Bedingt durch die Corona-Pandemie verzeichnen wir seit dem 2020-03-11 ein erhöhtes Text- und Token-Aufkommen. Die Quellen wurden nicht erweitert oder angepasst. Es gilt weiterhin die Quellenlage (LIVE-Quellen v1.0 – siehe oben)
  • Serverausfall 2020-13-15
    Aufgrund des extrem hohen Aufkommens kam es zu einem Serverausfall. Die Daten konnten nur teilweise rekonstruiert werden. Die Server wurden entsprechend der neuen Mehrbelastung angepasst.
  • Corona / COVID19 / SARS-CoV-2 (2020-04-07 – 2020-04-17)
    Extreme Mehrbelastung bei gleicher Quellenlage (LIVE-Quellen v1.0 – siehe oben). Die Neuspezifikation der Server hielt diesem Aufkommen stand.
  • AKTUELL:
    Aufgrund einer Störung im Rechenzentrum kam es zu einem Hardwaredefekt und einen damit verbundenen Serverausfall. Der Zeitraum 2020-10-10 bis 2020-10-13 werden zeitnah wiederhergestellt. Die Tage 2020-10-14 und 2020-10-15 werden (teilweise) vorübergehend unter 2020-10-16 gebucht – eine Rekonstruktion erfolgt in den kommenden Wochen. Das System geht ab 2020-10-18 erneut in den Regelbetrieb.