Das DiskursBarometer bietet einen datengestützten, quantifizierenden Einblick in die aktuelle sprachliche und diskursive Großwetterlage. Für dieses automatische Monitoring werden täglich tausende Texte aus öffentlich zugänglichen Online-Portalen erfasst, computerlinguistisch aufbereitet und mithilfe von Text-Mining-Verfahren ausgewertet. Langfristiges Ziel ist, Metriken zu entwickeln und bereitzustellen, die bestimmte Facetten diskursiver Dynamiken in Abhängigkeit von Zeitverlauf, Medien, AutorInnen u.a. hinweg abbilden. Nähere Erläuterungen finden Sie in einem Hintergrund-Dossier.

Aktuelle Größe des LIVE-Korpus

Das DiskursBarometer LIVE-Korpus wächst täglich – daher ändern sich auch täglich alle auf dieser Webseite gezeigten Visualisierungen. Das erste Release des DiskursBarometers umfasst verschiedene interaktive Analysemodule (Frequenz, Kookkurrenz, Schlagwörter, KWIC uvm.) zur Auswertung des LIVE-Korpus. Bis Mitte 2020 planen wir die Freigabe einer API (Programmierschnittstelle) für die akademische Nutzung unserer Korpora. Der API-Fortschritt kann im Entwickler-Blog verfolgt werden. Langfristig (bis Ende 2020) wird das DiskursBarometer um weitere Analysemöglichkeiten ergänzt, die sowohl LIVE- als auch Referenzkorpora verwenden. Eine Übersicht zum LIVE-Korpus und den Referenzkorpora finden Sie auf den entsprechenden Unterseiten. Auf den Hintergrundseiten finden Sie zudem weiterführende Informationen zum wissenschaftlichen und technischen Background. Analysen werden auch mit anderen Teilprojekten wie dem DiskursGlossar, der DiskursReview oder der DiskursWerkstatt verbunden.

Umfang der täglichen Korpusakquise

Die nachfolgende Grafik zeigt, wie viele Token, Sätze und Dokumente vom DiskursBarometer (pro Tag) erfasst wurden. Sprünge in der erfassten Korpusmenge haben verschiedene Ursachen. So kann dies auf ein erhöhtes Publikationsaufkommen hindeuten (wie im Fall März 2020 – der globalen Pandemie mit SARS-CoV-2) oder aber an der Erschließung neuer Korpusquellen für das LIVE-Korpus liegen (wie zum Zeitpunkt: 2019-09-10).

Bitte beachten Sie, dass die Y-Achse unterschiedliche Skalierungen aufweist (K=1’000 / M=1’000’000). Die exakten Werte erhalten Sie, wenn Sie den Mauszeiger über einen Datenpunkt bewegen. Außerdem können Sie in die Grafik zoomen, indem Sie die Maus über die Grafik bewegen und das Mausrad benutzen. Danach lassen sich die gezoomten Datenbereiche per Drag & Drop verschieben.

Ereignis-Anmerkungen

Folgende Ereignisse sind bei der Interpretation des LIVE-Korpus zu berücksichtigen (Datumsangaben im ISO-Format [Jahre-Monat-Tag – Bsp.: 2020-04-23]):

  • Pre-Test-Phase I (2019-06-18 – 2019-06-23)
    Diese Phase umfasst Daten aus einem Pre-Test (interner Alpha-Test). Enthalten sind nur wenige Texte. Das System wurde in dieser Phase rein technisch (Zusammenspiel der Komponenten getestet. Die Phase wurde abgeschlossen – alle Komponenten arbeiten gut zusammen.
  • Pre-Test-Phase II (2019-06-24 -2019-09-08)
    Diese Phase umfasst Daten aus dem Pre-Test (interner Beta-Test). Pro Tag wurden ca. 4-6 Mio. Token erfasst. Das System wurde mit einer begrenzten Anzahl an Quellen auf Belastbarkeit getestet. Parallel zu Phase II lief die Suche nach weiteren Quellen. Die Ergebnisse aus Phase II erlaubten eine Vorhersage über die Belastbarkeit des Systems und gaben uns die Möglichkeit, das System besser zu spezifizieren.
  • Launch (2019-09-09) – LIVE-Quellen v1.0
    Der Peek am 2019-09-09 ist dadurch zu erklären, dass Texte mit erfasst wurden, die vor dem 2019-09-09 geschrieben wurden, aber am Stichtag immer noch in den Quellen vorhanden waren.
  • Corona / COVID19 / SARS-CoV-2 (ab 2020-03-11)
    Bedingt durch die Corona-Pandemie verzeichnen wir seit dem 2020-03-11 ein erhöhtes Text- und Token-Aufkommen. Die Quellen wurden nicht erweitert oder angepasst. Es gilt weiterhin die Quellenlage (LIVE-Quellen v1.0 – siehe oben)
  • Serverausfall 2020-03-15
    Aufgrund des extrem hohen Aufkommens kam es zu einem Serverausfall. Die Daten konnten nur teilweise rekonstruiert werden. Die Server wurden entsprechend der neuen Mehrbelastung angepasst.
  • Corona / COVID19 / SARS-CoV-2 (2020-04-07 – 2020-04-17)
    Extreme Mehrbelastung bei gleicher Quellenlage (LIVE-Quellen v1.0 – siehe oben). Die Neuspezifikation der Server hielt diesem Aufkommen stand.
  • Serverausfall 2020-10-10 bis 20-10-15
    Der Zeitraum 2020-10-10 bis 2020-10-13 werden zeitnah wiederhergestellt. Die Tage 2020-10-14 und 2020-10-15 werden (teilweise) vorübergehend unter 2020-10-16 gebucht. Eine Rekonstruktion des gesamten Zeitraums ist geplant. Erneuter Regelbetrieb ab 2020-10-18.
  • Schwerwiegender Serverausfall 2021-01-27 bis 2021-02-09
    Im genannten Zeitraum kam es zu einem schweren Serverausfall, da die Server aufgrund einer Stellenvakanz nicht ausreichend gewartet wurden. Leider konnte nur ein Teil der Daten gerettet werden (die Daten wurden vorübergehend unter 2021-02-10 gebucht). Probleme die zum Überlaufen des Erfassungs-Servers geführt haben, wurden identifiziert und behoben. Eine Rekonstruktion des Zeitraums (soweit möglich) ist geplant. Erneuter Regelbetrieb ab 2021-02-11.
  • Corona / COVID19 / SARS-CoV-2 (2021-03-10 – 2021-03-22)
    Sprunghafter Anstieg durch verstärkte Diskussionen zum Oster-Lockdown.
  • Geänderte Quellen (2021-04-07 / 2021-04-08)
    Aus dem Feedback der vDHd2021 haben wir folgendes übernommen: Die Quelle „TV-Spielfilm“ wird zukünftig nicht mehr erhoben. Die Daten sind für eine korpuslinguistische Untersuchung wertlos und stark redundant. Wir überprüfen aktuell noch weitere Quellen auf Tauglichkeit. Dafür haben wir weitere Quellen aus dem Projekt: https://github.com/divkakwani/awesome-newspapers hinzugenommen.
  • Geänderte Quellen (2021-12-16 / 2021-12-17)
    Die Liste der Quellen wurde um über 900 weitere Feeds ergänzt. Wir danken Dr. Adrien Barbaresi (Berlin-Brandenburgischen Akademie der Wissenschaften) für die Bereitstellung dieser Feeds.
  • Umbauarbeiten Server (2022-04-05 bis 2022-04-26) 
    Aufgrund von Umbauarbeiten an der Server-Infrastruktur (neue API) werden ein Teil der Dokumente auf den 26 April 2022 datiert.
  • Anstieg Token/Sätze seit ca. Juni 2022 (Juni 2022 bis jetzt)
    In der Grafik sehen Sie einen Anstieg der Token ab ca. Juni 2022. Außerdem sehen Sie in einigen Auswertungen (aktuell) teilweise kyrillische Buchstaben. Unsere Quellen sind eigentlich ausschließlich deutschsprachig. Aber einige Quellen haben angefangen (Teil-)Übersetzungen ins Ukrainische und Russische ihren Artikeln beizufügen bzw. Übersetzungen einzustellen. Wir arbeiten an einer Korrektur. Eine nachträgliche Korrektur der Daten ist geplant.