Korpora | Diskursmonitor

Das DiskursBarometer bietet einen datengestützten, quantifizierenden Einblick in die aktuelle sprachliche und diskursive Großwetterlage. Für dieses automatische Monitoring werden täglich tausende Texte aus öffentlich zugänglichen Online-Portalen erfasst, computerlinguistisch aufbereitet und mithilfe von Text-Mining-Verfahren ausgewertet. Langfristiges Ziel ist, Metriken zu entwickeln und bereitzustellen, die bestimmte Facetten diskursiver Dynamiken in Abhängigkeit von Zeitverlauf, Medien, AutorInnen u.a. hinweg abbilden. Nähere Erläuterungen finden Sie in einem Hintergrund-Dossier.

Für aussagekräftige quantitative und qualitative Diskursanalysen benötigen wir geeignete Datengrundlagen. Vor allem im DiskursBarometer entwickeln wir Ansätze und Technologien, um möglichst große Textdatenmengen („Korpora“ als BigData) kontinuierlich erheben und auswerten zu können. Dabei verfolgen wir zwei sich ergänzende Strategien: Zum einen bauen wir gezielt zu verschiedenen Diskursdomänen (zunächst Massenmedien, Politik, Recht und Wirtschaft) sowie Referenzereignissen und -themen (z.B. Krisenberichterstattung, weitreichende Änderungen in der Rechtsprechung, besondere Wirtschaftsereignisse usw.) diachrone und synchrone Referenzkorpora auf. Diese Korpora verfolgen den Anspruch, bestimmte sprachlich-diskursive Phänomene möglichst umfassend abzubilden und damit als kontrollierte Vergleichsgrundlage zur Verfügung zu stehen. Neben Referenzkorpora werden im DiskursBarometer die technischen Grundlagen gelegt, um langfristig große und relevante Sprachdaten nahezu in Echtzeit als LIVE-Korpus zu erfassen und Einblicke in gegenwärtige Diskurskonstellationen zu geben. Sämtliche von uns erfassten Textdaten werden mithilfe computerlinguistischer Verfahren in einzelne Bestandteile zergliedert und mit linguistischen Metainformationen angereichert (etwa zur Wortart eines Tokens).

Nachfolgend finden Sie zentrale Kenndaten zu unserem LIVE-Korpus. Die Korpusgröße lässt sich anhand von drei Kennzahlen grob abschätzen: (1) Die Dokumenten-Anzahl zeigt, wie viele unterschiedliche Dokumente in einem Korpus enthalten sind. Hierbei spielt es keine Rolle, ob ein Dokument nur wenige Zeichen oder hunderte Seiten umfasst. Daher gibt (2) die Anzahl der Sätze und vor allem (3) die Summe aller Token eine bessere Vorstellung von der eigentlichen Korpusgröße. Bei einer korpuslinguistischen Analyse werden sowohl unterschiedliche Wortformen als auch Satzzeichen als Token gezählt. Als Faustregel gilt: 400 Token entsprechen einer Seite Text (ohne Bilder, Formatierungen oder Absätze).

Weiterführende Information zum LIVE-Korpus und den Referenzkorpora finden Sie auf den jeweiligen Unterseiten. Eine Übersicht der aktuell im DiskursBarometer verfügbaren Korpusmenge können Sie den folgenden Grafiken entnehmen.

Umfang LIVE-Korpus

Gesamtumfang aller Referenzkorpora

Gesamtumfang aller Korpora: LIVE-Korpus + Referenzkorpora