Referenzkorpora | Diskursmonitor

Das DiskursBarometer bietet einen datengestützten, quantifizierenden Einblick in die aktuelle sprachliche und diskursive Großwetterlage. Für dieses automatische Monitoring werden täglich tausende Texte aus öffentlich zugänglichen Online-Portalen erfasst, computerlinguistisch aufbereitet und mithilfe von Text-Mining-Verfahren ausgewertet. Langfristiges Ziel ist, Metriken zu entwickeln und bereitzustellen, die bestimmte Facetten diskursiver Dynamiken in Abhängigkeit von Zeitverlauf, Medien, AutorInnen u.a. hinweg abbilden. Nähere Erläuterungen finden Sie in einem Hintergrund-Dossier.

Gesamtkorpusmenge – (un)datierte Referenzkorpora und LIVE-Korpus

Die Metriken und Werkzeuge des DiskursBarometers werden zu Test- (z. B. funktioniert eine Metrik wie erwartet?) und Analysezwecken (z. B. zur diachronen Analysen) auf Referenzkorpora angewendet. Referenzkorpora verfolgen den Anspruch, bestimmte sprachlich-diskursive Phänomene möglichst umfassend abzubilden und damit als kontrollierte Vergleichsgrundlage zur Verfügung zu stehen. Auf Basis von Vorstudien in der Siegener Forschungsgruppe zur computergestützten Sozio- und Diskurslinguistik sowie in Vorbereitung des Diskursmonitors wurden und werden zu verschiedenen Diskursdomänen (zunächst Massenmedien, Politik, Recht und Wirtschaft) sowie zu wichtigen Referenzereignissen, -themen und -diskursakteuren (z.B. Krisenberichterstattung; weitreichende Änderungen in der Rechtsprechung; besondere Wirtschaftsereignisse; Lobby-Gruppen usw.) diachrone und synchrone Referenzkorpora aufgebaut.

Die Grafik zur „Gesamtkorpusmenge – (un)datierte Referenzkorpora und LIVE-Korpus“ zeigt den Token-Umfang einzelner Korpora. Je größer der Token-Umfang, desto größer ist die dargestellte Kachel in der Grafik. Bewegen Sie die Maus auf eine der Kacheln, um Informationen zur Korpusgröße zu erhalten. Eine Beschreibung zu Inhalt und Herkunft der Korpora, finden Sie unterhalb der Grafik.

Welche Korpora stehen zur Verfügung:

Referenzkorpora (undatierte)
Diese Korpora haben keine Datumsangaben. Wir verwenden diese Korpora als Referenzdaten für Analysen zum Allgemeinsprachgebrauch.
- CE-HugeWebCorpus – Für den Datensatz wurden 5,5 TB an Webseiten (Quelle: commoncrawl.org – Stand: März 2018) zunächst nach deutschsprachigen Text durchsucht (automatische Spracherkennung).
- Wikipedia (de) – Das Korpus enthält alle Seiten der deutschsprachigen Wikipedia (Stand Juni 2019).
- Web2Corpus – Die Originaldaten stammen von Majliš, Martin, 2011, W2C – Web to Corpus – Corpora, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11858/00-097C-0000-0022-6133-9
Referenzkorpora (datiert)
Diese Korpora eignen dank der verfügbaren Datierung zu vielseitigen Vergleichsanalysen. Bei der Zusammenstellung wurde versucht, auch ein Mischung unterschiedlicher Textsorten und Domänen zu erreichen.
- CAL² – Das Korpus der „international research group Computer Assisted Legal Linguistics“ (https://www.cal2.eu/) umfasst verschiedene Fachtexte der Judikative und Legislative (Gerichtsurteile, Gesetze, Gesetzesentwürfe etc.).
- Bundestag Drucksachen & Plenarprotokolle – Der Deutsche Bundestag stellt alle Dokumente als PDF öffentlich zur Verfügung.
- Bundesanzeiger – Das Projekt „offenegesetze.de“ der Open Knowledge Foundation Deutschland e.V. (kurz OKF) hat alle Ausgaben des Bundesanzeigers digital veröffentlicht.
- kleineAnfragen.de – Das Projekt „kleineAnfragen.de“ (ebenfalls der OKF – siehe oben) hat alle kleinen Anfragen der deutschen Landesparlamente und des Bundestages aus einem Wust von Datenportalen extrahiert und diese Daten gebündelt und sauber ‚digitalisiert‘.
- OneMillionPosts – Das Projekt (https://ofai.github.io/million-post-corpus/) hat Zeitungsartikel der österreichischen Zeitung „der Standard“ ein Jahr lang erfasst und ebenfalls alle Online-Kommentare dazu ausgewertet. Wir verwenden ausschließlich die Zeitungsartikel und planen für die zweite Projektphase auch eine Berücksichtung der Online-Kommentare.
- DTA-Zeitungen – „Das Deutsche Textarchiv stellt einen disziplinen- und gattungsübergreifenden Grundbestand deutschsprachiger Texte aus dem Zeitraum von ca. 1600 bis 1900 […] bereit.“ (http://www.deutschestextarchiv.de/). Aktuell verwendet diskursmonitor.de ausschließlich die historischen Zeitungstexte.
- ND-Archiv (1946-1990) – In Kooperation mit der Tageszeitung „Neues Deutschland“ wurden die Archivbestände 1946-1990 vollständig erfasst und aufbereitet. Das Korpus ist nur den Kooperationspartnern zugänglich (nicht öffentlich).
- Internes Zeitungskorpus – Das interne Zeitungskorpus beinhaltet verschiedene Zeitungen (voll digitalisiert) seit Ersterscheinung. Dieses Korpus ist nicht öffentlich zugänglich und wurde auf Grundlage des UhrG §60d erstellt.
LIVE-Korpus auf diskursmonitor.de: Diese Korpus wird täglich mit mehreren tausend Dokumenten ergänzt. Es ist das Hauptkorpus von diskursmonitor.de – Alle gelisteten Angaben und Analysen sind 24 Stunden gültig. Die neuen Daten und Analysen stehen in der Regel zwischen 03:00-05:00 Uhr zur Verfügung (zum vorangegangenen Kalendertag).

Gesamtkorpusmenge – (un)datierte Referenzkorpora und LIVE-Korpus

Umfang LIVE-Korpus

Gesamtumfang aller Referenzkorpora

Gesamtumfang aller Korpora: LIVE-Korpus + Referenzkorpora