DiskursGlossar

Korpus

Kategorie: Grundbegriffe
Verwandte Ausdrücke:

Siehe auch: Schlagwort, Diskursverschiebung
Autor: Jan Oliver Rüdiger
Version: 1.0 / 31.01.2021

Kurzzusammenfassung

In den Sprach- als auch Literaturwissenschaften versteht man unter Korpora (Plur. Korpora, die / Sing. Korpus, das) ganz allgemein Textsammlungen. Nach Lemnitzer und Zinsmeister (2010, S. 40) ist ein Korpus: „[…] eine Sammlung [authentischer] schriftlicher oder gesprochener Äußerungen in einer oder mehreren Sprachen“. Die Zusammenstellung erfolgt nach verschiedenen wissenschaftlichen Kriterien, die sich am zu untersuchenden Gegenstand orientieren (Bsp. 1: Soll strategische Kommunikation in politischen Reden analysiert werden, so wird ein Korpus aus ‚Politischen Reden‘ zusammengestellt, die strategisch/kommunikative Praktiken enthalten – Bsp. 2: Für die Analyse von Modalpartikeln im Fremdsprachenerwerb wird ein Korpus aus transkribierten Redebeiträgen verschiedener Erwerbsstufen benötigt). Prinzipiell kann ein Korpus auch analog (gedruckt) vorliegen und manuell ausgewertet werden – In der empirischen Linguistik ist ein Korpus aber i. d. R. immer ein digitales (maschinenlesbares) Korpus, das automatisiert (mittels Software) ausgewertet wird.

Erweiterte Begriffsklärung

Korpora bestehen nicht nur aus den Texten (den so genannten Primärdaten), sie umfassen auch eine ganze Reihe weiterer Sekundärdaten. Im Wesentlichen handelt es sich dabei um Metadaten und Annotationen (vgl. hierzu Perkuhn et al. (2012)). Metadaten sind Zusatzinformationen zu einzelnen Texten (z. B. der Titel, Autor*in, Datum, Textsorte etc.). Diese Metadaten können in der Korpusanalyse genutzt werden, um etwa Akteursgruppen, Zeitfenster oder Textsorten miteinander zu vergleichen bzw. sie zueinander in Beziehung zu setzen (z. B. Vergleich von Sprachgebrauchsmuster bestimmter Autor*innen / Unterschiedlicher Sprachgebrauch in zwei oder mehr definierten Zeitfenstern).
Annotationen sind Sekundärdaten, die direkt mit dem Text verknüpft sind. Annotationen können sowohl manuell erstellt oder automatisch erzeugt werden. Elektronische Korpora werden i. d. R. mehrstufig automatisch annotiert. Zusätzliche manuelle Annotationen oder Nachkorrekturen der automatischen Annotation sind je nach Forschungsinteresse notwendig. Folgende automatische Prozessschritte sind weit verbreitet: Zerteilung der Texte in einzelne Sätze, Zerteilung der Sätze in einzelne Token (Unter den Begriff ‚Token‘ fallen sowohl Wortformen (Berg, Berge, Berges etc.) als auch Satzzeichen), automatische Lemmatisierung der Token (Token: Häuser > Lemma: Haus), automatische Zuordnung der Wortart (Token: Berge > Wortart: Nomen), Annotation von Phrasen (Token: Das wundersame Fest > Phrase: Nominalphrase). Ein so aufbereitetes Korpus erlaubt sehr komplexe Analyse- und Abfragemöglichkeiten (z. B.: Suche alle Sätze mit Nominalphrasen, die das Lemma ‚Krise‘ enthalten).

Wie Mukherjee (2009) anmerkt, arbeitet die Sprachwissenschaft bereits in der ‚Vor-Computer-Zeit‘ mit Textsammlungen, also Korpora. So wird u. a. das Beispiel der Konkordanz-Analyse der King James Bibel von Alexander Curden aus dem Jahre 1736 als eine händische Korpusanalyse angeführt. Bei dieser Analyse werden Konkordanzen/Belegsätze geordnet und ggf. gefiltert. Durch diese Art der Darstellung lässt sich der Kontext einfacher erkennen und auswerten. Während man in der ‚Vor-Computer-Zeit‘ auf händische Arbeit angewiesen war (Belege abschreiben/abtippen, ausschneiden, auf Karteikarten aufkleben etc.), kann eine solche Konkordanz-Analyse heutzutage mittels entsprechender Software in Sekundenschnelle auf riesige Korpora angewendet werden. Folgendes Beispiel zeigt eine Konkordanz-Analyse zum Stichwort ‚Europa‘ in Plenarprotokollen des Europäischen Parlaments:

Grafik 1: Konkordanzen als KWIC (Keyword in Context) dargestellt.

Die ersten computergestützten Korpora entstanden Mitte des 20. Jahrhunderts. Das Brown University Corpus of Present-Day American English (vgl. Francis und Kučera (1964) war das erste rein computergestützte Korpus und umfasste bereits eine Millionen Wörter. Es setzte sich, wie der Name schon andeutet, aus unterschiedlichsten schriftsprachlichen Genres der amerikanischen Gegenwartssprache zusammen. Ebenfalls 1964 entstand mit dem Mannheimer Korpus I (MK_I) am Leibniz-Institut für Deutsche Sprache unter der Leitung von Paul Grebe und Ulrich Engel ein vergleichbares Korpus des Deutschen mit sogar bereits 2,2 Mio. Token. Durch die Verbreitung und schnell steigenden Computerkapazitäten wuchsen auch die Möglichkeiten der Korpuslinguistik. Bereits in den 1990ern erreichte das British National Corpus (BNC) einen Umfang von über 100 Millionen Token. Im Jahr 2000 überschritt das Deutsche Referenz Korpus (DeReKo) – basierend auf dem Projekt Mannheimer Korpus (siehe oben) – die Schwelle von einer Milliarde Token. Mit Stand 02.02.2021 umfasst DeReKo 50 Milliarden Token (vgl. zur Entwicklung auch Kupietz et al. (2018)). Viele, auch kleinere, spezifischere Korpusprojekte entstanden in den letzten Jahrzehnten. Eine gute Ausgangsbasis für eigene Recherchen bietet die Plattform CLARIN – hier sind viele freie Korpus-Ressourcen gelistet.
Für das Teilprojekt Barometer im DiskursMonitor wurden verschiedene freie Korpora als Referenzkorpora aggregiert (eine Beschreibung finden Sie hier). Außerdem wurde eine Infrastruktur entwickelt, die eine LIVE-Analyse ermöglicht. Die Korpora stehen intern für Lehrstuhlprojekte aber auch externen Forschenden zur Verfügung. Besucher*innen der Webseite können auf aggregierte Korpusdaten einfache Analysen durchführen (zu den Analysen).

Beispiele

Korpora dienen nicht nur zur Suche nach Belegen. Auf ein Korpus lassen sich verschiedene (statistische) Analysen anwenden (sowohl auf die primären Textdaten als auch auf die sekundären Metadaten/Annotation – und auch in Kombination [Text <> Metadaten/Annotation]). Einen guten Überblick und eine Einbettung/Anknüpfung in die linguistischen Grundlagen bietet Bubenhofer (2009). Im folgenden haben wir eine Liste mit beispielhaften Analysen zusammengestellt, die auf den Barometer-Korpora (siehe oben) basieren und die Sie selbst explorativ testen können:

  • Frequenzanalysen stellen eine einfache und effektive Möglichkeit dar, große Textsammlungen (Korpora) zu untersuchen. Mit der Frequenzanalyse lassen sich verschiedene Fragen beantworten (für detaillierter Informationen siehe Frequenzanalyse):
    → Was sind die häufigsten Token (z. B. Lemmata) in einem Korpus?
    → Wie oft kommt ein bestimmtes Token im Korpus vor?
    → Wie oft kommt ein bestimmtes Token zu einem bestimmten Zeitpunkt vor?
    Dadurch wird die oben angesprochene Kombination aus Text und Metadaten (Zeit) zum Analysegegenstand. Das Resultat sind z. B. folgende Zeitverlaufsanalysen:

    Grafik 2: Beispiel Frequenzverlauf zu ‚SARS-CoV-2‘
  • Eine mögliche Anwendung der oben genannten Frequenzanalyse ist die Sentiment-Analysen (Sentiment von engl. Gefühl/Empfindung). Im Wesentlichen handelt es sich um eine Positiv/Negativ-Frequenzanalyse. Dieses Verfahren hat methodische Grenzen und ist daher nur unter Vorbehalt einsetzbar: Zum einen fixiert das Verfahren die Textoberfläche und erkennt Tiefenstrukturen, Kontexte, Ironie und ähnliche sprachliche Phänomene nicht; zum anderen ist die Erstellung der Ausgangslisten und damit Bewertung von Einzeläußerungen oftmals von der subjektiven Einordnung des/der Bearbeiter/in abhängig. Für weiterführende Informationen zur Sentiment-Analyse siehe hier.Grafik 3: Sentiment-Detection im diskursmonitor LIVE-Korpus
    Grafik 3: Sentiment-Detection im diskursmonitor LIVE-Korpus
  • Schlagwörter (Keywords) geben Auskunft darüber, welche Ausdrücke zu einem Zeitpunkt (verglichen mit einem anderen Zeitpunkt) besonders auffällig häufig sind. Schlagwörter werden mithilfe eines statistischen Signifikanztests ermittelt (hier: Poisson-Verteilung).  Die folgende Auswertung vergleicht unterschiedlich große Zeitabschnitte miteinander und ermöglicht damit, kurzfristige von langfristigen Diskurstrends zu differenzieren. Eine tagesaktuelle Auswertung finden Sie hier.

Grafik 4: Keyword-Beispiel

Grafik 4: Beispiel-Schlagworte
  • Kookkurrenz-Analysen – Kookkurrenzen (engl. co-occurrence – gemeinsames Vorkommen) sind zwei Token (hier: Wörter), die innerhalb einer Textmenge besonders häufig zusammen (hier: innerhalb eines Satzes) und selten in anderen Kombinationen vorkommen (z. B. mit anderen Token). Eine interaktive Analyse finden Sie hier.Grafik 5: Beispiel-Kookkurrenzen
Grafik 5: Beispiel-Kookkurrenzen
  • N-Gramme sind hochfrequente Wortfolgen und gehören zur Analysekategorie der Mehrworteinheiten. Das N steht dabei für eine natürliche Zahl größer 0. Durch N-Gramme lassen sich Mehrwort-Verbindungen und Sprachgebrauchsmuster in Texten identifizieren. Solche Muster können z. B. Floskeln (z. B. „Guten Tag“, „Meine Damen und Herren“ etc.), Phrasen (z. B. „den Tag nicht vor dem Abend loben“ etc.) oder syntaktische Abfolgen realisieren (z. B. „ich gehe ins“ etc.). Weitere Details zu N-Grammen finden Sie hier.Grafik 6: N-Gramme zu ‚Merkel‘
    Grafik 6: N-Gramme zu ‚Merkel‘
  • Konkordanz-Analyse / KWIC-Analyse
    Wie im ersten Nutzungsbeispiel (siehe oben – Konkordanzen) beschrieben, kann eine Konkordanz-Analyse Einblicke in die Realisationsformen eines Token geben. Wenn Sie das einmal selbst ausprobieren möchten, finden Sie hier die Möglichkeit und weiterführende Informationen.Grafik 7: KWIC-Belege zu Merkel
    Grafik 7: KWIC-Belege zu Merkel

Literatur

  • Bubenhofer, Noah (2009): Sprachgebrauchsmuster. Korpuslinguistik als Methode der Diskurs- und Kulturanalyse. Zugl.: Zürich, Univ., Diss., 2008. Berlin: de Gruyter (Sprache und Wissen, 4).
  • Calzolari, Nicoletta; Choukri, Khalid; Cieri, Christopher; et al. (Hg.) (2018): Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, Japan: European Language Resources Association (ELRA).
  • Francis, Winthrop Nelson; Kučera, Henry (1964): Manual of Information to Accompany ‚A Standard Sample of Present-Day Edited American English, for Use with Digital Computers*. Brown University, Providence. Department of Linguistics.
  • Kupietz, Marc; Lüngen, Harald; Kamocki, Pawel; Witt, Andreas (2018): The German Reference Corpus DeReKo: New Developments – New Opportunities. In: Nicoletta Calzolari, Khalid Choukri, Christopher Cieri und et al. (Hg.): Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). Miyazaki, Japan: European Language Resources Association (ELRA).
  • Lemnitzer, Lothar; Zinsmeister, Heike (2010): Korpuslinguistik. Eine Einführung. 2., durchgesehene und aktualisierte Auflage. Tübingen: Narr Verlag (Narr-Studienbücher).
  • Mukherjee, Joybrato (2009): Anglistische Korpuslinguistik. Eine Einführung. Berlin: Schmidt (ESV basics, 33). Online verfügbar unter http://deposit.d-nb.de/cgi-bin/dokserv?id=3126469&prov=M&dok_var=1&dok_ext=htm.
  • Perkuhn, Rainer; Keibel, Holger; Kupietz, Marc (2012): Korpuslinguistik. Paderborn: Fink (LIBAC, 3433).
  • Scherer, Carmen (2014): Korpuslinguistik. 2., aktualisierte Aufl. Heidelberg: Winter (Kurze Einführungen in die germanistische Linguistik, 2).
  • Stede, Manfred (2007): Korpusgestützte Textanalyse. Grundzüge der Ebenen-orientierten Textlinguistik. Tübingen: Narr (Narr Studienbücher). Online verfügbar unter http://deposit.d-nb.de/cgi-bin/dokserv?id=2896948&prov=M&dok_var=1&dok_ext=htm.

Zitiervorschlag

Rüdiger, Jan Oliver (2021): Artikel Korpus. In: Diskursmonitor. Glossar zur strategischen Kommunikation in öffentlichen Diskursen. Hg. von der Forschungsgruppe Diskursmonitor und Diskursintervention. Veröffentlicht am 19.04.2021. Online unter: https://diskursmonitor.de/glossar/korpus/.

 

Grundbegriffe

Erzählen

Erzählen ist eine rekonstruktive und kommunikative Tätigkeit, in der für gewöhnlich eine vermittelnde Instanz ein Geschehen darstellt. Die Darstellung kann ein/e ErzählerIn vornehmen (entspricht einer engen Definition des Erzählens) oder sie kann medial anders – beispielsweise filmisch – dargeboten werden (entspricht einer weiten Definition des Erzählens). Dabei beruht das dargestellte Geschehen auf mindestens einem Ereignis.

Konnotation

Konnotation ist ein Fachbegriff, mit dem in der Sprachwissenschaft und benachbarten Disziplinen die Nebenbedeutung (oder der ‚Nebensinn‘) eines Ausdrucks bezeichnet wird. Die konnotative Bedeutung umfasst oft wertende (evaluative) oder handlungsauffordernde (deontische) Aspekte, die mit dem Gebrauch eines Ausdrucks aufgerufen werden können.

Inklusion

Inklusion hat sich, ausgehend von einem soziologischen Fachterminus gleichen Namens, in den zwei vergangenen Jahrzehnten zu einem interdiskursiven und allgemeinen Programmbegriff gewandelt.

Framing

Kommunikationswissenschaftlicher Fachausdruck für den Deutungs- und Bewertungsrahmen, der durch einen politischen Begriff aufgerufen oder ihm fallweise beigegeben wird.

Dramaturgie

Im Rahmen strategischer Kommunikation steht Dramaturgie als Beschreibungsbegriff für den gezielten Rückgriff auf typische dramatische Muster bei der Inszenierung von Ereignissen.

Schlagwort

Im Feld der politischen Kommunikation sind Schlagwörter Ausdrücke, mit denen Positionen, Programme, Tendenzen oder Sachverhalte in verdichteter Form, wertend und mit emotionaler Aufladung präsentiert werden, z.B. als (positiv besetzte) Fahnenwörter wie Demokratie, als (negativ besetzte) Stigmawörter wie Chaot oder als Hochwertwörter wie Kultur.

Guerillakommunikation

Guerillakommunikation steht für die Beobachtung, dass es Formen der Kommunikation gibt, die von normalen bzw. als normal geltenden Kommunikationsformen abweichen und mit diesen in Konflikt stehen. Die Markierung als Guerillakommunikation (von span. guerrilla = Kleinkrieg) verweist dabei auf asymmetrische Konflikte, die aus einer unterlegenen Position heraus kommunikativ ausgetragen werden.

Techniken

Euphemismus

Der Ausdruck Euphemisierung ist eine sprachliche Strategie, die den Einsatz von sprachlichen Mitteln mit verhüllender, verschleiernder, beschönigender, abschwächender Funktion im öffentlichen Sprachgebrauch meint.

Adbusting

Adbusting (Englisch: aus „ad“ – Kurzform von „advertisement“ = ‚Werbung‘ und „to bust“ = ugs. ‚zerschlagen‘) ist die Bezeichnung für eine Reihe von kommunikativen Praktiken, die zur Verfremdung kommerzieller und politischer Werbung im öffentlichen Raum eingesetzt werden. Heutzutage spielen die Sozialen Medien eine zunehmende Rolle, da erstens digitale Bearbeitungstechniken eingesetzt werden können und zweitens durch jene ein ungleich größeres Publikum erreicht wird.

Entlarven

Entlarven ist als kritische Alltagstechnik zentral und allgegenwärtig, und aus diesem Grund so gut wie unsichtbar und wenig reflektiert. Entlarven besteht darin, das erklärte hohe Motiv einer Handlung durch Zuschreibung eines niedrigeren Motivs zu ersetzen.

Nudging

Nudging (Englisch: Schubsen, Stupsen) ist die Bezeichnung für eine Technik und Praxis strategischer Kommunikation. Dem Anspruch nach soll durch Nudging Verhalten ohne Zwang gelenkt werden, und zwar durch Veränderung der Rahmenbedingungen für Entscheidungen: durch bestimmte Voreinstellungen (z.B. Zustimmung gilt als normal, Abweichung muss markiert werden), Symbole oder auch materielle Arrangements (Barrieren, Markierungen). Nudges sind für die Adressaten oft nicht erkennbar, gleichwohl gehört Nudging inzwischen zum Repertoire aktueller Regierungstechniken.

Inszenierung

Inszenierung ist ursprünglich ein Begriff aus der Sphäre der (dramatischen) Kunst, des Theaters, der in den Kontext von Kommunikation gewandert ist. Inszenierung bezeichnet die Nutzung der Mittel des Theaters, um etwas zur Erscheinung zu bringen, „in Szene“ zu setzen. Dazu werden die Möglichkeiten der verschiedenen Zeichensysteme (sprachliche, visuelle, gestische) genutzt, darüber hinaus die Koordination in Raum und Zeit und das Spiel mit Rollen.

Propaganda

Propaganda als Kommunikationstechnik und -praxis umfasst eine Vielzahl von sprachlichen und visuellen, meist mediengestützten Formen der gezielten Beeinflussung und Steuerung des Denkens, Fühlens und Handelns von Menschen.

Schlagwörter

Identitätspolitik

Der Ausdruck steht heute für eine politische Konstellation, in der konkurrierende Wir-Gemeinschaften mit einer Diskriminierungs- und Benachteiligungsgeschichte in der Öffentlichkeit um Anerkennung konkurrieren. An der Oberfläche geht es ‚identitären‘ Wir-Gemeinschaften darum, die eigene Diskriminierung als Ermächtigungsmotiv an die Öffentlichkeit zu tragen.

Cancel Culture

Cancel Culture ist ein Kampf- und Stigmawort, das sich in skandalisierender Absicht gegen die Praxis (und oft auch bereits gegen die Forderung) des Absagens, Ausladens, Boykottierens moralisch missliebiger und politisch bekämpfter Personen, Organisationen und Positionen in Wissenschaft, Kultur und Politik wendet.

Elite

Einmal wird unter Elite eine Auswahl der Besten und Leistungsfähigsten verstanden, einmal in distanzierender Weise eine abgehobene ‚Kaste‘ der Reichen und Mächtigen im Gegensatz zum Volk. Erstere Variante wird in der Regel zur Verteidigung der etablierten Ordnung verwendet, letztere vor allem von Rechtspopulisten.

Greenwashing

Unternehmen, Regierungen, Parteien oder Organisationen bedienen sich verschiedener Praktiken, um ihr Handeln in der Öffentlichkeit ökologischer und nachhaltiger darzustellen, als es tatsächlich ist.

Altpartei

Der Ausdruck Altpartei wird in jüngerer Zeit häufig im Kontext des Aufstiegs des Rechtspopulismus und der AfD gebraucht. Dabei lassen sich hauptsächlich zwei Gebrauchsvarianten beobachten: Einerseits richtet sich der Ausdruck in abwertender Weise gegen etablierte Parteien, andererseits taucht er oft in sprachkritischen Kontexten auf, wo seine Verwendung und seine Sprecher kritisiert oder diskreditiert werden.

Verschwörungstheorie

Der Ausdruck gibt sich in der medialen Öffentlichkeit als analytisches Konzept, ist aber zugleich performativ hoch wirksam als Ausschluss aller erfolgreich so benannten Konzepte aus der rationalen öffentlichen Kommunikation.

Innovation

Innovation gehört seit den 60er Jahren zu den häufig verwendeten Schlag– bzw. Fahnenwörtern, vor allem in den Feldern von Ökonomie und Politik. Konzepte und Vorhaben mit der Überschrift Innovation werden oft als Sachzwänge dargestellt, gegen die Einwände als nicht legitim erscheinen.

Postwachstum

Postwachstum ist im deutschsprachigen Diskurs Beschreibungsbegriff und Forderung zugleich: In einer Welt mit endlichen natürlichen Ressourcen müsse die bisher von Wirtschaftswachstum und Ausbeutung abhängige globale Ökonomie radikal verändert werden, um langfristig die menschliche Existenz zu sichern.

Propaganda

Propaganda als Kommunikationstechnik und -praxis umfasst eine Vielzahl von sprachlichen und visuellen, meist mediengestützten Formen der gezielten Beeinflussung und Steuerung des Denkens, Fühlens und Handelns von Menschen.

Links-Mitte-Rechts

Das Kontinuum Links-Mitte-Rechts dient der Einordnung von Personen, Parteien, Politiken etc. in den politischen Raum, ebenso auch der politischen Selbstverortung. Die Verwendung des Orientierungsschemas ist mehrfach relativ. Sie hängt einmal vom Punkt ab, an dem sich der Sprecher selbst lokalisiert, vom Nullpunkt der Verwendung.

Verschiebungen

Ökonomisierung

Ökonomisierung wird in gegenwärtigen Diskursen in der Regel zur Bezeichnung von Prozessen verwendet, in denen die spezifisch wirtschaftlichen Funktions-Elemente wie Markt, Wettbewerb/Konkurrenz, Kosten-Nutzen-Kalküle, Effizienz, Gewinnorientierung in Bereiche übertragen werden, die zuvor teilweise oder ganz nach anderen Leitkriterien ausgerichtet waren

Moralisierung

Moralisierung verlagert Macht- und Interessenkonflikte in die Sphäre der Kommunikation von Achtung / Missachtung. Sie reduziert Ambivalenz zugunsten einer Polarisierung von gut und böse.

Konstellationen

…noch keine Titel gelistet

« Zurück zum Glossar « Zurück zur ArtikelübersichtGlossar-Eintrag Kategorie: ...Verwandte Ausdrücke: ...Siehe auch: ...Autorin: ... Version: 1.0 / Datum: ...Inhaltsübersicht Kurzzusammenfassung Erweiterte Begriffserklärung Beispiele Literatur ZitiervorschlagHinweis:...