Die Sprache Pegidas

  • Hannes Bajohr
  • ·
  • 2015-01-29
31

Die Dresdner Pegida-Märsche, die ab Winter 2014 eine Größe annahmen, die bundesweit für ein plötzliches Aufschrecken sorgte, wurden ausschließlich über Facebook-Seiten organisiert und angekündigt. Dass die Verteidiger des Abendlandes gegen den Islam es mit den christlichen Tugenden nicht so genau nahmen, wussten die Veranstalter. Sie löschten die in den Kommentaren geposteten Ausfälle und Tiraden ihrer Anhänger in regelmäßigen Abständen zusammen mit ihren eigenen Postings.

Anfangs nur zu Dokumentationszwecken ließ 0x0a (Gregor Weichbrodt und Hannes Bajohr) diese Kommentare durch ein Scraping-Script regelmäßig sammeln. Seit Dezember letzten Jahres ist bis heute ein 282.596 Kommentare und 7.751.654 Wortformen umfassendes Textkorpus der Pegida-Sprache entstanden. Erst jetzt umfangreich genug um repräsentativ zu sein, stellen wir es heute online. Zwar enthält es, da ungefiltert gesammelt, auch die Stimmen der Gegner Pegidas, dennoch ist diese Datenbank zur linguistischen Auswertung nicht weniger als zur literarischen Nutzung geeignet.

Ob Pegida nur Ängste artikuliert oder Hass schürt, ob sich unter ihrem Namen besorgte Bürger austauschen oder Rachephantasien Luft gemacht wird, mit welcher Häufigkeit, Wertung und Ausgewogenheit Wörter wie »Systemmedien«, »Lügenpresse«, »Gutmenschen« oder »Islamisierung« auftauchen, wann zu Besonnenheit und wann zu Provokation aufgerufen wird – all das kann man hier nachlesen, parsen, quantitativ analysieren oder künstlerisch aufbereiten. Wir hoffen, dass man davon Gebrauch machen wird.

Download: Das Pegida-Korpus als Textdatei

Was die letzte, künstlerische Möglichkeit betrifft, gab Gregor Weichbrodt bereits Anfang Januar eine erste Kostprobe aus diesem Korpus. Maschinell arrangierte er Textzeilen zu Reimen und schuf so eine imaginierten »Antwort« Pegidas auf das im Januar in der taz veröffentlichen Gedicht einiger DDR-Oppositioneller. — »Pegida kommt zu Wort«

Mit aktuellen, um einige tausend Stimmen erweiterten Korpus versuchen wir eine zweite Verarbeitung der Pegida-Sprache. Indem die angebliche Verteidiger des christlichen Abendlandes mit den paulinischen Tugenden von »Glaube, Liebe, Hoffnung« konfrontiert werden, lassen wir sie selbst artikulieren, was sie glauben, lieben und hoffen. Dass vor allem Deutschland geliebt wird, überrascht weniger als die Wünsche der Kommentatoren, die von Umsturz- und Gewaltfantasien bestimmt sind. — »Glaube Liebe Hoffnung«

Download: Glaube Liebe Hoffnung als PDF-Datei

UPDATE: Auf Reddit hat sich jemand die Mühe gemacht und die Daten ins CSV konvertiert.

UPDATE 2: @Balzer82 hat hier eine saubere Version der CSV und sein Script zur Visualisierung und Auswertung des Pegida-Korpus verfügbar gemacht.

  • Großartige Idee! Der Datensatz scheint sich auch für eine wissenschaftliche Auseinandersetzung mit Pegida eignen zu können. Man muss vielleicht Datenschutzdinge wie Namen anonymisieren (kenne mich da nicht so aus), aber das erlaubt schon einen gewissen Blick auf die Bewegung.

    “Glaube. Liebe. Hoffnung” erlaubt da ja schon einen guten Einblick.

    • Stimmt – die Namen sind jetzt vollständig anonymisiert.

      • OGC

        Schöner wäre Pseudonymisierung, so kann man z.B. nicht rausbekommen ob manche Personen sehr viel kommentieren.

  • Martin

    Danke für die Arbeit und dass Ihr das zur freien Verfügung stellt.
    Sind die Kommentare alle von der offiziellen Pegida-facebook-Seite?
    Lässt sich noch feststellen, welche Kommentare zu einem bestimmten Artikel verfasst wurden, oder habt Ihr die einfach durcheinander zeitlich geordnet in ein file geschrieben?
    Beste Grüße,
    martin

    • Gregor Weichbrodt

      Die Kommentare sind der Pegida-Facebookseite, sowie den Facebookseiten der Pegida-Ableger (“Legida”, “Bärgida” etc.) entnommen. Wir sind auch noch im Stande nachzuvollziehen, welcher Kommentar zu welchem Post gehört. Allerdings ist dies im veröffentlichten Korpus nicht sichtbar.

  • Alvar

    Tolle Sache! Interessant wäre da noch, welche der Texte gelöscht wurden. Also z.B. ob das primär solche mit rechtswidrigem Inhalt waren und wenn ja mit welchem; oder ob es primär die Widerrede war. Und wie hoch der Anteil der gelöschten Texte ist … 😉

  • Interessanter Datensatz! Habt ihr den auch in maschinenlesbarer Form (csv, json, …)?

  • Quark

    Csv datei wäre sehr schön, oder gibt es einen einfachen workaround, um das umzuwandeln?

    • Thomas

      Also Zeilenwechsel durch das Trennzeichen deiner Wahl ersetzen, dann ###…### durch Zeilenwechsel (o.ä).
      Mit dem “T” kann man auch leicht Datum und Uhrzeit trennen.
      Oder gibt’s da andre Probleme, die ich nicht sehe?

      • Thomas

        Okay, etwas komplizierter, aber mit ### und dem Zeitformat als Anhaltspunkte geht das trotzdem so ähnlich.

    • Gregor Weichbrodt

      Auf Reddit hat sich jemand die Mühe gemacht und die Daten ins CSV konvertiert: http://www.reddit.com/r/de/comments/2u76ss/blogger_ver%C3%B6ffentlicht_282596_ungefilterte/co5w4jr

  • vanforte
  • Balzer82

    Eine sauberere CSV kann man hier runter laden: https://github.com/balzer82/PegidaSprache/blob/master/pegida_korpus.csv?raw=true

    Und ein paar Visualisierungen hier:
    http://balzer82.github.io/PegidaSprache

  • Cas

    Habe daraus valides JSON produziert: http://j.mp/1BMGZkp

  • Torsten

    Super Daten, vielen Dank! Allerdings: da sind auch Kommentar von Pegida-Gegnern bei und auf den ersten Blick sind das gar nicht so wenige.

    • Torsten

      P.S. Ich erinnere mich, dass die Pegida-Gruppe anfangs auch offen war, d.h. man ohne “joinen” kommentieren konnte. Das hatte möglicherweise auch einen Einfluss auf Themenverläufe und Worthäufigkeiten. Z.B. wird das Wort “Nazis” seltener aufgetaucht sein, als die Pegida-Gruppe nur noch für Mitglieder kommentierbar war.

      just my 2 cents

      • Gregor Weichbrodt

        Hallo Torsten! Hier liegt eine Verwechslung vor: Das Pegida-Korpus besteht nicht aus Kommentaren der geschlossenen Pegida-Facebook-Gruppe, sondern der öffentlichen Pegida-Facebookseite und den Facebookseiten der Ableger (Legida, Kagida usw.)

        • Torsten

          Hallo Gregor,

          Danke für die Rückmeldung. Ich habe mich ungenau ausgedrückt. Auf der m.E. größten Pegida-Facebookseite: https://www.facebook.com/pages/PEGIDA/790669100971515?fref=ts (ca 160.00 Freunde) kann man seit ca. 1 Monat nicht mehr kommentieren, wenn man die Seite nicht vorher geliked hat. Vorher wurden dort sehr viele Kommentare von Pegida-Kritikern abgegeben. Das heißt, a) dass der Korpus nicht nur die “Sprache Pegidas” enthält, sondern auch die Sprache an und über Pegida. Und b) dürften sich Worthäufigkeiten stark geändert haben, seit dem dort nur noch Freunde kommentieren dürfen.

          Oder habe ich eine Pegida-Gruppe übersehen?

          • Gregor Weichbrodt

            Hallo Torsten,

            was du jetzt zum zweiten Mal hier zum Ausdruck gebracht hast (dass auch die Stimmen der Gegner Pegidas im Korpus vorhanden sind), steht auch oben im Blog-Artikel – und zwar seitdem er öffentlich ist. Das haben wir von Anfang an klar gemacht.
            Die Unterscheidung zwischen Pegida-Anhängern und Gegnern dieser Bewegung ist bei der Größenordnung dieser Textsammlung maschinell leider schwer zu filtern. Ein Blick in das Korpus verrät aber, dass letztere in der Unterzahl sind.
            Was wir scheinbar nicht deutlich genug im Blog-Artikel formuliert haben, ist die Tatsache, dass nicht nur die offizielle Pegida-Facebookseite, sondern mit ihr alle Ableger dieser Bewegung im Fokus der Betrachtung standen – also auch Pegida-Facebookseiten, dessen Kommentar-Politik eine andere ist (auch Kommentare erlaubt wenn nicht “gefällt mit” geklickt wurde).
            Eine Anmerkung zum Schluss: Nur weil ich auf Facebook “Gefällt mir” geklickt habe, bringt das nicht unbedingt zum Ausdruck, dass mir tatsächlich etwas “gefällt”. Ich kann aus Kalkül “Gefällt mir” klicken, um eben Zugang zu der Kommentar-Funktion zu erhalten. Das muss natürlich jeder selber entscheiden, wie er mit dieser Funktion umgeht. – Wenn man sich auf Facebook umschaut, wird jedoch deutlich, dass der “Gefällt mir”–Button von Usern zweckentfremdet wird.

          • Torsten

            Hallo Gregor,

            danke für Deine Rückmeldung. Das (“…steht auch oben im Blog-Artikel – und zwar seitdem er öffentlich ist. Das haben wir von Anfang an klar gemacht.”) hatte ich gelesen. Finde ich auch gut, dass darauf hingewiesen wird. Diese Aussage passt dann aber m.E. nicht zur Überschrift (bzw. die Überschrift nicht zum Korpus). Auch wenn die Gegner in der Unterzahl sind (49%?) können sie ja erheblich viel Material erzeugt haben.

            Die Berücksichtigung anderer -gida-Seiten ist mir auch klar geworden.

            Mit dem “Gefällt mir”: ich weiß was Du meinst; mein Punkt betrifft allerdings die Beziehung zwischen Gruppenstatus (öffentlich vs. geschlossen) und diachronem Wortgebrauch. Da der Gruppenstatus der größten -gida-Gruppe zwischendurch gewechselt hat, scheint mir das relevant.

  • C.Peter Seibt
  • Laura

    Vielen Dank für den Datensatz! Würde ihn gerne wissenschaftlich auswerten, bräuchte allerdings eine Trennung der Seiten (Pegida, Legida, Bärgedia…), Nutzernamen bzw. eine eindeutige Zuordnung der Kommentare zu Personen und eine Zuordnung der Kommentare zu Posts. Könnt ihr mir dabei helfen? Wäre euch für Tipps dankbar.

    • Leo

      Wurden denn die Facebookseiten aller Pegida-Ableger bei der Korpusgewinnung berücksichtigt (Legida, Bärgida, Fragida, Dügida, Kagida, Kögida, Bogida, Hagida, Saargida, MVgida, Sügida, Nügida und wie sie alle heißen)?

  • Pingback: Pegida Poetry | Alternativen zur Kapitulation()

  • Pingback: Künstler sammeln 282.596 Facebook-Kommentare von Pegida-Fans | Demokratisch()

  • Yvonne Maaßen

    Großartiges Projekt! Danke!

  • Maik

    Hallo zusammen,
    mich würde interessieren nach welchen Kriterien die Kommentare für “Glaube Liebe Hoffnung” ausgewählt wurden. Was dies eine rein künstlerische Entscheidung? Das Korpus enthält ja weit mehr Kommentare mit eben diesen Satzanfängen.
    Mit freundlichen Grüßen,
    Maik

    • Ja, das war eine künstlerische Entscheidung. Aber sie führt einige Beispiel aus dem sonst unüberschaubaren Korpus vor.

  • Colonel Xaven

    Ob man die Erhebung aktualisieren kann?