Warum wir über Wahldaten reden müssen

von Ulrike Thalheim und Boris Hekele am 19.01.18

2017 – das war unter anderem das Jahr der Bundestagswahl. Während CDU, CSU und SPD darüber reden, ob sie für weitere vier Jahre eine Regierung bilden wollen, möchten wir noch einmal auf die Wahl zurückblicken und haben dazu verschiedene Wahldatennutzerinnen und -nutzer um ihre Einschätzung gebeten.

Bei den Wahlsalsons von Code for Germany im Mai, Juli und September haben wir uns im Vorfeld der Wahlen die Frage gestellt, wie es um die Wahldaten steht: Welche Daten geben Bundeswahlleiter, Landeswahlleiterinnen und -leiter, Kreiswahlleiterinnen und -leiter heraus? Wie einfach ist der Zugang zu diesen Daten? Genügt die Datenqualität? Welche Standards bewähren sich?

Wahldaten-Einmaleins

Bundestagswahlen sind föderal organisiert: Der Bundeswahlleiter stellt das amtliche Endergebnis fest, nachdem die jeweiligen Landeswahlleiterinnen und -wahlleiter die Ergebnisse auf Länderebene ermittelt haben. Für die Daten auf Wahlbezirksebene aus den einzelnen Wahllokalen sind die Kreiswahlleiterinnen und -wahlleiter zuständig.

Wahldaten, genauer gesagt machinenlesbare Daten zu Wahlen, werden von vielen verschiedenen Nutzergruppen benötigt: Datenjournalistinnen und -journalisten haben die Bundestagswahl schon lange vorher mit Reportagen und Datenanalysen begleitet und bereiten dann in der Wahlnacht die Ergebnisse visuell auf. Wissenschaftlerinnen und Wissenschaftler analysieren die Bundestagswahl vor allem im Nachhinein. Open Data-Freundinnen und Freunde basteln ihrerseits in der Freizeit an Angeboten, die zum Teil sehr kreativ sind. Selbst Parteien haben ein Interesse daran, ein umfassende Datenbasis zur Wahl für Kampagnenplanung und Ergebnisanalyse zur Verfügung zu haben.

Vergleich zur Bundestagswahl 2013

Besonderer Dank gilt zunächst dem Team des Bundeswahlleiters. Dessen Aufgeschlossenheit gegenüber der Community zeigte sich schon durch ihren Besuch bei den Wahlsalon-Veranstaltungen in Berlin. Vor, während und nach der Wahl waren die Mitarbeiterinnen und Mitarbeiter sehr offen gegenüber Anregungen und Anfragen wurden jederzeit schnell beantwortet. Von zentraler Bedeutung ist dabei auch der kurze Weg über den neu geschaffenen Twitter-Account @Wahlleiter_Bund, wie Malte Will, zuständig für Product Partnerships bei Google, betont. Außerdem setzen sie sich aktiv dafür ein, dass der Datensatz mit den Ergebnissen aus allen Wahlbezirken nicht mehr käuflich für 95 Euro je CD erworben werden muss. Die Gebühren entstanden, weil Länder die Verwaltungskosten gegenüber dem Bundeswahlleiter geltend machen dürfen.

Zwischen 2013 und 2017 hat sich laut Michael Hörz, Datenjournalist beim RBB, allerdings dann doch nicht allzu viel verändert, auch wenn das nicht immer schlecht sein müsse. So veröffentlichte Berlin, als Positivbeispiel, zum wiederholten Male Daten von den fast 1800 einzelnen Wahlbezirken inklusive der jeweiligen soziodemographischen Strukturdaten. Da fallen andere Bundesländer wie Brandenburg oder das Saarland mit weniger Datentiefe natürlich auf.

Zwischen zwei Bundestagswahlen liegen vier Jahre und damit auch viel Zeit für ein neues Website-Design. Auch der Bundeswahlleiter erneuerte seine Website mit verbessertem Informationsangebot für Bürgerinnen und Bürger. “Nur leider seien alle Links zur alten Website jetzt tot”, so Arndt Leininger, Politikwissenschaftler an der Uni Mainz. Darauf aufbauende Angebote und Scraper, d.h. Programme, die automatisch Daten von Websites abgreifen, müssen dann manuell angepasst werden – ein vermeidbarer Aufwand.

Datenverfügbarkeit

Viele Daten, die zur Wahl entstehen, werden nicht frei verfügbar gemacht. Zu recht enttäuscht zeigte sich das OK Lab Karlsruhe. Die Lab-Mitglieder Corinna Hertweck und Kai Wieland hatten für die Wahlnacht einen Workshop geplant, bei dem Datenvisualisierungen auf Basis von aktuellen lokalen Wahlergebnissen entstehen sollten. Der städtische Open Data-Beauftragte wurde frühzeitig involviert und das Wahlamt sagte zu, die Wahlergebnisse auf Wahlbezirksebene zu veröffentlichen. Das Wahlamt überlegte es sich jedoch noch einmal anders, da konnte auch der Open Data-Beauftragte nichts mehr bewirken. Das führte dazu, dass die geplanten Visualisierungen behelfsweise nur für die Bundestagswahl 2013 umgesetzt wurden¹. Die 10 Workshop-Teilnehmerinnen und -teilnehmer blieben also frustriert auf ihrem Engagement² sitzen. Auf eine IFG-Anfrage hin veröffentlichte das Wahlamt die Ergebnisse anderthalb Monate später. Auch die Geodaten der Wahlbezirke wurden erst auf Grundlage einer IFG-Anfrage zur Verfügung gestellt.

Es existiert deutschlandweit keine einheitliche Regelung dazu, wann diese Ergebnisse nach der Wahl in maschinenlesbarer Form verfügbar gemacht werden müssen. Auch Patrick Stotz, Datenjournalist bei Spiegel Online, wünscht sich eine bundesweite Veröffentlichung der Wahlergebnisse auf Ebene der Wahlbezirke inklusive der zugehörigen Geodaten. Zum Hintergrund: Der Bundeswahlleiter veröffentlicht zeitnah nur Ergebnisse bis zur Wahlkreisebene. Die käuflich zu erwerbende CD mit der Wahlbezirksstatistik zur Bundestagswahl 2013 ist erst im Dezember 2014 erschienen³. 2017 standen die Daten bis zum Erscheinen dieses Artikels noch nicht zur Verfügung. Damit einher kommt auch die Diskussion um Lizenzen. Oftmals fehlen Lizenzhinweise, z.B. auch bei der Daten-CD. Eine Weitergabe der Daten ist dann nicht möglich. Auch die Nutzungsbedingungen sind selten festgelegt. Natürlich wäre eine freie Lizenz wünschenswert.

Lob kommt von Arndt Leininger: Die Wahlkreiszuschnitte seien vor der Wahl in verschiedenen Dateiformaten verfügbar gewesen. Zudem stellte der Bundeswahlleiter in der Wahlnacht eine maschinenlesbare Datei mit laufend aktualisierten Daten bereit. Die Kehrseite: Die Zugriffsrechte auf diese Datei erhält man nur nach vorheriger Anmeldung. Die restliche Zivilgesellschaft muss sich mit einer langsameren, nicht-machinenlesbaren Ergebnispräsentation zufrieden geben. Ein weiterer Kritikpunkt bezieht sich auf Tabellen und Grafiken, welche auf den Seiten der Landeswahlleiterinnen und -wahlleiter veröffentlicht werden: die zugrundeliegenden Daten sind selten per Klick herunterzuladen.

Patrick Stotz nennt konkrete Wünsche zur Aufbereitung der Kandidierendeninformationen. Ein Datensatz mit dem Geburtsdatum statt Geburtsjahr, dem Geburtsort, der Information, ob eine Kandidatin oder ein Kandidat schon einmal Mitglied des Bundestages war und ein festgelegtes Kategoriensystem für die Berufsbezeichnungen. Gleiches wünscht sich auch Marie-Louise Timcke, Datenjournalistin bei der Berliner Morgenpost: “Es wären umfangreichere Daten zu den Kandidaten wünschenswert, insbesondere mit einer Einordnung in Berufsgruppen”. Fraglich bleibt, ob der Bundeswahlleiter aufgrund strenger Datenschutzregelungen überhaupt berechtigt ist, diese Informationen herauszugeben. Die aktuelle Bundeswahlordnung (BWO, §38) erlaubt z.B. derzeit nur die Veröffentlichung des Geburtsjahrs.

Marie-Louise Timcke wünscht sich zudem historische Wahldaten, “inklusive Umrechnung auf die jeweils aktuellen Wahlkreise”. Michael Hörz fügt zur Daten-Wunschliste hinzu: “alle Excel-Formate als CSV, idealerweise aber als JSON und vor allem als API - was man damit am Wahlabend machen könnte!”.

Datenformate

Eng verknüpft mit der Datenverfügbarkeit ist das Datenformat. Etliche Daten liegen noch nicht einmal im digitalen, machinenlesbaren Format vor. Stattdessen werden Informationen auch in Amtsblättern veröffentlicht, welche als pdf-Dateien vorliegen. Dabei zeigt jedes Bundesland eine individuelle Herangehensweise. Fehlende Standards stellen sich als großes Problem dar, beklagt Sebastian Vollnhals, Datenjournalist bei Data Science & Stories, die für den Tagesspiegel Datenvisualisierungen entwickelt haben. So ändern sich oft kurzfristig, auch am Wahlabend, Datenformate. Werden diese aber für die aktuelle Berichterstattung benötigt, so müssen längst automatisierte Prozesse wieder umgeschrieben werden. Auch Malte Will (Google) weist auf die fehlende Standardisierung der Datenformate auf Gemeinde-/Kreis-/Länder- und Bundesebene hin: “Eine weitere Standardisierung über diese Ebenen wäre wünschenswert, es würde helfen Prozesse zu beschleunigen, Fehler zu vermeiden und vor allem Kosten sparen”. Das gilt ganz sicher für alle Anwendergruppen von Wahldaten.

Die Dokumentation der Datenbestände lässt ebenfalls zu Wünschen übrig. Viele csv-Dateien weisen eine mangelhafte Struktur auf: Mehrzeilige Kopfzeilen, kumulierte Zwischenergebnisse oder Leerzeilen sind keine Seltenheit. Aus der Not heraus veröffentlichen dann Dritte wie Arndt Leininger aufbereitete Datensätze⁴, um anderen die gleiche Mühe zu ersparen. “Auch wenn die Ersteller der Tabellen sich wirklich etwas bei der Struktur gedacht haben mögen”, so Marie-Louise Timcke, “aber für uns Datenjournalisten bedeutet sie unnötig mehr Aufwand für die Datenbereinigung, wenn Spaltennamen verschachtelt und unnötige Leerzeilen vorhanden sind”.

Datenqualität

Der Teufel steckt dabei im Detail, die Daten sind in ihrer Gänze unübersichtlich und führen dadurch in den Anwendungen ungewollt zu Fehlern. Patrick Stotz von Spiegel Online dazu: “Wir haben ungläubig auf den Bildschirm geschaut, als wir feststellten, dass die csv-Datei mit den Kreisergebnissen (kerg.csv) gegenüber 2013 verschlimmbessert wurde. Die Einträge in der ID-Spalte („Nr“) sind nicht mehr eindeutig, Wahlkreise und Bundesländer sind lediglich durch die Spalte „gehört zu“ auseinander zu halten. Das ist potentiell fehleranfällig.”

Verwunderung herrschte auch über die Änderung der Berliner Wahlkreisergebnisse in der Wahlnacht. Informationen vom Bundeswahlleiter und der Berliner Landeswahlleiterin wichen voneinander ab. So wurde zunächst Tim Renner (SPD) zeitweise als Gewinner des Wahlkreises 80 bekanntgegeben. Wenig später revidierte man das Ergebnis – Klaus-Dieter Gröhler (CDU) gewann den Wahlkreis.

Resümee

“Da ist enorm viel Luft nach oben” resümiert Sebastian Vollnhals. Das liegt insbesondere daran, dass nicht alle Datenlieferanten gleich aufgeschlossen gegenüber offenen, wohlstrukturierten Daten sind. Wir werden uns deshalb auch nächstes Jahr mit Wahldatenstandards auseinandersetzen, ob nun zu einer erneuten Bundestagswahl oder den regulär anstehenden Landtagswahlen im Herbst. Auch wenn die Datenqualität sukzessive über die Jahre besser geworden ist, wäre es sehr wünschenswert, wenn Formate über die Bundesländer hinweg vereinheitlicht würden. Die Entwicklung eines gemeinsamen Standards wäre ein großer Gewinn für die Nachvollziehbarkeit der Wahlen. Es ist immer noch einzelnen Menschen mit viel Zeit und Geduld zu verdanken, dass aus den fragmentierten Daten ein verständliches Gesamtbild wird. Deshalb ist es letztlich vor allem großen Redaktionen mit eigenen Datenjournalistinnen und -journalisten vorenthalten, Anwendungen zur Wahl zu schreiben.

Wären Standards vorhanden, würden sich viele Interessierte und Engagierte nicht frustriert wieder abwenden. Die Wahlen und ihre Wahldaten wären ein hervorragendes Mittel, um Demokratie erlebbarer und durch seine Vielfalt an Anwendungen bunter zu gestalten. Denn Demokratie soll nicht nur davon leben, dass wir nur einmal alle vier Jahre zur Wahl gehen. Diese Verantwortung gegenüber insbesondere jungen oder zukünftigen Wählerinnen und Wählern liegt auch bei den Landeswahlleiterinnen und -leitern, Kreiswahlleiterinnen und -leitern. Die Möglichkeiten dazu sind gegeben, es ist Zeit sie auch zu nutzen.

Danksagung

Wir bedanken uns bei Marie-Louise Timcke, Michael Hörz, Arndt Leininger, Lutz Mache, Patrick Stotz, Sebastian Vollnhals, Kai Wieland, Malte Will und ihren Kolleginnen und Kollegen für die ausführlichen Berichte zu ihrem ganz individuellen Umgang mit Wahldaten. Dank gilt auch den Teilnehmenden der Wahlsalons, die uns, Ulrike und Boris, wertvolles Feedback zum Wahldatentransparenzranking gegeben haben. Wir bedanken uns auch beim Team des Bundeswahlleiters, die den Nutzerinnen und Nutzern ihrer Daten mit Interesse und Aufgeschlossenheit begegneten.

Disclaimer

Code for Germany hat 2017 Wahlsalons organisiert und erhielt dafür von Google finanzielle Unterstützung. Dieser Artikel ist unabhängig von der Zusammenarbeit mit Google entstanden.

Tl;dr

Die Datenverfügbarkeit und Datenformate zu Wahlen in Deutschland fällt sehr unterschiedlich aus, hat aber auf vielen Ebenen noch viel Potenzial. Wahldatenstandards müssen her, da sind sich alle Anwenderinnen und Anwender einig.

^{1 https://codeforkarlsruhe.github.io/btw2017-stadtteile/ und https://codeforkarlsruhe.github.io/btw2017-stadtteile/}

^{2 https://fragdenstaat.de/anfrage/wahlergebnisse-der-bundestagswahl-2017/}

^{3 https://www.bundeswahlleiter.de/dam/jcr/ff5dfb89-c581-4106-bf37-ecd6b709ce3d/btw13_cd_cover.pdf}

^{4 https://gitlab.com/arndtl/tidy_kerg}

![Blog]

Warum wir über Wahldaten reden müssen