Bundestags-Mine: Natural Language Processing, Datenanalyse & KI Auswertungen trifft den Bundestag

Web Scraper

Unter Web Scraping versteht man das Extrahieren von Inhalten und Daten aus Webseiten. Es wird programmatisch die Ziel-Website angesteuert, um dort dann automatisiert die gewünschten Daten abzuspeichern. Es ist wichtig zu verstehen, dass ein Web Scraper kein "Hacking"-Tool ist und auch nichts Illegales darstellt. Ein Web Scraper sammelt nur das, was sowieso öffentlich im Internet zur Verfügung steht. Natürlich kann man auch dieses Vorgehen bösartig gestalten, jedoch passiert dies im Kontext der Bundestags-Mine natürlich nicht.

Unten aufgezählt sind alle Daten, die in die Bundestags-Mine zyklisch per Web Scraping importiert werden.

Sitzungsprotokolle/Reden

Zu jeder Sitzung im Bundestag wird vom Bundestag ein XML-Protokoll angelegt und zum Download bereitgestellt. Diese Protokolle werden per Web Scraper runtergeladen und via XML Parser in die gewünschte Form gebracht, bevor sie dann erst durch alle NLP Pipelines laufen und am Ende in die Datenbank abgelegt werden. Die Protokolle sind hier zu finden und beinhalten alle Reden samt Kommentare in der jeweiligen Sitzung.

Abgeordnete

Zu jeder Rede wird eine RednerId in den Sitzungsprotokollen gespeichert. Anhand einer Stammdaten-ZIP-Datei lässt sich die RednerID einem Abgeordneten zuordnen. In dieser Stammdaten-Datei, die ebenfalls hier zu finden ist, werden Informationen wie Name, Alter, Beruf, Partei, Fraktion, etc. aufgeführt. Diese Informationen werden ebenfalls in die Bundestags-Mine importiert.

Tagesordnungspunkte

Die Tagesordnungspunkte werden hier ausgestellt. Der Web Scraper durchsucht diese und speichert, sofern es neue TOPs gibt, den Namen sowie die Beschreibung samt Drucksachen jedes TOPs ab.

Abstimmungen

Alle Abstimmungen werden unteranderem hier ausgestellt. Sie liegen entweder als PDF oder Excel Datei vor. Die Bundestags-Mine lädt jeweils die Excel Dateien runter, liest die Ergebnisse aus und speichert sie in die Datenbank ab, um sie dann auf der Webseite darzustellen.