Lädt

Die Bundestags-Mine

Natural Language Processing trifft auf den Bundestag.

Sammeln der Daten:

Die Daten der Bundestags-Mine wie Sitzungsprotokolle, Abstimmungen, Reden werden via Webscraper direkt von der Seite des deutschen Bundestags runtergeladen.

NLP-Pipelines:

Diesen Daten werden NLP-Pipelines unterzogen, welche Token, Named-Entities und Sentiments berechnen. Außerdem werden automatische Zusammenfassungen der einzelnen Reden generiert.

Interaktion:

Über die Bundestags-Mine lassen sich sowohl mit den Rohdaten, als auch mit den Auswertungen der KI, eigene Analysen und Recherchen anfertigen. Dazu steht ihnen eine breite Auswahl an Funktionen zur Verfügung.

Open Source:

Das Projekt "Bundestags-Mine" ist zu 100% transparent. Der Quellcode lässt sich auf GitHub einsehen und im Download Center können alle Daten für ihren eigenen Gebrauch heruntergeladen werden. Im Research Center werden die technischen Hintergründe erläutert.

Kostenlos Account


Jetzt auch mit API!
Was ist Natural Language Processing und was genau wird in der Bundestags-Mine verarbeitet?
Mehr dazu im Research Center!

Häufig gestellte Fragen

Was ist die "Bundestags-Mine"?

Die Bundestags-Mine ist eine Aufbereitung linguistischer Daten-Auswertungen der Plenarprotokolle des deutschen Bundestags. Die Daten-Auswertung findet dabei mithilfe des "Natural Language Processing" statt, welches das Text Technology Lab der Goethe Universität Frankfurt, zur Verfügung stellt.

Wie entstand die Bundestags-Mine?

Bundestag-Mine.de ist aus einem Uni-Projekt heraus entstanden und wurde ursprünglich von einer Gruppe bestehend aus 4 Studierenden gebaut. Seit Modul-Ende wird das Projekt alleine weitergeführt.

Woher kommen die Daten?

Alle Daten, die hier aufbereitet und in die NLP-Analyse gegeben werden, wurden von der offiziellen Seite des Bundestags abgefragt. Der Bundestag bietet einen "Open Data Service", der viele Protokolle und Unterlagen zum Download bereitstellt. Alle anderen Daten, die dort nicht enthalten sind, wurden per Webcrawler von der Seite "ge-scraped" (abgefragt).

Wie wird die Seite entwickelt?

Die Seite wurde zu Anfang mit Java entwickelt, aber dann nach C# ASP.NET Core portiert. Das Projekt ist Open-Source auf GitHub zu finden.

Warum sind die Token und POS außer Betrieb?

Die Token und POS-Charts in der Dashboard-Ansicht sind grade außer Betrieb, da ich dank fehlender Lizenzen und einem Budget-Mangel, erfinderisch mit meiner Datenbank umgehen muss. Meine Haupt-Datenbank ist voll und mehr Speicher kostet Geld. Also muss ich auf mehrere Datenbanken verteilen, was stark die Performance beeinträchtigt und manche Funktionen nicht wirklich erlaubt. Deshalb fallen leider die beiden Charts aus und die Text Analyse benötigt länger zum Berechnen.

Wieso lädt die Text-Analyse so lange?

Auch dies ist darauf zurückzuführen, dass ich mir keine weitere Lizenzen für Datenbanken leisten kann. Dadurch muss ich auf Tricks umsteigen, was unteranderem die Anbindung 2 verschiedener Datenbanken bedeutet. Das zehrt an der Performance, speziell bei den Token. Unter dem Support-Tab können Sie Entwicklung unterstützen!

Kann ich selbst Daten abfragen (API)?

Es ist eine API in Planung, welche es Besuchern der Seite erlaubt, sowohl Roh-Daten als auch ausgewertete Datensätze dynamisch abzufragen und für eigene Auswertungen zu nutzen. Im Moment gibt es dies nicht explizit - daher verweise ich bis dahin auf das Download Center.

Welche Daten werden hier aufbereitet?

Plenarprotokolle, Tagesordnungspunkte, Reden, Kommentare, Drucksachen, Abstimmungen und Abgeordnete. Wir haben ca. 26.000 Reden bei >300 Protokollen mit über 20.000.000 Token.

Brauche ich einen Account?

Nein.

Muss ich etwas bezahlen?

Nein.

Kann ich das Projekt unterstützen?

Natürlich! Feedback und Weiterempfehlung ist die einfachste Form der Unterstützung. Ansonsten kannst du dir gern den Source-Code auf GitHub anschauen und dort programmatisch mitwirken. Über Geld-Spenden, um die Hostingkosten vielleicht auszugleichen, freuen wir uns genauso. Hierfür verweise ich auf den Support-Tab!

Ich habe einen Fehler gefunden

Über das Kontakt-Feld im Footer kannst du uns gern genau den Fehler beschreiben.

Detailansicht