Was ist Natural Language Processing (NLP)?

Das "Natural Language Processing" ist ein Bereich der Computerlinguistik. Mithilfe von künstlicher Intelligenz wird versucht, dass ein Computer den Inhalt eines Textes "versteht". Der Computer kann den Text dann sortieren und kategorisieren, Verbindungen herstellen und auf verschiedenste Weise auswerten. Genaueres zu diesen Auswertungen finden Sie in den unten gelisteten Punkten.

"Standing on the shoulders of giants"

von ARTLAS Designs

Text Technology Lab und spaCy (Named-Entities, Sentiment etc.)

spaCy ist eine Library, welche NLP Werkzeuge und Methoden bereitstellt. Das Text Technology Lab der Goethe-Universität Frankfurt nutzt diese, um NLP Pipelines zu erstellen. Dies werden von der Bundestags-Mine genutzt, um die Reden der Abgeordneten im Deutschen Bundestag zu analysieren und annotieren.

Mehr erfahren
Automatic Text Summarization (+ Übersetzungen und Sprach-Modelle)

Die Kunst, Dokumente und Texte maschinell zusammenzufassen. Dies wird in der Bundestags-Mine genutzt, um die Reden der Abgeordneten im Deutschen Bundestag automatisch zusammenzufassen.

Mehr erfahren
VecTop
Vector Database for Topic Extraction using Contextualized Word Embeddings

Gegeben sei ein unbekannter Text. Wie können wir diesen Text in Kategorien und Unterkategorien einordnen, um somit eine strukturierte Übersicht eines ganzen Korpus zu erhalten? Unteranderem mit VecTop.

Mehr erfahren
Web Scraper

Die Daten (Reden, Protokolle, Drucksachen, etc.), die hier in der Bundestags-Mine verarbeitet und benutzt werden, sind alle von der Seite des deutschen Bundestags ge-webscraped worden.

Mehr erfahren
Source Code

Sowohl die Webapplikation "Bundestags-Mine", als auch die in Java genutzte NLP Pipeline und alle anderen Services sind öffentlich auf GitHub einzusehen. Dazu gibt es die zwei Repositories "NLP-Service" und "Bundestags-Mine".

GitHub