Automatic Text Summarization
"Mit dem stetigen Wachstum des Internets steigt auch die Masse an Informationen in Form von Dokumenten und Artikeln. Dies erzeugt ein Verlangen nach komprimierteren Darstel- lungen dieser Texte, ohne den relevanten Informationsgehalt zu verlieren. Automatic Text Summarization ist der Vorgang, eine flüssige und korrekte Zusammenfassung des Inputs zu generieren und dabei die originale Kernaussage abzubilden."
Jede Rede in der Bundestags-Mine läuft durch eine Automatic Text Summarization Pipeline. Die Pipeline
übersetzt erst jede Rede ins Englische, fasst diese dann mit 3 verschiedenen Ansätzen zusammen (TextRank, PEGASUS, BART)
und übersetzt die englischen Zusammenfassungen wieder ins Deutsche zurück.
Eine detaillierte Ausarbeitung dieses Unterfangens befindet sich im Paper "Chancen und Risiken von Text
Summarization im deutschsprachigen Raum (Am Beispiel von Bundestagsreden)"
, welches über den Button
heruntergeladen werden kann. Dort wird auch der technische Aspekt von modernen Transformer-basierten
Sprachmodellen wie ChatGPT erläutert.
Weiterhin werden im genannten Paper auch OPUS-MT und LaBSE erläutert, die zur Sprachübersetzung und Auswertung genutzt werden. Vorallem OPUS-MT wird durch die Erläuterung des Transformers aufgeschlüsselt.
Es folgt eine Auflistung aller Reden, die einer automatischen Text Summarization unterzogen wurden zum Vergleich.
Angewandte Methoden: TextRank (Extractive), BART (Abstract), PEGASUS (Abstract).
Mit der Suche können nur Ids gesucht werden.
Die Spalten sind wie folgt zu deuten:
-
• Id: Id der Rede in der Datenbank
• Text: Originaltext der Rede
• Übersetzung: Deutsche Rede ins Englische übersetzt
• Ü-S.: Übersetzungs-Score nach Unterabschnitt 4.3.5
• TextRank: Zusammenfassung generiert durch TextRank
• TR-S.: Der Score für die Zusammenfassung von TextRank
• BART: Zusammenfassung generiert durch BART
• B-S.: Der Score für die Zusammenfassung von BART
• PEGASUS: Zusammenfassung generiert durch PEGASUS
• P-S.: Der Score für die Zusammenfassung von PEGASUS
Id | Text | Übersetzung | Ü-S. | TextRank | TR-S. | BART | B-S. | PEGASUS | P-S. |
---|