Übersicht
Word Embeddings

Im Natural Language Processing und in der KI allgemein muss der erste Schritt immer sein, Daten von unterschiedlichen Typen (Bilder, Texte, Videos etc.) in eine numerische Form zu bringen. Nur mit Zahlen kann ein Neuronales Netz lernen.
Texte werden dabei typischerweise in Word Embeddings transformiert. Das sind Vektoren mit unterschiedlichen Dimensionen. Die Idee: die Embeddings zweier sehr ähnlicher Texte sollen im Vektorraum auch sehr nah beieinander liegen. Wir kriegen somit mehrere Cluster von kontextual ähnlichen Texten.


Kosinus Ähnlichkeit

Wenn mehrere Texte im Vektorraum durch Word Embeddings abgebildet werden, bedarf es einer Funktion um die Ähnlichkeit zweier Vektoren und damit Texten zu berechnen. Eine davon ist die Kosinus-Ähnlichkeit. Je größer die Ähnlichkeit, desto ähnlicher sind sich die Texte.


VecTop

VecTop nutzt diese beiden Techniken in Verbindung mit Spiegel Online. Durch Webscraping werden huntertausende Artikel des Spiegel Onlines gespeichert. Diese Text werden erst zusammengefasst, da Word Embeddings mit sehr langen Texten Probleme bekommt und danach in Word Embeddings umgewandelt. Die Idee: Spiegel Online ordnet alle Artikel in bestimmte Kategorien ein, zB. Wirtschaft -> Börse.
Wenn Sie nun eine Rede im Bundestag kategorisieren möchten, wird diese Rede, sollte sie zu lange sein, zusammengefasst, in Word Embeddings transformiert und auf den Spiegel Online Korpus verglichen. Welche Artikel ähneln kotextual der Rede am Meisten? Diese werden durch die Kosinus-Ähnlichkeit extrahiert und mithilfe der Kategorien aus Spiegel Online gleichzeitig kategorisiert. Eine Rede, die im Vektorraum sehr nah an einem Artikel über die Börse platziert ist, wird somit mit Wirtschaft -> Börse kategorisiert.


Testen Sie VecTop selbst!

Sie möchten selbst Texte für Ihre Zwecke kategorisieren oder einfach mal VecTop ausprobieren? Dann finden Sie eine Live-Demo von VecTop hier!
Für die Informatiker: VecTop ist open-source auf GitHub hier zu finden.