Transfer Learning und Textdaten

Transfer Learning für die Clusteranalyse unstrukturierter Textdaten aus e-periodica.ch

Die kontinuierliche Retrodigitalisierung von Sammlung- und Archivbeständen ermöglicht Forschenden aller Disziplinen einen Zugang zu Datensammlungen in Grössenordnungen, die vor einiger Zeit noch unvorstellbar waren. Die Menge dieser Daten bringt jedoch auch neue Herausforderungen hinsichtlich ihrer Erschliessung und Verarbeitung mit sich. Gleichzeitig erweitern neue Techniken des maschinellen Lernens die Möglichkeiten, Textdaten zu ordnen und relevante Informationen zu finden.

Diese Techniken werden auch in Hinblick auf  digitalisierte Zeitschriften und Zeitungen eingesetzt. Informationsressourcen, die derzeit von Sammlungen und Archiven digitalisiert werden oder bereits online verfügbar sind, ziehen deshalb immer mehr Aufmerksamkeit von Forschenden aus dem Bereich “Digital Humanities” auf sich.

Dieses Projekt erforscht Ansätze, um Sammlungen von Texten automatisch in thematische Cluster strukturieren zu können. Es verwendet hierzu Textdaten aus digitalisierten Zeitschriften der Plattform e-periodica.ch, die von der ETH-Bibliothek betrieben wird. Für das Clustering werden die Artikel der Textsammlung nach ihrem semantischen Inhalt gruppiert. Artikel, die sich mit ähnlichen Themen befassen, werden dem gleichen Cluster zugeordnet.

Clusteringverfahren (Bild: P. Ströbel)

Ziel des Projektes ist es zu ermitteln, ob die Methode des Transfer Learning, die vornehmlich für Bilddaten (siehe z.B. PixPlot) eingesetzt wird, ähnlich performant zum Clustern der Textdaten aus e-periodica.ch eingesetzt werden kann. Unter Anwendung eines Convolutional Neural Networks (CNN) wird ein Klassifikator auf Basis von Zeitungsartikeln trainiert, für die bereits eine fein abgestufte Kategorisierung besteht. Als nächstes wird dieser Klassifikator für die Analyse der Zeitschriftenartikel aus e-periodica.ch eingesetzt. Die daraus resultierende Klassifikation wird jedoch verworfen. Stattdessen entnimmt der Clustering-Algorithmus die Informationen aus der vorletzten Schicht des verwendeten Netzwerks und erstellt Cluster auf der Grundlage der extrahierten Artikelrepräsentation. Hier findet der eigentliche Transfer statt: man nutzt die Informationen eines Modells zur Textklassifikation für das unsupervisierte Text-Clustering.

Die Strukturierung einer Sammlung durch Clustering bringt viele Vorteile und beschleunigt den Suchprozess nach relevantem Quellenmaterial. Sie ermöglicht es den Forschern, ähnliche Artikel zu denjenigen zu identifizieren, die von einer Keyword-Suchanfrage zurückgegeben wurden, auch wenn diese zusätzlich gefundenen Artikel nicht unbedingt Wörter der Suchanfrage enthalten. Dies ist besonders wichtig bei diachronen Textsammlungen, bei denen sich der Wortschatz im Laufe der Zeit ändert.

 

Projektdauer

1. Januar 2020 – 30. Juni 2020

Projektbezogene Tags

Projektverantwortlicher

Phillip Ströbel

PhD student Computational Linguistics, University of Zurich

Wir verwenden Cookies auf unserer Website, um Ihnen die bestmögliche Nutzererfahrung bieten zu können. Wenn Sie Ihren Besuch auf der Website fortsetzen, stimmen Sie der Verwendung von Cookies zu. Weitere Informationen zum Datenschutz finden Sie hier.

Annehmen