Jeden Tag werden zahlreiche Transkripte erstellt, deren Quellengrundlagen aus unterschiedlichen Archiven und Sammlungen stammen. Transkriptionen stellen wichtige Forschungsrohdaten dar, deren Herstellung ist allerdings mit grossem Aufwand verbunden. Da sie nur selten publiziert werden und es keine Plattform für deren Austausch gibt, bleiben die meisten Transkriptionen der Öffentlichkeit vorenthalten. Sie wachsen zu isolierten Datensilos auf einzelnen Computern an. Folglich müssen spätere Nachforschungen wieder von vorne starten: Wie schon von den Vorgängern*innen getan, wird zunächst die Datengewinnung durch das Transkribieren derselben Archivalie vorgenommen. Manchmal geschieht dies, nur um herauszufinden, dass dieses spezifische Dokument dem eigenen Interessengebiet nicht beiträglich ist.
Die Macht der Community
In dem Projekt wurde die Datenbank entwickelt, die für das Crowdsourcing von Transkriptionen zur Verfügung steht. Damit soll sich wiederholende Arbeit reduziert und der Workflow optimiert werden. Jede*r kann Transkriptionen hoch- und herunterladen. Es wird möglichst wenig Einfluss auf den Inhalt der Datenbank genommen, stattdessen wird ein crowd-orientierten Ansatz verfolgt. Die Nutzer*innen stellen was immer sie interessiert auf die Plattform.
Mosaiksteine der Erschliessung
Die Unabhängigkeit von digitalisierten Quellen – die User*innen können Digitalisate oder Fotos hochladen, aber sie sind nicht dazu verpflichtet – ermöglicht es, über neue Wege beim Transkribieren nachzudenken. So werden auch kleinere Archive repräsentiert, welche die Ressourcen zur Digitalisierung ihrer Bestände nicht hätten.
Die Uploader*innen geben Metadaten zu der transkribierten Quelle an, dadurch erhält jeder Datensatz zusätzlichen Informationen über das Transkript und seine Quelle. Hiermit werden die Sammlungen tiefer erschlossen, was eine bessere Evaluation der Relevanz einer Quelle für die eigenen Fragestellungen ermöglicht. Zudem soll die Forschungscommunity stärker vernetzt werden, wie auch Brücken gebildet werden zwischen Historiker*innen, Data Scientists, Studierenden, Gedächtnisinstitutionen und Citizen Scientists.
Gemeinsam an einem Strang ziehen
Wir denken, dass die Zusammenarbeit mit anderen Plattformen und Institutionen essentiell ist. Beispielsweise in puncto Community-Building und -Sharing sowie Nutzerakquirierung. Ausserdem ist es denkbar, unsere Transkriptionen mit digitalisierten Manuskripten zu verknüpfen. Data Scientists können diese angereicherten Daten verwenden, um HTR-Modelle (Handwritten Text Recognition) zu trainieren, wodurch anderes Quellenmaterial vom selben Schreiber oder von derselben Schreibstube automatisch transkribiert werden könnte.
Projektdauer
1. Januar 2020 bis 30. Juni 2020