Workflow Digitale Medien

Ein innovatives Konzept für den digitalen Sammlungsaufbau zur Durchführung von Text-und-Data-Mining-Verfahren

Kurzbeschreibung

Ziel des Projekts ist die Entwicklung eines prototypischen und leicht adaptierbaren Workflows, mit dem Bibliotheken digitale Forschungspublikationen aggregieren, aufbereiten und schließlich Forschenden in einem einheitlichen XML/TEI-Format zur Verfügung stellen können.

Durch die Bereitstellung der Dokumente in diesem einheitlichen, strukturierten Format wird für Forschende sowohl die Zusammenstellung großer Textkorpora und deren automatisierte Analyse mittels innovativer Text-und-Data-Mining-Verfahren erleichtert als auch die Auffindbarkeit der Einzeldokumente durch erweiterte Suchmöglichkeiten verbessert. Um die Nachnutzbarkeit der aufbereiteten Dokumente auch aus rechtlicher Sicht bestmöglich sicherzustellen, verfolgt das Projekt dabei konsequent den Ansatz, diese so frei wie möglich (d. h. so frei, wie es die Lizenzbedingungen der Originaldokumente erlauben) bereitzustellen.

Als Use Cases wird sich das Projekt auf Open-Access-Verlagspublikationen sowie Dissertationen von Mitgliedern der TU Darmstadt konzentrieren, letztere als Beispiel für Publikationen, bei denen Bibliotheken Einfluss auf das einzureichende Format nehmen können.

Der Workflow wird alle Arbeitsschritte vom Harvesting der Dokumente bis zu ihrer Bereitstellung im TEI-Zielformat mittels Softwaretools und organisatorischer Konzepte abbilden. Dazu gehören unter anderem Verfahren zur Prüfung und Dokumentation der Lizenzinformationen der Dokumente, Skripte für deren Harvesting von verschiedenen Verlagsplattformen sowie Verfahren zur Formatvalidierung und -konversion, Katalogisierung sowie Langzeitarchivierung.

Durch die Interoperabilität der Dateiformate, die Weiterentwicklung existierender Software und die Veröffentlichung aller Projektergebnisse unter freien Lizenzen wird der zu entwickelnde “Workflow Digitale Medien” für andere Infrastruktureinrichtungen leicht nachnutzbar sein und prinzipiell auf alle Dokumentarten erweitert werden können.

Projektstatus

laufend, 01.11.22 – 31.10.25

Förderung

Gefördert durch die Deutsche Forschungsgemeinschaft (DFG)