Text und Data Mining

Text und Data Mining

Gerne bieten wir zu diesem Thema auch individuelle Sprechstunden und maßgeschneiderte Veranstaltungen an.

Workshop „Du bist doch darin und mußt auch heraus.“ – Einführung in das Text und Data Mining

Dieser Workshop richtet sich hauptsächlich an wissenschaftliche Beschäftigte der TU, aber alle Interessierten sind willkommen.

Unter Text Mining bzw. Data Mining versteht man das automatische Extrahieren strukturierter Informationen aus einer größeren Menge von Texten zum Zweck der Analyse dieser Daten. Doch für wen ist das relevant? Ist dieser Bereich beispielsweise auch für Literaturwissenschaftler interessant? Wie kann Text Mining 300 Jahre alte Zeitungen für die aktuelle Forschung relevant machen? Welche grundlegenden Ansätze und Techniken gibt es, welche Interpretationsmöglichkeiten?

Der Workshop versucht, eine Einführung in diese ersten Fragen zu geben, ohne zu sehr in technische Details einzutauchen. Aufgrund der Komplexität des Themas versteht er sich eher als ein erster, sehr grober Überblick. Darauf aufbauende Veranstaltungen können bei Bedarf gebucht werden.

Workshop „Datenaufbereitung mit OpenRefine“

Dieser Workshop richtet sich hauptsächlich an wissenschaftliche Beschäftigte der TU, aber alle Interessierten sind willkommen.

In unserem Workshop „Datenaufbereitung mit OpenRefine“ lernen Sie die Grundlagen der Aufbereitung und Transformation tabellarischer Daten mit der Open-Source-Software OpenRefine (https://openrefine.org/) kennen. OpenRefine stellt unter einer grafischen Benutzeroberfläche, die äußerlich einer Tabellenkalkulationssoftware ähnelt, Funktionen bereit, mit denen Inkonsistenzen in großen Datenmengen identifiziert und korrigiert werden können. So ist es beispielsweise möglich, leicht unterschiedliche Schreibweisen eines Namens in verschiedenen Einträgen (z. B. TU Darmstadt und TU_Darmstadt) per Clustering zusammenzufassen und anschließend einheitlich zu bezeichnen. Eine solche Datenaufbereitung erleichtert eine spätere Analyse der Daten oft erheblich.

Anhand eines Beispieldatensatzes werden die Bedienung und wichtige Funktionen der Software vorgestellt und können praktisch am eigenen PC nachvollzogen werden. Dazu gehören unter anderem:

  • das Anlegen eines Projekts und der Datenimport,
  • die Nutzung von Facetten-, Filter- und Clusterfunktionen,
  • die Transformation von Daten (z. B. das Aufspalten von Zelleninhalten) sowie
  • der Datenexport.

Hinweise zur Installation der Software auf dem eigenen Rechner und zum Beispieldatensatz werden im Vorfeld des Workshops bekanntgegeben. Für die Teilnahme am Workshop werden keine speziellen Vorkenntnisse vorausgesetzt.