Als Vorbereitungsauftrag auf diese Unterrichtseinheit hatten wir den Auftrag die drei Programme Open Refine, MarcEdit und Solr zu installieren und Tutorials dazu zu absolvieren. Dabei handelt es sich um Software zur Bearbeitung von grossen Datenlieferungen in verschiedenen Formaten. Das hat bei mir einwandfrei funktioniert. Open Refine und MarcEdit habe ich auf Windows installiert, Solr auf der virtuellen Maschine von azure lab.
Der Tag selbst stand dann ganz im Zeichen der Transformation von Metadaten mit verschiedenen Tools. In diesem Bereich war für mich zuvor einzig das Programm mp3tag bekannt, mit dem man Musikdateien mit Tags aus einer bestehenden Datenbank beschriften, oder diese von Hand eintippen kann. Dabei hat sich schon des öfteren gezeigt, dass es sich lohnt Fremddaten nochmals zu überprüfen.
OpenRefine ist ein Programm zur Bereinigung und Vereinheitlichung von Datensätzen. Dabei kann der Benutzer einzelne Felder in den Daten nach eigenen Vorgaben Formatieren, so dass zum Beispiel die Gross- Kleinschreibung über alle Daten einheitlich wird. Dies ermöglicht die automatische Transformation grosser Datensätze. Es besteht auch die Möglichkeit eigene Datensätze mit vorhandenen Normdaten, zum Beispiel Wikidata, abzugleichen und mit ausgewählten Attributen zu ergänzen.
OpenRefine untersützt in der Standardinstallation eine Vielzahl an verschiedenen Formaten (TSV, CSV, *SV, Excel (.xls and .xlsx), JSON, XML) und kann mit entsprechenden Extensions noch für weitere Formate nutzbar gemacht werden.
Die Benutzer Oberfläche hat sich für mich bei der Bearbeitung des Tutorials als recht intuitiv herausgestellt. Allerdings war dies nur ein oberflächlicher Einstieg in die Möglichkeiten die das Programm bietet.
Mit MarcEdit lassen sich Daten im MARC Format bearbeiten. Besonders interessant ist dabei die Funktion der Crosswalks, die es erlauben Datensätze aus anderen Formaten (z.B. JSON) in MARC21 und umgekehrt zu überführen. Da MARC21 sehr viele Felder und Unterfelder besitzt, ist eine Konvertierung in andere Formate (z.B. DC) nicht verlustfrei möglich. Deshalb muss bei der Konvertierung angegeben werden, welche Daten übernommen werden (Bsp. Welche Titel und Untertitel kommen ins «neue» Titelfeld?).
Beim übungsmässigen Transformieren eines MARC21 Datensatzes eine JSON Datei sind bei mir keine Probleme aufgetreten. Dabei mussten auch keine Abstriche im Inhalt des Datensatzes gemacht werden, da JSON keine Vordefinierten Metadatenfelder besitzt und somit MARC21 Daten verlustfrei abbilden kann.
Solr ist eine Java basierte Suchplattform für Datenbanken. In diesem Bereich ist Solr weltweit führend und wird von einer Vielzahl an Unternehmen eingesetzt. Dabei übernimmt Solr die Funktionen der Indexierung, Query (Erfassen und «verstehen» der Suchanfragre des Useres), Mapping (Abgleich der Suchanfrage mit den Daten in der Datenbank), Ranking (Ausgabe der Resultate in einer nach Relevanz geordneten Liste). Für den Benutzer is Solr dabei in der Regel unsichtbar. Die (graphishe) Bedienoberfläche wird mit anderen Systemen (z.B. VuFind), je nach Bedarf des Anbieters gestaltet.
Quelle: https://en.wikipedia.org/wiki/Apache_Solr
Über Programmierschnittstellen (API: application programming interface) können verschiedene Programme miteinander kommunizieren. Erst so wird der Austausch von Daten zwischen verschiedenen Systemen möglich. Eine Anwendung besteht dabei in der Verbindung verschiedener Datenbanken zum automatischen Informationsaustausch zwischen den Datenbanken.
Startseite
Vorhergehende Unterrichtseinheit
Nachfolgende Unterrichtseinheit