Glossar
Übersicht
Algorithmus
Eine Abfolge von Handlungsanweisungen zur Lösung eines Problems. Dabei folgen Algorithmen definierten Einzelschritten, welche in ihrer festgelegten Reihenfolge ausgeführt werden (Eingabe, Verarbeitung, Ausgabe).
Annotieren
Mit einer Annotation, d. h. Anmerkung versehen. Beispielsweise kann Wissen in Form von Metadaten und Tags spezifischen Bildern oder digitalen Objekten hinzugefügt werden, um diese besser sortieren oder filtern zu können.
Anthropomorphismus
Vermenschlichung, d. h. Nicht-Menschlichem werden menschliche Eigenschaften zugeschrieben. Die Maschine soll intelligent wie der Mensch sein (oder diesen übertreffen) und dabei eine Verschaltung erhalten, die dem menschlichen Gehirn gleicht.
API
Kurz für »Application Programming Interface«. Steht für eine Programmierschnittstelle, die die Anbindung einer Software an ein anderes Programm ermöglicht, z. B. für das Scraping von Datensätzen musealer Sammlungen.
Bias
Beschreibt ein unverhältnismäßiges Gewicht, z. B. im Training von KI, zugunsten oder gegen eine in den Daten liegende Information. Daraus können im Umkehrschluss Benachteiligungen entstehen oder unfaire Vorurteile verstetigt werden, was besonders kritisch ist, wenn die Daten als Grundlage für Entscheidungen mit (in)direkter Wirkung auf das tägliche Leben genutzt werden.
Clustering
Bedeutet das Einteilen von unterschiedlichen Objekten eines Datensatzes in verschiedene Gruppen. Dabei geschieht die Aufteilung automatisiert anhand von vorgefundenen Ähnlichkeitsmerkmalen, z.B. in einem Bildkorpus bei Gruppen wie »Hunde« und »Katzen«.
Digital Humanities
Aus dem Englischen. Das Fach der »digitalen Geisteswissenschaften« diskutiert interdisziplinär den Einsatz computergestützter Verfahren und digitaler Objekt-Ressourcen sowie die Reflexion über deren Anwendung und Wirken in den Geistes- und Kulturwissenschaften.
GitHub
Ist ein amerikanischer Online-Dienst zur Versionsverwaltung von Software-Entwicklungsprojekten und gehört seit 2018 zu Microsoft. Die Plattform basiert auf Git, dessen Logik der Dateiverwaltung auch zur Anwendung kommt. »Training the Archive« verwaltet ebenfalls ein sogenanntes Repository.
IIIF
Kurzform für »International Image Interoperability Framework«. Eine standardisierte Schnittstelle, z. B. zum institutionsübergreifenden Austausch von Bilddaten und weiteren digitalen Objekten.
ImageNet
Über öffentliche Bibliotheken wie Keras oder TensorFlow können KNN verwendet werden, die bereits mathematische Gewichte enthalten. Das aufwendige Training der Gewichte basiert auf dem ImageNet-Bilddatensatz welcher sich aus bis zu 14 Millionen Bildern aus dem Internet zusammensetzt, was zu einer fragwürdigen bis diskriminierenden Kategorisierung geführt hat.
Keras
Ist eine offene Deep-Learning-Bibliothek, ähnlich TensorFlow, geschrieben in Python und Open Source. Besonders sinnvoll kann die Bibliothek eingesetzt werden, wenn mittels Transfer Learning vortrainierte KNN für eigene Aufgabenstellungen angewendet werden. Hierdurch entsteht jedoch eine Abhängigkeit von einem fremden Training.
KI
Kurzform für »Künstliche Intelligenz«. Der Begriff ist kritisch zu sehen, da er eine Vermenschlichung (Anthropomorphismus) bedeutet. Eigentlich ist damit derzeit ausschließlich »Maschinelles Lernen« gemeint.
KNN
Kurzform für »Künstliches neuronales Netz«. Genau wie bei KI wird der Begriff nach dem biologischen Vorbild des menschlichen Gehirns geprägt. Hierbei bestehen die künstlichen Netze aus einem Modell von Neuronen mit dem Ziel der Informationsverarbeitung. Durch diese Benennung wird eine Vermenschlichung (Anthropomorphismus) provoziert.
Maschinelles Lernen
Der Begriff beschreibt die Entwicklung eines Modells mittels spezieller Lernalgorithmen, welche auf eine große Menge an Trainingsdaten zurückgreifen. Das dabei generierte ‚Wissen‘ kann für Vorhersagen oder Empfehlungen genutzt werden.
Metadaten
Auch »Metainformationen«. Bezeichnen strukturierte Daten, die Informationen zu Merkmalen anderer Daten enthalten, um Eigenschaften von Objekten zu beschreiben (z. B. Medium eines Kunstwerkes).
Mustererkennung
Auch »Pattern Recognition«. Beschreibt das Erkennen von Regelmäßigkeiten, Wiederholungen und Ähnlichkeiten in einer großen Menge an Daten, um dadurch beispielsweise Gesichts-, Sprach- oder Texterkennung zu ermöglichen.
Open Source
Ist dann zutreffend, sobald für eine Software auch der Quelltext verfügbar ist und somit für die Öffentlichkeit eingesehen, geändert und (kostenlos) genutzt werden kann. Zum Teil müssen Nutzungslizenzen beachtet werden. Auch »Training the Archive« möchte soviel Code wie möglich, z. B. auf GitHub, veröffentlichen.
Proof of Concept
Kurz: PoC. Aus dem Projektmanagement. Als PoC wird der Nachweis verstanden, mit dem die prinzipielle Umsetzbarkeit eines Vorhabens, z. B. durch einen Prototyp, belegt wird. Von diesem Meilenstein ausgehend, kann weiter an dem Projekt gearbeitet werden.
Prototyp
Beschreibt einen Musterentwurf des zu entwickelnden Endproduktes. In der Softwareentwicklung wird eine prototypische Vorlage an die Bedürfnisse der User angepasst und dadurch in iterativen Zyklen stetig weiterentwickelt.
Python
Eine höhere Programmiersprache, in der u. a. Maschinelles Lernen programmiert werden kann. Sie zeichnet sich durch einen gut lesbaren, knappen Programmierstil aus. Sie wird in der Wissenschaft aufgrund eines einfachen Einstiegs und guter Integration wissenschaftlicher Bibliotheken häufig verwendet. Der Name leitet sich von der britischen Comedy-Gruppe Monty Python ab.
Repository
Aus dem Englischen. Beschreibt ein digitales Archiv mittels eines Verzeichnisses zur Speicherung und Beschreibung digitaler Objekte. »Training the Archive« verwaltet beispielsweise ein Repository auf GitHub als frei zugängliche Quelle zum Code für den ersten Prototyp.
Robotik
Die Robotik als Themengebiet und der Roboter als Entität befassen sich mit der Vereinigung einer Interaktion mit der physischen Welt durch Sensoren, Aktoren sowie Informationsverarbeitung und einer technisch machbaren Kinetik. Dabei wird oft fälschlicherweise KI mittels humanoider Roboter illustriert oder versinnbildlicht.
Scraping
Gezieltes Extrahieren von Informationen aus dem Quelltext von Webseiten, um die gewünschten Inhalte zur weiteren Verwendung lokal verfügbar zu machen. Die Bilddateien eines Museums mittels einer API zu scrapen, ist ein Anwendungsbeispiel.
Tags
Aus dem Englischen. Ein Tag entspricht einer Auszeichnung eines Datenbestandes mit zusätzlichen Informationen. Es bedeutet aus dem englischen übersetzt soviel wie Etikett, Anhänger oder Schildchen.
TensorFlow
»import TensorFlow as tf«. Ein Framework zur Anwendung auf Maschinelles Lernen, um Rechenoperationen von KNN ausführen zu lassen. Keras ist beispielsweise ein fester Bestandteil der TF-API.
Transfer Learning
Vorgehen, ein fertig trainiertes KNN aus Keras oder TensorFlow zu instanziieren, um zusammengestellte Bilddaten als Input durch dieses hindurch zu geben. Hierbei werden die an einem Problem erlernten Merkmale auf ein neues, ähnliches Problem angewendet. Für die Forschung ist dies vorteilhaft, da die Modelle bereits ein fundamentales ‚Verständnis‘ über die menschliche Welt hinsichtlich des allgemeinen Aufbaus und Inhalts von Bildern trainiert haben und dieses Wissen nicht von Grund auf neu beigebracht werden muss.
Working Paper
Das Publikationsformat reflektiert den aktuellen Arbeits- und Diskussionsstand innerhalb der Forschungsgruppe, macht neues Wissen verfügbar und transportiert dieses auch nach außen.