FAIRNESS – Medien im methodologischen Zentrum der Geolinguistik

Version:



Schlagwörter: FAIR , FAIR Prinzipien , Geolinguistik , Forschungskommunikation , Wissenschaftskommunikation

Zitation:
  1. Referenz auf den gesamten Beitrag:
    Thomas Krefeld & Stephan Lücke (2023): FAIRNESS – Medien im methodologischen Zentrum der Geolinguistik, Version 3 (22.06.2023, 16:20). In: Thomas Krefeld & Stephan Lücke & Christina Mutter (Hrsgg.) (2023): Berichte aus der digitalen Geolinguistik (II): Vernetzung und Nachhaltigkeit (Korpus im Text 9), Version 30, url: https://www.kit.gwi.uni-muenchen.de/?p=45335&v=3
    Diese URL enthält einen Hinweis auf die unveränderliche Version (…v=nn)
  2. Referenz auf einen Abschnitt oder Nachweis eines Zitats: https://www.kit.gwi.uni-muenchen.de/?p=45335&v=3#p:1
    Diese URL enthält einen Hinweis auf einen spezifischen Abschnitt (…p:1). In diesem Fall ist sie mit dem ersten Absatz verknüpft. Eine vollständige Referenz kann jeweils über die Ziffern in den grauen Quadraten am rechten Rand des Satzspiegels abgegriffen werden.

1. Vorbemerkung

Die zweite Förderungsphase des Projekts VerbaAlpina (VA) dient der Erschließung eines zweiten großen Gegenstandsbereichs, nämlich der Natur, und zielt auf Bezeichnungen von Witterungserscheinungen, Landschaftsformationen, Fauna und Flora ab. Parallel dazu wurde viel Arbeit in die Konzeption und praktische Umsetzung von verlässlichen Prozeduren des Datenmanagements in webbasierten Forschungsprojekten investiert. Da die grundlegende Bedeutung dieser zweiten Thematik in der romanistischen und italianistischen Geolinguistik weithin noch nicht erkannt worden zu sein scheint, wurde dies ganz entschieden in den Vordergrund des vorliegenden Beitrags gestellt, der de facto eine Art Arbeitsbericht darstellt.

2. Wissenschaftskommunikation im Internet

Forschungsmittel sind begrenzt; der Zugang dazu muss also kompetitiv geregelt sein. Wenn Forschung in dieser Hinsicht zwar dem Wettbewerb unterliegt, so ist sie doch in ihrem Wesen vor allem kollaborativ: Denn Fortschritt gibt es nur auf der Grundlage des jeweils bereits verfügbaren Wissens. Im Hinblick auf die Kollaboration – die ja grundsätzlich in Kommunikation fundiert ist – haben sich nun in den letzten 15 Jahren die Rahmenbedingen vollkommen geändert:  Es ist innerhalb weniger Jahre eine Gesellschaft entstanden, die explizit als Wissensgesellschaft bezeichnet wird, da sie im Privaten und im Öffentlichen die permanente und ubiquitäre Verfügbarkeit der Neuen Medien und damit einen praktisch unbegrenzten Zugang zum Wissen jeglicher Art voraussetzt.

Diese vollkommene Mediatisierung betrifft aber nicht nur den Wissenskonsum, sondern gleichermaßen die Wissensgenerierung durch Forschung, nicht zuletzt deshalb, weil sie uns eine sehr breite, ortsunabhängige Kooperation ermöglicht. Ins Schlaraffenland sind die Forscher damit freilich nicht gelangt, denn die Option auf Kooperation konkretisiert sich keineswegs automatisch. Sie erfordert vielmehr die Beachtung einiger elementarer Regeln, die seit kurzem mit der Sigle FAIR benannt werden, die von einer wichtigen Initiative lanciert wurde (<http://www.go-fair.org/fair-principles/>). Damit werden vier grundlegende ethische Prinzipien für die Wissenschaftskommunikation unter den Bedingungen der Neuen Medien identifiziert. Ihnen zufolge müssen Forschungsdaten

  • F_indable (‘auffindbar’),
  • A_ccessible (‘zugänglich’),
  • I_nteroperable (‘kompatibel’),
  • R_eusable (‘nachnutzbar’)

sein (vgl. <https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=182&letter=F#128>). Die Anforderungen von drei  (F, A, R) der vier Prinzipien zielen darauf ab, sowohl human readable als auch machine readable zu sein; sie gelten also sowohl für die Mensch-Maschine-Mensch-Kommunikation als auch für die Maschine-Maschine-Kommunikation. Das vierte Prinzip (I) gilt nur für letztere; es ist jedoch im skizzierten virtuell-medialen Rahmen zentral für den Fortschritt der Forschung und repräsentiert insofern die Unverzichtbarkeit der technologischen Komponente und die Transformation des LESERs zu einem interaktiven NUTZER, der auf einem Kontinuum zwischen hochspezialisierten Experten und völligen Laien abgebildet werden kann und der sich den Daten nicht nur lesenden Auges nähert, sondern womöglich mit der Absicht, sie für eigene Forschungszwecke zu nutzen und dafür maschinelle ‘Erntehelfer’ (zum sog.  harvesting) einzusetzen.

Die Operationalisierung der FAIR-Prinzipien erfordert ein komplexes Zusammenspiel von Forschern, das heißt de facto von befristeter und deshalb mehr oder weniger prekärer Projektarbeit einerseits und andererseits von Institutionen, die Dauerhaftigkeit in Aussicht stellen können; das sind in allererster Linie die großen Bibliotheken. Die Entwicklung von Prozeduren für diese ganz spezielle Art der Kooperation gehört zu den aktuellen Herausforderungen der Forschung, die mit dem Ausdruck Forschungsdatenmanagement (FDM) bezeichnet werden. Damit sind wichtige Eckpunkte der Wissenschaftskommunikation im Web markiert, die den Horizont dieses Beitrags abstecken.

3. FAIRness in einer webbasierten Forschungsumgebung

Das Projekt VerbaAlpina (VA) versucht, die Forschungskommunikation im oben skizzierten Sinne konsequent nach den FAIR-Prinzipien zu gestalten. Dabei ist ihre Anwendung in den folgenden fünf komplementär angelegten und eng miteinander verflochtenen Funktionsbereichen zu unterscheiden (vgl. <https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=182&letter=F#26>) :

  • Publikation;
  • Dokumentation;
  • Kooperation;
  • Datenerhebung durch crowdsourcing;
  • Forschungslabor.

3.1. FAIRness der Publikation

Das ganze Internet ist nichts Anderes als eine gewaltige Publikationsmaschine; es ist allerdings unbedingt notwendig zu differenzieren, denn es wird durchaus anders und teils auch Anderes als unter den medialen Bedingungen des Drucks publiziert. Von VerbaAlpina werden

  • semantischer Inhalt (Dialektformen, analytischer wissenschaftlicher Text),
  • Metadaten,
  • Software und Code

veröffentlicht (vgl. <https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=182&letter=P#23>).

Produziert werden dabei ausnahmslos stabile Daten und Textdateien, da die gesamte Plattform (Benutzeroberfläche und Datenbanken) alle sechs Monate ‘eingefroren’, oder: versioniert wird; zusätzlich besteht jeweils eine aktuelle Arbeitsversion (Version xxx), die noch Änderungen unterliegt und daher nicht zitiert werden sollte (<https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=493&db=182&letter=Z#64>). Die jeweils jüngste Version ersetzt jedoch nicht die vorige, sondern ergänzt sie, denn alle früheren Versionen bleiben erhalten, so dass sämtliche Zitate und Verlinkungen innerhalb des Projekts sowie von außen auf das Projekt stets zugänglich sind.

Es ist weiterhin sichergestellt, dass die von VA generierten Inhalte zuverlässig auffindbar sind, denn ihnen werden auf verschiedenen Granularitätsebenen von der UB der LMU DOIs zugewiesen: Im von der UB der LMU betriebenen Forschungsdatenrepositorium Open Data LMU erhalten sowohl komplette Datenbestände einzelner VA-Versionen wie auch einzelne Datensätze innerhalb des jeweiligen Gesamtbestands (etwa Konzepte, morpholexikalische Typen oder Ortschaften) DOIs. Das System ist so konzipiert, dass die DOIs individuell jeweils bei Bedarf erzeugt werden, um dabei anfallende Unkosten möglichst gering zu halten. Im Zuge des Transfers nach Open Data LMU werden die Daten auch mit Metadaten im DataCite-Format versehen.

Neben den DOIs erhalten sämtliche VA-Daten in allen Granularitätsstufen persistente Identifikatoren, die von der UB der LMU vergeben und verwaltet werden. Der Zugriff auf die versionierten VA-Daten im Forschungsdatenrepositorium der UB der LMU ist über das Portal "Discover" (<https://discover.ub.uni-muenchen.de/>) möglich. Das Projektportal von VA ist unter der DOI <http://dx.doi.org/10.5282/verba-alpina> verlässlich erreichbar. Gleichzeitig findet VA als Ganzes Eingang in die Bibliothekskataloge (vgl. <https://dbis.ur.de/frontdoor.php?titel_id=101965&bib_id=ub_m>).

Auf dieselbe Weise lassen sich auch alle thematischen bzw. diskursiven Textbeiträge identifizieren, die auf der Projektseite unter den Reitern Lexicon alpinum, Methodologie und Beiträge publiziert werden. Sie sind schon bislang ebenfalls über die um URL-Parameter ergänzte DOI von VerbaAlpina adressierbar und daher direkt zitierfähig (vgl. z.B.: Krefeld, T. / Lücke, S.: s.v. “butyru(m)”, in: VA-de 18/2, Lexicon alpinum, <http://dx.doi.org/10.5282/verba-alpina?urlappend=%3Fpage_id%3D2374%26db%3D182%23B128>). Aktuell (März 2023) wird an der Übertragung auch dieser diskursiven Inhalte nach Open Data LMU gearbeitet. Sobald diese erfolgt ist, können bei Bedarf auch für die einzelnen Beiträge in Methodologie und Lexicon Alpinum sowie weitere auf dem Portal von VerbaAlpina veröffentliche Beiträge individuelle DOIs beantragt werden.

Der Datenexport in das Repositorium der UB der LMU gewährleistet die Zugänglichkeit und Nachnutzbarkeit der Daten nach dem Auslaufen der Projektförderung. Die Datenexporte erfolgen normalerweise über eine API-Schnittstelle (vgl. API Dokumentation), die im Internet öffentlich zugänglich ist und auch für die Ausgabe in anderen Formaten und angereichert um Metadaten von im Grunde beliebigen anderen Standards genutzt werden kann.

Auch der gesamte Quellcode von VA mit allen programmierten Tools ist dauerhaft publiziert: Unter github/VerbaAlpina ist der Code auffindbar, zugänglich und frei nachnutzbar. 

Eine große Rolle bei der Ausgestaltung der Metadatenschemata spielen die Normdaten, die eine eindeutige und fein granulierte Identifikation der Forschungsdaten erlauben. VA unterscheidet im Wesentlichen drei Datenkategorien (oder: Entitäten), für die eigene Identifikatoren vergeben werden, die in Verbindung mit den Daten abrufbar sind: 'Konzept', 'morpholexikalischer Typ' (s. Typisierung) und 'Gemeinde'. So ergeben sich sehr spezifizierte Metadaten (vgl. das DataCite Beispiel für das Konzept Sennhütte, das neben dem VA-Identifikator C1 auch die in VA ebenfalls vorhandenen onomasiologischen Identifikatoren des Wikidata-Projekts enthält:  Q136689, Q27849269, Q2649726 ), die grundsätzlich die eindeutige Referenzierung auf Einzeldaten definierter Objektklassen über Projektgrenzen hinweg erlauben.

Im Rahmen des Forschungsdatenmanagements sind u.a. zwei wesentliche Perspektiven zu unterscheiden: Zum einen die dauerhafte Bewahrung und Verfügbarkeit des Datenbestands, zum anderen die Einbindung der Daten in einen größeren Kontext, der hauptsächlich durch die Nutzung von Normdaten bzw. Normdatensystemen erreicht wird. VerbaAlpina hat im Lauf der Zeit Kontakt zu und teilweise auch Kooperationen mit mehreren Akteuren auf diesem Gebiet aufgenommen. Zu nennen sind im Wesentlichen:

GeRDI (s. auch <https://www.gerdi-project.eu/communitieFzs/verbaalpina/>) steht für "Generic Research Data Infrastructure", ein von der DFG im Rahmen des "Wissenschaftliche Literaturversorgung und Informationssysteme"-Verfahrens von 2016 bis 2021 gefördertes Projekt.1 GeRDI hatte sich im Wesentlichen die Entwicklung von Software zum Ziel gesetzt, die die disziplin-, fach- und repositoriumsübergreifende Verknüpfung von Datenbeständen leisten sollte, indem die jeweiligen Metadaten aufeinander bezogen werden. Im Fall von Geo- und Chronoreferenzierungen etwa ist dies vergleichsweise einfach, in vielen anderen Dimensionen jedoch ausgesprochen komplex. eHumanities - interdisziplinär" ist ein Projekt,  das seit 2018 von der Bayerischen Staatsregierung gefördert wird und im Wesentlichen Best-Practice-Empfehlungen für den Umgang mit Forschungsdaten in den Geisteswissenschaften erarbeiten soll.

Besondere Bedeutung kommt aus Sicht von VerbaAlpina der Wikidata bzw. deren Normdaten zu. Wikidata hat sich in den vergangenen Jahren de facto zu einer Art Normdaten-"Hub" entwickelt, indem es seinerseits Identifikatoren externer Normdatensysteme in sein eigenes System integriert. Auf diese Weise kann Wikidata eine Brücke zwischen von einander getrennten Datenbeständen bilden. VA verwendet seit der zweiten Förderungsphase die Identifikatoren der sogenannten Wikidata-Datenobjekte. Sie liefern Referenzen für außersprachliche Realitäten und Konzepte und damit einen gemeinsamen Bezugsrahmen für viele unterschiedliche Sprachen; so gibt es derzeit (04.04.2022) Wikipedia-Artikel in 142 Sprachen über das Milchprodukt Butter. Die verschiedenen Artikel werden verknüpft, indem sie alle auf den eindeutigen Identifikator des entsprechenden Wikidata-Datenobjekts referenzieren (Q34172). Eine Suchmaschine, die danach sucht, ist also in der Lage, alle zugehörigen 142 Bezeichnungen zu finden – und so, zumindest theoretisch, demnächst auch die in VA dokumentierten, zahlreichen Dialektformen (2136 Belege). Ein ähnliches System für Bezeichnungstypen, d.h. für Wörter (L-ID), ist bei Wikidata im Aufbau und VA hat begonnen alle morpholexikalischen Typen mitsamt der VA-Identifikatoren dort einzuspeisen.

Die oben gelisteten Einrichtungen bzw. Projekte besitzen im Detail durchaus unterschiedliche Status, Zielsetzungen, Kompetenzen und Möglichkeiten. Die Zusammenarbeit mit allen kann aus Sicht von VerbaAlpina als fruchtbar bezeichnet werden, war jedoch jeweils von unterschiedlicher Art, Dauer und Intensität. Resümierend lassen sich die folgenden Kriterien als im Sinne des Projekts und darüber hinaus im Grunde auch der Wissenschaft als Ganzem als zentral benennen:

  • Unbefristete Existenzperspektive der verantwortlichen Einrichtung
  • Verlässlichkeit der Einrichtung (Verfügbarkeit, Kommunikationsbereitschaft)
  • Ausreichende technische und personelle Kapazitäten
  • Solide Kompetenzen, auch und gerade im Bereich Metadaten(management)

Die genannten Akteure entsprechen diesen Anforderungen in unterschiedlichem Maße bzw. in unterschiedlicher Weise. Es sei an dieser Stelle gestattet, die Verwunderung zum Ausdruck zu bringen, dass sogar in diesem Umfeld, in dem es ja gerade um Nachhaltigkeit und Verlässlichkeit geht, vorkommt, dass Akteure und von ihnen entwickelte einschlägige Konzepte und/oder Werkzeuge mehr oder minder spurlos verschwinden. Genau dies scheint uns im Fall von GeRDI geschehen zu sein. Das Schicksal dieses großen Infrastrukturprojekts, an dem eine ganze Reihe namhafter Wissenschaftler und Institutionen beteiligt war, ist einigermaßen ernüchternd. Soweit uns bekannt, gibt es keine von GeRDI entwickelten konkret nachnutzbaren Strategien oder Technologien. Selbst die Projekthomepage (<https://www.gerdi-project.eu/>) zeigte spätestens im Februar 2023 erste Auflösungserscheinungen (fehlende Logos der an GeRDI beteiligten Einrichtungen).

Letztlich ergeben sich Lösungen häufig ganz organisch aus den bestehenden Umständen. Im Lauf der Zeit hat sich die Kooperation mit der UB der LMU und die Nutzung des Normdaten-Kosmos von Wikidata als die aus Projektsicht beste Option erwiesen. Zwischenzeitlich waren wir der Meinung gewesen, auf möglichst viele Pferde setzen zu sollen, um Nachhaltigkeit, Auffindbarkeit und Verknüpfbarkeit am besten zu gewährleisten. Nunmehr sind wir davon überzeugt, dass es nur darum geht, den im Vergleich besten Kandidaten in einem gegebenen Umfeld zu wählen. In unserem Fall ist dies eben die Kooperation mit der UB der LMU und die Nutzung der Wikidata-Normdaten.

Einen groben Überblick des Forschungsdatenmanagements von VerbaAlpina gibt das folgende Schema:

Forschungsdatenmanagement zwischen Projekten, Institutionen und Öffentlichkeit. Gestrichelte Linien und blasse Farben markieren Optionen, die entweder von VerbaAlpina nicht genutzt werden oder zwischenzeitlich nicht mehr verfügbar sind.

Auch wenn VerbaAlpina mit der Wahl von UB und Wikidata eine nach aktuellem Stand der Dinge optimale Lösung gefunden hat, so ist dennoch klar, dass im Bereich des Forschungsdatenmanagements noch vieles im Fluss ist. Um, zumindest theoretisch, auf neue Entwicklungen reagieren zu können, ist ein flexibles Schnittstellenkonzept hilfreich. Die feingranular strukturierten Daten von VerbaAlpina können grundsätzlich jederzeit mit zusätzlichen Metadaten angereichert und/oder umstrukturiert und anschließend über die API des Projekts zur Verfügung gestellt bzw. die Daten im Repositorium der UB entsprechend ergänzt oder modifiziert werden.

3.2. FAIRness der Dokumentation

VA dokumentiert Dialektbelege der drei großen europäischen Sprachfamilien, die sich in ethnolinguistischer Hinsicht als spezifisch alpin erweisen.

Das Material wurde in einen systematisch strukturierten Datenbestand überführt und nach sprachlichen (‘morpho-lexikalische Typen’, ‘Basistypen’) und außersprachlichen (‘Konzepte’) Kritierien annotiert; neben dem maschinenlesbaren Zugang über die oben erwähnte API-Schnittstelle gibt es einen menschenlesbaren Zugang (engl. "Graphical User Interface", "GUI"), der u.a. in sehr anschaulicher Weise über eine interaktive Karte erfolgt (vgl. <https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=133&db=182&mapType=pixi&dev=true>).

Die genannten Kategorien der Datenstrukturierung  fungieren an der Kartenoberfläche als Filter. Bereits auf dieser nutzerfreundlichen, insbesondere laientauglichen Oberfläche wurde eine ebenso einfache wie elementare Funktion der reusability implementiert, denn es ist möglich, alle Karten, die man sich anzeigen lässt, in exakt der angezeigten Form (mit der entsprechenden Zoomstufe, jeweils geöffneten Fenstern usw.) mit anderen zu teilen oder sie in Publikationen usw. einzubauen, denn durch Klicken auf einen 'share button' wird für die jeweils aktuell angezeigte Karte eine versendbare URL erzeugt; so führt der folgende Link zu einer Karte aller in VA vorhandenen dialektalen Bezeichnungen von Butter.

Das vorhandene Sprachmaterial stammt aus zwei Quellen: Ein kleinerer Teil des Materials, das VA anbietet, wurde durch das Projekt selbst im Crowdsourcing-Verfahren (s.u. 3.4) erhoben. Der größte Teil wurde jedoch aus gedruckten oder für den Druck vorgesehenen Arbeiten gewonnen, so finden sich auch Formen, die uns im Rahmen von Partnerschaftsabkommen aus noch nicht abgeschlossenen Projekten zur Verfügung gestellt wurden (vgl. zum Beispiel das Punktnetz des "Sprachatlas von Oberösterreich" [cite key="28042" nopar="true"]). Berücksichtigt wird auch Wörterbuchmaterial, unter der Bedingung, dass die sprachlichen Belege georeferenzierbar sind; das ist bei guten Dialektwörterbüchern wie zum Beispiel dem DRG oder dem VSI der Fall. De facto ist jede Quelle überdies auch chronoreferenzierbar, allerdings wurde diese Funktion noch nicht implementiert.

Durch die Retrodigitalisierung und den Webauftritt werden zahlreiche, in teils schwer zugänglichen Publikationen ‘schlafende’ Dialektausdrücke leicht auffindbar (F), zugänglich (A), interoperabel (I) und in allgemein kompatibler Weise nachnutzbar (R) gemacht; denn alle verfügbaren Formen erhalten einen persistenten Identifikator und werden in Kürze auch über einen Digital Object Identifier (DOI) ansprechbar sein. Hier ein Beispiel aus dem Sprach- und Sachatlas Italiens und der Südschweiz (AIS; 1928-1940): <https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=133&noredirect=de_DE&tk=1872&db=162>.

VA produziert also gewissermaßen FAIRen Output. Allerdings sind die allermeisten Quellen, der Input, von FAIRness meilenweit entfernt. Die Gründe dafür sind teils technischer, teils aber auch juristischer, letztlich: kommerzieller Art. In der Regel sind Sprachatlanten ausschließlich als physisches Druckwerk zugänglich; nur sehr wenige bieten wenigstens die elementarste Stufe der Digitalisierung, d.h. digitale Photos (scans) an, wie z.B. der AIS in Gestalt des NavigAIS oder der SDS im Hinblick auf das Originalmaterial. Von den älteren Atlanten wurde bislang nur ein Teil des AIS in Form eines strukturierten Korpus aufbereitet, das auch den Export der Daten gestattet (vgl. AISr). Immerhin konnte eine solche Lösung auf der Basis einer Kooperationsvereinbarung für den ALD gefunden werden; dem Druck dieses Atlas’ von Hans Goebl lag ein digitales Format zu Grunde, das zwar wegen fehlender Identifikatoren der Inhalte nicht interoperabel war, sich aber nach bestimmten Adaptationen als maschinenlesbar und entsprechend nachnutzbar erwies; alle Bezeichnungen relevanter Konzepte erscheinen daher in VerbaAlpina (vgl. das ALD-Ortsnetz und dieses Beispiel).

  Findable Accessible Interoperable Reusable
  menschl. masch. menschl. masch. masch. menschl. masch.
ALI - - - - - - -
SDS + + + - - + -
AIS + + + - - + -
AISr + + + + + + +
ALD + + + - - + +
VA + + + + + + +

Anders, deutlich komplexer, erscheint die Lage im Bezug auf georeferenzierbare Wörterbücher; die seit kurzem verfügbare Online-Version des DRG ist so eingerichtet, dass jedes Lemma dank einem Identifikator als digitales Objekt zugänglich ist (A), so zum Beispiel bargia Schopf. Ein maschineller Export ist jedoch nicht vorgesehen, und es ist erkennbar, dass auch die technische Möglichkeit der unmittelbaren Referenzierung auf ein Lemma über eine URL eher ein technisches 'Abfallprodukt' ist, das sich mehr oder minder zufällig bei der Softwareentwicklung ergeben hat. Jedenfalls wird kein Zitier-Link angeboten und es scheint generell keine konkreten Hinweise für die Nutzer auf diese Möglichkeit zu geben, so dass der Gebrauch letztlich der "Gerissenheit" des Nutzers überlassen ist.

Seit kurzem existiert eine Reihe von Online-Lexika zu zwei ladinischen Dialekten, dem Gadertalischen (Badiot) und dem Grödnerischen (Gherdëina) (<https://www.micura.it/de/woerterbuecher>). Allesamt werden sie verantwortet vom ladinischen Kulturinstitut in St. Martin in Thurn (Istitut Ladin Micurà de Rü) und alle sind offenkundig als Derivate von Publikationen in Buchform entstanden. Zugrunde liegen jeweils zwei Lexika für das Deutsche (Deutsch – Gadertalisch: Mischí 2001, Deutsch – Grödner-Ladinisch: Mischí 2002) und für das Italienische (Italienisch – Grödner-Ladinisch: Forni 2013, Italienisch – Gadertalisch: Moling 2016, wobei lediglich die italienischen Lexika die biderektionale Perspektive Italienisch⇔Badiot und Badiot⇔Italienisch bedienen; die deutschen Lexika sind monodirektional Deutsch⇒Badiot bzw. Deutsch⇒Gherdëina angelegt.

Der lexikalische Bestand dieser Werke ist nunmehr also auch im Internet verfügbar, wobei die konkrete Vorgehensweise bei der Digitalisierung und auch die Struktur des zugrundeliegenden Datenbestands vollkommen unklar sind. Die Aufteilung des Datenbestands in vier voneinander getrennte Buchpublikationen spiegelt sich, überraschender- und gleichzeitig unnötigerweise, auch in der Datenpräsentation im Internet wider. Jedem Lexikon entspricht ein eigenes Internet-Portal. Dabei wurden die beiden Portale für die deutschen Lexika offenkundig von anderen Entwicklern konzipiert und realisiert als die italienischen.

  1. Badiot⇔Italienisch (und vice versa): <https://itavalbadia.ladinternet.it/>
  2. Badiot⇒Deutsch: <https://www.micura.it/de/dizionars/vb/dl>
  3. Gherdëina⇔Italienisch: <http://dizionario-italiano-gardenese.ladinternet.it/> (= <https://forniita.ladinternet.it/>)
  4. Gherdëina⇒Deutsch: <https://www.micura.it/de/dizionars/gh/dl>

Verantwortlich für die Internetportale der italienischen Daten ist die Florentiner Firma SmallCodes, die seit Jahren technische Lösungen im Umfeld der (vor allem ober-)italienischen Dialektforschung entwickelt. Die Entwickler der Portale der Deutsch-Ladin-Lexika werden nicht genannt.

Entsprechend der Aufteilung auf vier Portale sind auch die jeweiligen Datenbestände nicht aufeinander bezogen, was z.B. die Folge hat, dass man bei einer Suche ausgehend von der italienischen Bezeichnung lumaca (Schnecke) zwar das gadertalische sgnech geliefert bekommt, nicht jedoch die deutsche Bezeichnung Schnecke, die ihrerseits über das deutschsprachige Portal mit sgnech verknüpft ist. Auf die mit sgnech offenkundig eng verbundene Variante snech im Grödnerischen gelangt man wiederum nur nach einer gesonderten Suche auf dem entsprechenden Portal – und dies, obwohl die beiden Portale (Italienisch⇔Badiot und Italienisch⇔Gherdëina) von der selben Firma (smallcodes; <http://smallcodes.com/>) entwickelt worden sind. All dies dokumentiert, dass die Datenbestände, die im Grunde unter einem institutionellen Dach vereint sind, zumindest technisch nicht aufeinander bezogen und somit im Sinne der FAIR-Prinzipien nicht 'interoperabel' sind. Dies gilt gleichermaßen auch für die Anknüpfungsmöglichkeiten von außerhalb: Eine unmittelbare Referenzierung auf die soeben exemplarisch genannten morpholexikalischen Typen sgnech, snech und lumaca ist technisch nicht möglich. Eine Ausnahme sind lediglich die deutschsprachigen Versionen der Online-Lexika, die wenigstens den URL-basierten Verweis auf das deutsche Lemma erlauben (z.B. <https://www.micura.it/de/woerterbuecher/vb/dl?q=Schnecke>), eine Referenzierung auf die ladinischen Typen ist technisch jedoch auch hier nicht möglich.

Beklagenswert ist ferner die schlechte Auffindbarkeit der in den Lexika versammelten morpholexikalischen Typen von außerhalb der eigentlichen Portale, also über das Internet oder etwa über Bibliothekskataloge. Allerdings liegt dies nicht in der Verantwortung der Einzelakteure, sondern beruht auf dem Fehlen von Aggregatoren, die voneinander getrennt generierte und verwaltete Datenbestände unter Einsatz geeigneter Metadatenschemata miteinander verknüpfen können. Derartige Strukturen sind derzeit erst in ihrer Entstehungsphase. Als Beispiel wäre etwa die bereits erwähnte und zwischenzeitlich allerdings leider auch schon wieder aufgelöste und nahezu spurlos verschwundene "Generic Research Data Infrastructure" (GeRDI) zu nennen, an der u.a. VerbaAlpina als Partner- und Pilotprojekt beteiligt war. In jedem Fall hat die mangelhafte Auffindbarkeit zur Folge, dass die hier thematisierten ladinischen Online-Wörterbücher auch einem weiteren im Akronym FAIR formulierten Postulat – dem "F": Findable – nicht genügen. Das Gleiche gilt auch für die verbleibenden FAIR-Forderungen der Zugänglichkeit (A: Accessible) und der Nachnutzbarkeit (R: Reusable). Zwar ist die Zugänglichkeit über das Internet grundsätzlich möglich, sie erfährt jedoch eine ganz wesentliche Einschränkung dadurch, dass der Datenbestand lediglich durch manuelle Formulareingaben abgefragt werden kann. Ein vollständiger oder wenigstens partieller Export der Daten auf Basis frei zu definierender Filter ist anscheinend nicht möglich. Auch existiert offenkundig keine API, die eine wichtige Voraussetzung für die maschinelle Verarbeitung, auch und gerade im Sinne der Verknüpfung mit kongruenten externen Datenbeständen, darstellt. Das Fehlen einer API bedingt gleichzeitig und zusätzlich die mangelnde Interoperabilität der Daten. Die Nachnutzbarkeit der Daten schließlich wird nicht zuletzt entscheidend durch das Lizenzmodell beschränkt, unter dem sie zur Verfügung gestellt werden: Das Copyright (©) gestattet die Nutzung der Daten nur in sehr beschränktem Umfang, nach deutschem Recht im Wesentlichen nur im Rahmen dessen, was das Zitatrecht erlaubt.

Die hier thematisierten ladinischen Online-Wörterbücher machen insofern also nur auf den ersten Blick den Eindruck von zeitgemäßen Webpublikationen. Es ist begrüßenswert, dass das Material überhaupt im Internet verfügbar ist, und bestimmte Funktionen und Konzepte gehen über das hinaus, was herkömmliche Buchpublikationen zu leisten im Stande sind. Dazu gehört zum einen die Präsentation von Tonaufnahmen (auf die wiederum nicht verlinkt werden kann) sowie das Vorhandensein eines onomasiologischen Tools ("galleria immagini" in den Italienisch-Ladinischen Modulen; wiederum nicht per URL referenzierbar), das den Datenbestand über anklickbare Abbildungen aufschlüsselt. Letztlich jedoch sind auch die Webportale mit den Beschränkungen behaftet, die eigentlich nur dem Buch zu eigen sind, und es ist offenkundig, dass hier nicht mit der gebotenen Entschlossenheit und Konsequenz die Möglichkeiten der neuen Medien genutzt werden. Aus Sicht von VerbaAlpina ist dies vor allem deswegen bedauerlich, weil eine auch nur punktuelle (und gerne wechselseitige) Verknüpfung der eigenen Datenbestände mit den Beständen der ladinischen Wörterbücher de facto unmöglich ist.

Ebenfalls nur durch manuelle Formulareingaben ist der "Niev Vocabulari sursilvan online" (Decurtins o.J.) abfragbar, so dass an Interoperabilität nicht zu denken ist.

3.3. FAIRness der Kooperation

VA wird von zahlreichen Partner-Projekten unterstützt. VerbaAlpina stellt jedem Projektpartner eine eigene MySQL-Datenbank zur Verfügung, die auf dem selben Datenbankcluster betrieben wird wie die VerbaAlpina-Datenbank. Art und Umfang der Nutzung dieser Datenbanken ist sehr unterschiedlich.

Das große Potential der Kooperationen ist selbstverständlich und bedarf eigentlich keiner Erläuterung. Dennoch soll die konstruktive Perspektive der mehrfachen und komplementären Nachnutzung kompatibler Partnerprojekte an einem Beispiel illustriert werden: Im Rahmen des "Archivio lessicale dei dialetti trentini" (ALTR) wurden fünf gedruckte Dialektwörterbücher unterschiedlicher Talschaften (aus der Zeit zwischen 1955 und 1984) in einer Datenbank zusammengeführt. Dank einer Projektpartnerschaft konnte VA die für sie relevanten Ausdrücke konvertieren und importieren, so dass sie nun im Kontext aller Alpendialekte kartographisch dargestellt werden können (vgl. die folgende Bezeichnung eines Geräts zum Buttern: smalzaia).

Als interoperabel in der Kooperation hat sich auch die Projektarchitektur und die entsprechende Software bereits erweisen. So konnte probeweise das sizilianische Regional- und Spezialwörterbuch von Sottile 2002 ohne größere Schwierigkeiten nachgenutzt und als Atlas dargestellt werden. Der, so der Name, "Atlante linguistico della Sicilia online" [cite key="28039" nopar="true"] wird seit 2019 durch die sizilianischen Partner von VA ausgebaut (s. dazu auch den Beitrag von Roberto Sottile im vorliegenden Band). Systematisch und in größerem Umfang ist lexikalisches Material in die entsprechende Partnerdatenbank (PVA_ALS) übertragen worden. Dabei handelt es sich um Sprachdaten aus den Madonie, einem an der Nordküste Siziliens gelegenen Gebirge, in dem traditionell auch Vieh- und Milchwirtschaft betrieben wird. Die in die Partnerdatenbank übertragenen Daten werden automatisch auf dem von der ITG betriebenen Online-Portal mit integrierter interaktiver Karte visualisiert (<https://www.als-online.gwi.uni-muenchen.de/carta/>). Aus onomasiologischer Perspektive ist das Material des ALS in weiten Teilen kongruent zu dem von VerbaAlpina gesammelten Material aus dem Alpenraum und eröffnet somit erweiterte Möglichkeiten, überregionale Zusammenhänge zu erkennen, wie dies im Rahmen des Projekts exemplarisch schon erfolgt ist (s. Krefeld 2018). Die inhaltliche Verknüpfung zwischen dem Datenbestand in PVA_ALS mit dem VA-Datenbestand stellt allerdings eine große Herausforderung dar, die im Rahmen von VerbaAlpina bestenfalls skizzenhaft verwirklicht werden kann. In der Praxis würde die Verschränkung der beiden Datenbestände durch die wechselseitige Zuweisung der Konzepte und morpholexikalischen Typen zu einer gemeinsamen, zentralen Normdateninstanz (anbieten würde sich natürlich die Wikidata) erfolgen. Nach Vorstellung von VerbaAlpina könnte dies modellhaft für die Entwicklung einer universalen Lexikographie sein, die zeit- und raumübergreifend (nicht nur) lexikalische Zusammenhänge sichtbar werden lassen würde. Es bleibt abzuwarten, ob diese systematische und exemplarische Verknüpfung der ALS- und VerbaAlpina-Datenbestände auch nach dem Tod von Roberto Sottile noch umgesetzt werden können. Von Seiten von VerbaAlpina ist die entsprechende Bereitschaft weiterhin vorhanden.2

Auch der im Entstehen begriffene Atlas des Pikardischen in Nordfrankreich und Belgien greift seit dem Herbst 2018 auf die Konzeption und Technologie von VA zurück (vgl. APPI).

3.4. FAIRness im Crowdsourcing

Crowdsourcing-Verfahren richten sich in allererster Linie, wenngleich nicht ausschließlich, an Laien; sie setzen deshalb eine intuitiv leichte Auffindbarkeit und Zugänglichkeit zentraler Datenbereiche für menschliche Nutzer voraus. Die Daten werden durch die Art der Erhebung in ein strukturiertes und interoperables Format gebracht, das Nachnutzung gestattet. VA nutzt crowdsourcing in doppelter Weise: Zunächst wurde ein ästhetisch ansprechendes und einfach zu bedienendes Tool zur Datenerhebung programmiert (Mitmachen!); dafür wurde auch ein Tutorial auf Youtube gepostet. Ferner wurde soeben ein Zooniverse-Auftritt eingerichtet, um die für Retrodigitalisierung erforderliche Transkriptionsarbeit wenigstens teilweise an die Crowd weiterzugeben (vgl. <https://www.zooniverse.org/projects/filip-hr/verbaalpina>). Auch dafür ist Interoperabilität der VA-Datenbasis die Voraussetzung.

Das Erhebungstool wurde durch populärwissenschaftliche Vorträge in der Erwachsenenfortbildung einschlägiger Berufsgruppen (am 20.4.2018, 26.2.2018, 7.10.2017) beworben und fand daneben auch ein schönes massenmediales Echo. Die Auswertung ist interessant, denn es zeigt sich, dass vor allem Projektberichte im Internet relevant sind, da dort über einen Link ein direkter, sozusagen intramedialer Zugang angeboten werden kann: Das mit Abstand stärkste Echo fand deshalb ein Post auf der Internetseite des Bayerischen Rundfunks (am 27.4.2018); insgesamt wurden durch die 2016 'Crowder' bislang  29340 Dialektformen (Stand: 04.04.2022) beigesteuert  (vgl. die Livestatistik unter <https://www.verba-alpina.gwi.uni-muenchen.de/?page_id=4629&db=182>).3

Bibliographie

  • AISr = Loporcaro, Michele / Schmid, Stephan / Pescarini, Diego / Tisato, Graziano / Donzelli, Giulia / Negrinelli, Stefano / Zanini, Chiara (2019): AIS, reloaded (AISr), Zurich, University of Zurich, University of Zurich (Link).
  • ALS = Ruffino, Giovanni (Hrsg.) (1991-): Atlante linguistico della Sicilia, Palermo, Centro di studi filologici e linguistici siciliani.
  • ALSonline = Sottile, Roberto / Casoni, Corrado (2019-): ALS on line (Link).
  • APPI = Baiwir, Esther (Hrsg.): Atlas Pan-Picard Informatisé, Université de Lille (Link).
  • Colcuc/Rodella 2022 = Colcuc, Beatrice / Rodella, Anna (2022): Con parole tue. Dai parlanti a VerbaAlpina attraverso il Crowdsourcing, in: apropos [Perspektiven aufdie Romania] 9/2022, 187-212 (Link).
  • Decurtins o.J. = Decurtins, Alexi (o.J.): Niev Vocabulari sursilvan online (Link).
  • Forni 2013 = Forni, Marco (Hrsg.) (2013): Dizionario italiano - ladino gardenese = Dizioner ladin de gherdëina - talian, San Martin de Tor, Istitut ladin Micurá de Rü, ISBN: 978-88-8171-106-2 (Link).
  • Krefeld 2018 = Krefeld, Thomas (2018): s..v. tomme / toma (f.) (roa.), in: VA-de 18/2, Lexicon alpinum, (Link).
  • Lücke 2018 = Lücke, Stephan (2018): FAIR-Prinzipien, in: Methodologie, VerbaAlpina-de 18/2 (Link).
  • Mischí 2001 = Mischí, Giovanni (2001): Wörterbuch deutsch - gadertalisch = Vocabolar todësch - ladin, San Martin de Tor, ISBN: 88-8171-028-5 (Link).
  • Mischí 2002 = Mischí, Giovanni (2002): Wörterbuch: Deutsch - Grödner-Ladinisch = Vocabuler : tudësch - ladin de Gherdëina, San Martin de Tor, Istitut Ladin Micurà de Rü, ISBN: 88-8171-033-1 (Link).
  • Moling 2016 = Moling, Sara (2016): Dizionario italiano - ladino Val Badia; Dizionar ladin Val Badia - talian, San Martin de Tor, Istitut ladin Micurá de Rü, ISBN: 978-88-8171-120-8 (Link).
  • SAO = Adalbert-Stifter-Institut des Landes Oberösterreich (Hrsg.) (1998-): Sprachatlas von Oberösterreich, Linz (Link).
  • Sottile 2002 = Sottile, Roberto (2002): Lessico dei pastori delle Madonie, Palermo, Centro di studi filologici e linguistici siciliani, Dipartimento di scienze filologiche e linguistiche, Università di Palermo (Link).
  • VA = Krefeld, Thomas / Lücke, Stephan (Hrsgg.) (2014-): VerbaAlpina. Der alpine Kulturraum im Spiegel seiner Mehrsprachigkeit, München, online, LMU (Link).
Zur Perspektive übergreifender Vernetzung speziell in der Lexikographie befinden sich aktuell (März 2023) die folgenden beiden Artikel der Autoren des vorliegenden Beitrags im Druck: 1) Linguistic diversity and bidirectional lexicography, in: Stöckle, Philipp | Wahl, Sabine (Hrsgg.), Lexicography and Language Variation (Vienna Studies in Linguistics); 2) Sketching out a Virtual Framework for Romance Geolinguistics, in: Pustka, Elissa | Quijada van den Berghe, Carmen | Weiland, Verena (Hrsgg.), Corpus Dialectology (Studies in Corpus Linguistics)
Zum Thema Croudsourcing bei VerbaAlpina s. jüngst Colcuc/Rodella 2022.