Criteri di Interoperabilità nel Progetto NavigAIS e nell’Atlante dei Dialetti Veneti (AMDV)

Abstract

Si presenta in questo lavoro i criteri di interoperabilità che hanno guidato fino dagli inizi la realizzazione parallela di due progetti fra loro strettamente collegati:

1 – NavigAIS, nato nel 2009, con lo scopo di acquisire digitalmente il testo dell’intero AIS (www3.pd.istc.cnr.it/navigais, www3.pd.istc.cnr.it/navigais-web), l’Atlante Italo-Svizzero dei linguisti svizzeri K. Jaberg e J. Jud (Sprach- und Sachatlas Italiens und der Südschweiz, 1928-1940), e di mettere a disposizione della comunità il relativo database.

2 – L’Atlante Multimediale dei Dialetti Veneti (Tisato et al., 2013, www.pd.istc.cnr.it/amdv), che intende analizzare l’evoluzione diacronica dei dialetti italoromanzi avvenuta in 90 anni nel Veneto, con una campagna di registrazioni nelle medesime località, oggetto dell’inchieste originali AIS, e sullo stesso questionario usato a quel tempo.

La metodologia sviluppata riguarda quattro settori:

1 – Le fonti dell’informazione:

  • Il recupero e l’accesso facilitato ai documenti originali senza le limitazioni esistenti nella consultazione di documenti centenari.
  • La creazione di database adatti al lavoro sul campo: ad esempio per controllare le risposte degli informatori nei punti d’inchiesta, e poter così interloquire efficacemente con il parlante.

2 – La codifica dell’informazione linguistica, etnografica, ecc.

  • L’adozione di una codifica per la trascrizione fonetica adatta al trattamento elettronico dei testi in oggetto.
  • L’acquisizione digitale del testo degli atlanti linguistici, dei commenti e delle immagini, la creazione di database testuali, grafici e fotografici indicizzati e parlanti (con materiali sonori ad hoc) e di meccanismi di indicizzazione e ricerca opportuni.
  • Lo sviluppo di OCR (Optical Character Recognition) adatti allo scopo.

3 – Un approccio per l’acquisizione dei materiali sonori e visuali, che permetta la gestione automatica di grandi quantità di dati, e che sia finalizzato alla loro indicizzazione e interrogazione.

4 – Lo sviluppo di forme efficaci di condivisione dell’informazione.

I criteri esposti sono stati adottati nel 2016 dal progetto AIS Reloaded (Michele Loporcaro, Stephan Schmid, Romanisches Seminar, Università di Zurigo, www.rose.uzh.ch/de/forschung/forschungamrose/projekte/AIS-reloaded.html), finanziato da SNSF (Swiss National Science Foundation), che tramite NavigAIS e un OCR integrato e sviluppato ad hoc si propone di digitalizzare l’intero AIS e di condurre una campagna di registrazioni in Ticino e nei Grigioni nelle medesime 36 località AIS.

Si discuterà l’esperienza e i risultati ottenuti con questo OCR (con un errore medio CER 3.65%, molto buono considerata la grafia AIS e le problematiche dovute al numero dei diacritici e dei livelli dei diacritici), la metodologia usata per la validazione dei risultati e la valutazione delle performance del riconoscitore, ed il controllo dei lemmi del database, ecc.

graziano@tisato.it

Istituto di Scienze e Tecnologie della Cognizione (ISTC)
Consiglio Nazionale delle Ricerche (CNR)
Via Martiri della Libertà, 2 – 35127 Padova