Una biblioteca online accessibile da tutti. La digitalizzazione dell’archivio Bess: il caso Ceris-CNR

Una biblioteca online accessibile da tutti. La digitalizzazione dell’archivio Bess: il caso Ceris-CNR

L'IDEA IN BREVE

Una biblioteca online attraverso la quale leggere, sfogliare, scaricare oltre mezzo milione di pagine che racchiudono la storia del pensiero socio-economico del Piemonte. Il tutto in Open Access e mediante l’utilizzo di software open source. E’ questo – DigiBESS, l’archivio digitale della Biblioteca elettronica di scienze sociali ed economiche del Piemonte, gruppo di cooperazione di 18 biblioteche - il prodotto finale a disposizione di cittadini e studiosi di tutto il mondo messo a punto grazie al lavoro dell’Ufficio It del Ceris-CNR attraverso l’utilizzo di tecnologie open source.  Il progetto è sostenuto dalla Compagnia di San Paolo di Torino.

L'ESIGENZA

Tutto inizia con l’esigenza di digitalizzare e di rendere accessibile il tesoro di libri e documenti – tra le perle anche volumi dell’800 della Biblioteca Cognetti dell’Università di Torino, collezioni complete di periodici come le riviste Sisifo, Illustrato Fiat e la Stampa Sportiva – materiale custodito da Bess e da altri centri di documentazione Piemontesi tra le quali anche la Fondazione Gramsci e il Centro Storico Fiat. Il compito - che doveva tener conto anche di delicate policies legate al copyright delle opere -  è stato preso in carico dall’Ufficio IT del Ceris, l’Istituto di ricerca sull’impresa e lo sviluppo del CNR la cui biblioteca fa parte del consorzio Bess. “Abbiamo realizzato – spiega Giancarlo Birello, IT manager del Ceris - un’architettura completa di archiviazione e conservazione interamente con su software open source”.

LA SOLUZIONE

L’architettura prevede uno storage, un repository, e un front end per il pubblico (il sito www.digibess.it)  che rappresenta il punto di accesso all’archivio.

Parola d’ordine: Open source

“La scelta – continua Birello – si è diretta subito verso software open source per motivi di ragione economica ma anche filosofica”. Il “puzzle” di soluzioni open source inizia a comporsi nel 2010 e viene via-via sviluppandosi negli anni successivi. Come repository l’Ufficio IT del Ceris sceglie – tra i primi in Italia e sull’esempio della biblioteca di Monaco di Baviera - Fedora Commons, Drupal come Cms, Islandora per gestire il colloquio con il repository, Ubuntu come base server.

 

La scelta di Islandora e Fedora Commons

“La quantità di dati esigeva un’adeguata capacità di storage ad elevata affidabilità – spiega nel dettaglio Birello - la soluzione adottata è stata quella di un cluster a due nodi attivo/passivo realizzato tramite software open-source. Lo spazio di memorizzazione è utilizzato dal repository per contenere i dati delle opere digitalizzate e dall’infrastruttura di virtualizzazione. Quest’ultima contiene i due componenti server, ossia il repository e il front-end, entrambi virtualizzati, ridondati e connessi allo storage. Per repository si è scelto il framework Fedora Commons, un prodotto open-source tra i più diffusi per la gestione delle opere digitali, con alcune caratteristiche peculiari quali: supporta elevate quantità di dati, possibilità di harvesting OAI-PMH  (Europeana, Culturaitalia, WorldCat), operazioni di ingesting programmabili, descrizione semantica delle relazioni tra gli oggetti, architettura a modelli espandibile e personalizzabile. Come front-end, per presentare al pubblico la versione elettronica dei volumi, ci si è orientati sul Cms Drupal abbinato a Islandora, un insieme di moduli e componenti che collegano gli oggetti del repository al front-end, il tutto sempre rilasciato come software open-source”. Le policy di Fedora Commons, Islandora e Drupal si integrano tra di loro e permettono di definire diversi livelli di accesso al singolo oggetto, permettendo la gestione anche di opere coperte da copyright.

IL CAMBIAMENTO

Il lettore e lo studioso trovano così a disposizione l’Ocr di tutte le pagine, tutte corredate di metadati e possono eseguire una ricerca sui testi, leggerli online, eseguire download del Tiff delle pagine, del Pdf completo del volume, oppure del file txt delle singole pagine. Fin qui dal punto di vista tecnico. “Dal punto di vista umano la difficoltà maggiore è stata quella di interfacciare le esigenze IT con quella dei bibliotecari e far combaciare le rispettive priorità”, conclude Birello.

L'AZIENDA

L’Ufficio IT del Ceris-CNR ha sede nell’Area di Ricerca CNR di Torino e amministra l’infrastruttura di rete CNR in Piemonte. Nella sua sede è situata anche la sala macchine che costituisce il centro-stella delle connessioni e dei servizi di rete per le 15 strutture piemontesi del CNR, con un’utenza complessiva di 420 persone. Il servizio è destinato principalmente alle Biblioteche che hanno in previsione la digitalizzazione di opere e intendono renderle disponibili ai propri utenti  ai cittadini via internet, il servizio può anche essere utilizzato in altri settori, sfruttando la versatilità del repository e le possibilità di relazioni semantiche tra gli oggetti. Il prossimo progetto allo studio è V2P2 un repository open di virus e batteri, progetto unico nel settore agroalimentare.