Sistema Bibliotecario di Ateneo
Sistema Bibliotecario di Ateneo
ENG

Digital Preservation - Preservazione Digitale

Indicazioni generali

Come affermato in Mantenimento e sviluppo dell’infrastruttura tecnologica della Biblioteca Digitale, il Sistema Bibliotecario conserva i dati digitali principalmente nella sua infrastruttura di archiviazione e backup e utilizza i servizi dell'Università di Padova per quanto riguarda la replica delle risorse digitali che vengono replicate in remoto e convalidate dal checksum MD5 o da metodi simili al fine di preservarne l'integrità.

L'infrastruttura hardware è dotata di sistemi moderni per rilevare il deterioramento dell'hardware o dei guasti e può sostituire e ripristinare l'hardware in servizio in tempi brevi. La ridondanza è implementata nell'infrastruttura e consente di essere operativa anche in presenza di più guasti.

Un piano di ripristino dei dati e di continuità aziendale viene implementato in breve tempo tramite backup replicati, UPS, e con server, sistemi di servizio e apparecchiature di rete ridondanti.

 

Phaidra

Phaidra si basa su Fedora, "a robust, modular, open source repository system for the management and dissemination of digital content", che include funzionalità in conformità al modello OAIS. Descriveremo ora i due passaggi del deposito.

Nella prima fase, l'ingesting, viene ricevuto un SIP (Submission Information Package) per la selezione, la valutazione e l'organizzazione del contenuto. Esistono due procedure predefinite, il client Phaidra Importer e lo script di caricamento massivo, ma il contenuto viene solitamente inviato tramite l'interfaccia web semplice e intuitiva di Phaidra.
I producer necessitano di autenticazione utilizzando un account locale con il quale possono caricare gli oggetti digitali.

Il secondo passaggio, l'invio, viene eseguito automaticamente dalla piattaforma, in conseguenza del quale vengono convalidati e memorizzati i metadati e i dati binari (Octets). Da quest'ultimi vengono creati e memorizzati i checksum. Viene quindi viene generato un AIP (Archival Information Package) per memorizzare e archiviare dei dati. La piattaforma ha generato automaticamente il DIP, poiché la diffusione dei dati è aperta, tranne nei casi in cui i produttori hanno chiuso l'accesso al contenuto binario. Per i metadati, invece, la piattaforma ne consente sempre la diffusione.

I sistemi software e hardware monitorano eventuali problemi e sono in grado di avvisare se ci sono malfunzionamenti o se è necessario sostituire dischi o altre parti. L'infrastruttura hardware viene monitorata tramite ILO (server Hewlett Packard) e il software tramite gli strumenti VMware al fine di ridurre al minimo i rischi. Il Sistema Bibliotecario di Ateneo si è dotato del software Veeam Backup & Replication per il backup e il ripristino delle immagini dei server, e dispone di un numero adeguato di server in caso di malfunzionamenti, nonché di storage secondari. L'infrastruttura è in grado di reagire rapidamente a malfunzionamenti e battute d'arresto. Il Sistema Bibliotecario si affida ad ASIT (il Data Center dell'Università) in caso di eventi catastrofici per riportare i propri servizi online in breve tempo. Un'adeguata capacità di archiviazione fisica sui server è garantita per supportare le attività di Phaidra.

L'AIP è costituito da metadati e dati in formati adatti per l'archiviazione a lungo termine. Tutti i dati del sistema vengono regolarmente sottoposti a backup. Tutti i server si trovano in una stanza monitorata e il cui accesso fisico è limitato al personale autorizzato. Quando il personale non è presente, è garantito un sistema di allarme e un monitoraggio remoto della sicurezza. I locali sono regolarmente monitorati dal servizio che si occupa di sicurezza all'Università di Padova.
Phaidra ha un sistema di backup automatizzato. Ogni elemento (metadati e file) viene salvato insieme al checksum MD5 per la verifica dell'integrità. Phaidra ha gli strumenti per eseguire analisi regolari e intervenire se necessario.

Disponiamo di architetture avanzate per la replica multipla di dati, backup automatico in più sedi presso l'Università di Padova. Inoltre, ogni notte è prevista una copia del repository, con possibilità di ripristino in poche ore.

La rete è protetta da un firewall e l'accesso alle macchine è limitato agli operatori. Solo gli utenti con un account verificato possono caricare oggetti digitali nella piattaforma. Il Sistema Bibliotecario di Ateneo garantisce adeguati sistemi hardware e software per trasferire, gestire e pubblicare i dati in modo sicuro e tracciabile. I responsabili della gestione dei dati documentano le procedure nel wiki interno, quindi ogni operazione di archiviazione può essere eseguita dal team con gli stessi risultati.

Per quanto riguarda i componenti elettrici, tutte le apparecchiature sono dotate di dispositivi di sicurezza conformi alle norme vigenti. Il sistema è sezionato con interruttori per ciascuna zona e tipo di utilizzo. Inoltre, due UPS ne garantiscono la continuità. I locali sono regolarmente monitorati dal servizio che si occupa di sicurezza all'Università di Padova.

Collegamenti alle procedure:

Prove pubbliche:

Di seguito è riportato un breve riepilogo del contenuto.

 

Procedure per la gestione dell'archiviazione nel sistema di libreria

La gestione dei dati nel Sistema Bibliotecario di Ateneo avviene principalmente attraverso la gestione delle macchine virtuali che li contengono. Le principali operazioni sono:

Creazione di una macchina virtuale

Attraverso l'ambiente VMware, i data manager possono creare una nuova macchina virtuale. I passaggi sulla configurazione di rete e di archiviazione richiedono la massima attenzione. Per la rete, la macchina deve essere inserita nella rete pertinente, assicurandosi che utilizzi un indirizzo appropriato. Per la parte di archiviazione, è necessario selezionare il profilo predefinito nella fase di selezione dello storage, ad eccezione delle macchine virtuali con attività speciali.

Spostamento di una macchina virtuale

Le macchine virtuali sono generalmente assegnate ai server nel pool disponibile. Utilizzando gli strumenti VMware, è possibile spostare una macchina da un server a un altro, con tempi di inattività minimi, in caso di necessità (manutenzione pianificata o non pianificata, ad esempio).

Ripristino di una macchina virtuale

Tramite il software Veeam è possibile ripristinare una macchina virtuale da un archivio di backup apposito. Il ripristino può sostituire la macchina esistente dopo o durante un ripristino di emergenza, per un ripristino parziale dei dati o per l'esigenza di confrontare l'evoluzione dei dati nel tempo.

Allocazione di un disco aggiuntivo in una macchina virtuale

Un disco aggiuntivo può essere creato ed assegnato alle macchine virtuali. È consigliato per macchine che contengono molti dati. Utilizzando gli strumenti VMware è possibile creare un nuovo disco (selezionare la politica predefinita se non indicato diversamente) nella macchina. Il disco, nella politica di base, sarà sottoposto a backup tramite quello della VM.

 

Conservazione digitale

La conservazione digitale nasce dalla combinazione di politiche, strategie e azioni per garantire l'autenticità dei contenuti e la conservazione a lungo termine, indipendentemente dai futuri cambiamenti tecnologici. La conservazione digitale si applica sia al contenuto nativo digitale che a quello digitalizzato.

Le attività strategiche a supporto della conservazione digitale seguono i regolamenti del Sistema Bibliotecario di Ateneo, ovvero gestire e garantire la conservazione, l'aggiornamento e la fruizione del patrimonio bibliografico e documentale e l'accesso all'informazione scientifica attraverso lo sviluppo della Biblioteca Digitale dell'Università (Regolamento del Sistema Bibliotecario dell'Università di Padova, titolo I, articolo 1, paragrafi 1 e 2).
Le strategie e le azioni per la conservazione digitale si applicano alla creazione, all'integrità e al mantenimento dei contenuti.
Le principali azioni perseguite dallo SBA per la conservazione a lungo termine delle collezioni digitali sono le seguenti:

  • sviluppo e manutenzione di archivi digitali per la conservazione a lungo termine di oggetti digitali
  • gestione di diversi formati di file e metadati
  • implementazione di solidi processi e procedure automatizzate al fine di garantire una buona gestione e conservazione dei contenuti
  • accesso continuo e affidabile al contenuto di oggetti digitali per la comunità di riferimento

La nostra strategia di conservazione a lungo termine si basa principalmente sulla standardizzazione dei dati in input.

Il documento Formati dei file raccomandati per l’archiviazione a lungo termine e per la disseminazione web in Phaidra offre una panoramica dei formati di file da utilizzare per l'archiviazione e il caricamento a lungo termine su Phaidra. Il documento recita:

Non esistono criteri assoluti nella scelta del formato dei file. La scelta è sempre dipendente da differenti valutazioni che chi archivia dovrà fare puntualmente, caso per caso, e risulterà spesso in un compromesso tra la miglior qualità ottenibile e i limiti imposti dai costi di produzione, elaborazione e stoccaggio dei file, nonché, per il pregresso, dall’opportunità di una conversione a nuovo formato.

Questa scelta è particolarmente significativa nell’ottica dell’archiviazione a lungo termine per la quale sono desiderabili una qualità che rispetti l’autenticità e l’integrità del documento originale e un formato che garantisca l’accesso ai dati nel lungo periodo.

Esistono alcuni criteri generali ai quali ci si può attenere per quanto riguarda la scelta del formato più adatto all’archiviazione: apertura, portabilità, qualità e funzionalità, supporto allo sviluppo, diffusione, trasparenza, auto-documentazione.

Per la nostra comunità di riferimento, la priorità è la conservazione del contenuto delle informazioni (immagini, libri, video, ecc.). Abbiamo un unico livello di conservazione, data la varietà di contenuti archiviati nella piattaforma.

I passaggi importanti per garantire la conservazione della piattaforma sono:

  • Controllo sull'intera catena di immissione e ricezione dei dati. Tutte le azioni necessarie sono intraprese con il producer per integrare le informazioni mancanti, prestando molta attenzione alla completezza dei dati, sia per la conservazione a lungo termine (provenienza, proprietà, diritti, caratteristiche tecniche) sia alla scelta di formati adatti alla conservazione a lungo termine . Ad esempio, anche se gestiamo un file immagine con formato proprietario e non documentato in origine, lo convertiamo nel formato di file TIFF.
  • Controllo dell'integrità dei dati. Ogni modifica dei dati viene registrata, usando principalmente i meccanismi integrati di Fedora. In particolare, ogni modifica dei metadati viene salvata ed è disponibile per il repository. I checksum vengono applicati su dati e metadati, quindi possiamo monitorare e intervenire in caso di modifiche accidentali, errori del software o incidenti di altra natura, attraverso il recupero dei dati dal sistema di gestione dello storage e del backup.
  • Leggibilità dei dati. L'obiettivo di Phaidra è che i dati siano sempre leggibili e interpretabili dalla comunità di riferimento. Interagiamo con essa sull'uso dei dati e ci teniamo aggiornati sull'evoluzione dei formati di testo, immagini, audio e video.

Insieme al producer, Phaidra analizza le questioni legali, etiche e di copyright, preservando queste informazioni in modo da preservare l'usabilità dei dati per il futuro. L'usabilità è garantita dalla conservazione del contenuto e dalla ricchezza di informazioni per lo studio e la comprensione da parte della comunità di riferimento.
Esiste un chiaro accordo tra il producer e Phaidra attraverso le Condizioni d'uso. Accettando le Condizioni d'uso, il producer accetta che la piattaforma gestisca e diffonda i contenuti. Inoltre, il producer sottoscrive di essere in possesso dei diritti per depositare l'oggetto, che il copyright e la riservatezza dei dati sono stati verificati ed implementati e che ha valutato le questioni etiche, seguendo le linee guida del codice etico dell'Università di Padova.
Phaidra implementa un inserimento semplice e sicuro di dati (file e metadati), inclusi i metadati sulla provenienza ed il ciclo di vita dell'oggetto digitale.
Phaidra è impegnata nella custodia a lungo termine degli oggetti depositati nel repository e si impegna ad adottare le migliori pratiche attuali nella conservazione digitale.

Come spiegato in Mantenimento e sviluppo dell’infrastruttura tecnologica della Biblioteca Digitale, sono soddisfatte tutte le condizioni per garantire la continuità di servizio. I formati di file e metadati rispettano le caratteristiche di conservazione a lungo termine e soddisfano la nostra comunità di riferimento. Di seguito una descrizione del piano di migrazione di Phaidra:

  • Sottomissione il nostro piano alle parti interessate per l'approvazione
  • Analisi delle funzionalità della piattaforma individuata per la migrazione
  • Fase preliminare di analisi sui formati di file e sul livello di conservazione richiesto per dati e metadati. Questa fase è facilitata dalle scelte fatte sui formati e sul documento di analisi del formato, nonché dalla natura del formato dei metadati
  • Determinazione delle azioni di conservazione basate sull'analisi del formato
  • Analisi dei metadati, normalizzazione dei vocabolari e altre operazioni preliminari
  • Redazione delle azioni necessarie, compresa un'eventuale trasformazione dei formati in base al livello di conservazione richiesto, copia dei dati e mappatura dei metadati su nuovi formati, se necessario, considerato il livello di conservazione richiesto.
  • Definizione dei criteri di test per valutare il successo della migrazione
  • Definizione e pianificazione di eventuali costi e verifica della disponibilità delle risorse pianificate
  • Individuazione delle responsabilità all'interno del piano e definizione dei workflow per migrazione

Nella fase di migrazione sarà necessario:

  • operare la pulizia dei dati
  • eseguire un test di migrazione. Questa fase è molto importante perché permette di valutare le azioni pianificate e di verificarle, apportando le correzioni necessarie
  • eventuale modifica del piano e conseguente aggiornamento della documentazione

Un piano di migrazione richiede un alto livello di collaborazione di tutte le parti interessate, dagli stakeholder a tutti coloro che devono fornire informazioni (ad es. il livello di conservazione, sulla verifica del successo della migrazione e le informazioni sulla piattaforma di destinazione).

Ad oggi, la responsabilità della conservazione digitale segue il documento Mantenimento e sviluppo dell’infrastruttura tecnologica della Biblioteca Digitale per il livello istituzionale e nella sezione Sicurezza (di seguito) per la parte tecnica.
Le Condizioni d'uso specificano il livello di responsabilità definito da Phaidra nei confronti degli utenti e le esigenze relative alla conservazione a lungo termine (vedi: "l’Ateneo si impegna a conservare al meglio delle sue capacità gli oggetti digitali archiviati in Phaidra e a renderli accessibili e fruibili nel tempo") e autorizzare Phaidra a gestire i dati in modo adeguato allo scopo (vedi: "Gli utenti autorizzati possono depositare oggetti digitali nella piattaforma rendendoli disponibili - secondo le licenze rilasciate - ai terzi").

 

Infrastruttura

L'infrastruttura di base di Phaidra si basa su Fedora Commons 3.8.X, una delle piattaforme open source più utilizzate per creare repository digitali. Seguendo le indicazioni della comunità di riferimento, Phaidra ha sviluppato un modello di dati basato su LOM, Dublin Core e gli standard museali italitani dell'ICCD - Istituto Centrale per il Catalogo e la Documentazione del Ministero della Cultura). Fedora segue il modello di riferimento OAIS. Fedora e Phaidra sono entrambi supportati dalla comunità di sviluppatori. Il wiki pubblico di Phaidra documenta le specifiche tecniche della piattaforma (fare riferimento a GitHub).

I metadati di Phaidra sono prevalentemente testuali e descrittivi. Gli standard spaziali, come Google KML, sono implementati in parte. JSON e XML sono i formati di scambio utilizzati dalla piattaforma e nei componenti interni. Per una sicurezza dei dati a basso livello, le autorizzazioni granulari XACML di Fedora assicurano che solo gli account e i ruoli designati possano accedere agli oggetti, controllando l'autorizzazione per le operazioni di modifica, creazione ed eliminazione. Gli account vengono gestiti utilizzando LDAP di Active Directory.

Per quanto riguarda la connettività, il nostro fornitore è l'Università di Padova, che utilizza la rete GARR come rete di ricerca italiana. L'Università è in grado di fornire e ripristinare la connettività in breve tempo. I dispositivi sono tutti dotati di UPS per consentire la continuità del servizio in caso di blackout.
Per quanto riguarda il software, abbiamo sviluppato un strumento, basato su Java, denominato Phaidra Importer per l'importazione massiva di raccolte di immagini, documenti PDF, video e di libri. Tutti i componenti di Phaidra funzionano su piattaforme open source di chiara fame, come Apache e Ngix, utilizzando perl, java, script di shell come linguaggi di programmazione e le moderne tecnologie web (html5, framework javascript, CSS3) per frontend web. Usiamo Debian Linux come sistema operativo per i nostri server.

Per quanto riguarda l'archiviazione, viene utilizzata Hyperconvergence di VMware (vSAN). Questa tecnologia aggrega lo spazio fisico dei nostri attuali 6 server e lo fornisce come risorsa virtuale per tutte le VM allinterno dell'ambiente VMware. In caso di guasto di un server, è possibile ridistribuire i dati agli altri server al fine di prevenire un possibile guasto di un secondo server. La tecnologia di archiviazione di basso livello si basa su RAID5 su SSD.

La documentazione è disponibile su GitHub; ci sono informazioni sulle specifiche tecniche di Phaidra.

 

Sicurezza

Il sistema bibliotecario ha personale informatico che gestisce i servizi di informazione del sistema bibliotecario. Si tratta di quattro informatici del Settore Back Office e Sistemi Informativi dell'Ufficio Biblioteca Digitale. Un informatico di questo settore lavora su Phaidra.

Il Sistema Bibliotecario di Ateneo ha tra i suoi obiettivi la sicurezza dei suoi spazi di lavoro. C'è un responsabile della sicurezza locale nel piano di sicurezza dell'Università di Padova, che è in grado di valutare i rischi e prevenire eventuali pericoli. In ogni caso, la gestione della sicurezza è a carico dell'Università di Padova, che effettua controlli periodici ai fini della prevenzione dei rischi degli impianti, dalle intrusioni, delle manipolazioni o dal furto di dati. Le infrastrutture tecnologiche si trovano in luoghi appositi a cui hanno accesso solo persone autorizzate e qualificate. Oltre ai backup locali e remoti presso l'Università, abbiamo un sistema di backup su nastro locale (LTP3). I nastri sono conservati in contenitori ignifughi e chiusi in una stanza sorvegliata. Il supporto tecnico per operazioni ordinarie e straordinarie è garantito da un servizio apposito dell'Università di Padova.

In sintesi, le infrastrutture sono protette da piani di sicurezza da un punto di vista fisico, oltre a essere monitorate e accessibili solo da personale autorizzato. Ciò garantisce che i dati siano in sicurezza per la conservazione a lungo termine e per il loro utilizzo.
Dal punto di vista informatico, i dati sono protetti dalla presenza di firewall che limitano l'accesso all'infrastruttura. I server sono accessibili solo tramite la rete locale o tramite VPN e l'accesso è limitato solo agli operatori autorizzati con il proprio account. Esistono esperti che valutano i rischi di attacchi informatici e disponiamo di strumenti di monitoraggio per la rete e i server.

Oltre ai backup, esistono procedure interne con istruzioni per gli operatori in caso di ripristino di dati o infrastrutture e per la regolamentazione dell'accesso ai sistemi da parte del personale autorizzato.

Per quanto riguarda le procedure di ripristino, in caso di problemi sulla nostra infrastruttura IT principale, possiamo fare affidamento su un'infrastruttura IT secondaria e anche sul sistema Veeam, che può riportare l'immagine online direttamente dal backup. Possiamo anche recuperare l'immagine sull'infrastruttura dell'Università, dove abbiamo già altri ospiti in esecuzione.

In caso di incidente di sicurezza, il problema viene segnalato ad Asit (Area Servizi Informatici e Telematici), un ufficio specializzato per la sicurezza IT.