E se fossero i dati a parlare?

di 18 ottobre 2011 0

Le aziende e gli enti detentori di importanti quantità di dati, prima cartacei e ora digitali, si sono dotati, nel corso di questi ultimi decenni di corsa all’informatizzazione, di una infinita varietà di software necessari alla gestione dei loro archivi in costante crescita.

Con il rapido ed incessante progredire delle soluzioni adottabili per la conservazione ed il riutilizzo pubblico e privato dei dati in loro possesso, i più lungimiranti hanno continuato a riversare, trasferire e trasformare le informazioni in strutture omogenee sempre più evolute. Chi è rimasto indietro, invece, si è ritrovato a dover mantenere una costellazione di soluzioni eterogenee, talvolta obsolete, per ritrovarsi costretto ad effettuare conversioni e continui riversamenti, al fine di fronteggiare le nuove richieste di integrazione e riuso dei propri dati; in molti casi purtroppo i dati raccolti con spese non indifferenti rimangono imprigionati in vecchie basi dati per poi essere riversati in più evoluti sistemi che, tempo qualche anno, non si dimostreranno più aperti dei loro predecessori.

Molto spesso i dati vengono prodotti, corretti od estrapolati da altri sistemi al fine di pubblicarli, integralmente o parzialmente, sul web, di confezionare un nuovo prodotto editoriale o per creare un nuovo sistema di consultazione o di gestione interna. La nuova base dati prodotta, molto spesso ristrutturata ed adeguata all’ultima tecnologia  disponibile, produce spesso un’inutile duplicazione di informazioni e documenti digitali, a volte corretti solo per l’occorrenza, che, nel caso di archivi movimentati, nel futuro dovranno essere mantenuti costantemente aggiornati; se poi a questo scenario aggiungiamo che in genere la società informatica che produce il sistema di alimentazione della basi dati di lavoro non è la stessa che le riutilizza, la gestione si complica ed i costi non possono che lievitare.

Si può metter fine a questa spirale? Possiamo liberarci della dipendenza dall’evoluzione del software? Ma soprattutto, possono i dati essere del tutto indipendenti dall’applicazione che li produce?

In questi ultimi tempi si incomincia finalmente a parlare di Open Data anche in Italia. Per lo più se ne parla facendo riferimento agli effetti che la loro introduzione avrebbe sulla trasparenza della pubblica amministrazione. Purtroppo però spesso si corre il rischio “appiattire” e “svilire” l’idea di Open Data con la possibilità di conoscere e scaricare dati di interesse pubblico.

È la rivoluzionaria transizione dal software di tipo Open Source ai dati di tipo Open Data, una rivoluzione per tutti, anche per enti ed aziende.

Gli Open Data sono molto di più: codificare, descrivere e distribuire il proprio patrimonio informativo significa innanzi tutto fornire una base accessibile a tutti per lo sviluppo di nuovi strumenti, di nuove analisi ed interpretazioni che possono incentivare lo sviluppo in ambito scientifico, umanistico, economico e, come nel caso della pubblica amministrazione, persino civile. Il requisito fondamentale è consentire a chi accede ai dati di comprendere, senza la mediazione del produttore, il rapporto semantico tra le entità che sono contenute in essi. Per gestire queste relazioni si fa ricorso a metodologie standard e ampiamente diffuse, utilizzando modelli pubblici codificati in RDF (Resource Description Framework), supportati da solide ontologie descrittive.

Gli enti e le aziende possono far propria la filosofia alla base degli Open Data proponendo alle proprie strutture interne la centralizzazione dei dati in un sistema di conservazione e distribuzione unico, che fornisca un accesso non mediato alle unità informative attraverso pubblici linguaggi di interrogazione. Un approccio di questo genere consentirebbe la creazione di innumerevoli applicazioni “locali” libere di accedere per il loro funzionamento ai dati comuni e capaci di arricchirne l’insieme con quelli da loro prodotti: una struttura a stella nel cui centro risiedono i dati e non più un reticolo che collega le applicazioni tra di loro, al fine di liberarsi dalla necessità di investire nel continuo aggiornamento dei canali di comunicazione, causato dal necessario progredire delle stesse applicazioni.

I dati, gestiti da applicazioni “locali” specializzate potranno essere caricati su un software pubblico e per lo più gratuito (ad esempio Virtuoso conserva gli RDF sotto forma di triple ed il suo utilizzo è pressoché libero), che fornisce un EndPoint (un “punto di accesso” pubblico) interrogabile direttamente o mediante procedure di indicizzazione che facciano le particolari interpretazioni ed i collegamenti richiesti dallo specifico caso d’uso.

Il detentore dei dati che si doti di un EndPoint è ora in grado di:

  1. pubblicare i dati su WEB o creare applicazioni aggiornabili in autonomia con le procedure di scarico in suo possesso
  2. esporre i dati o parte di essi al libero riutilizzo secondo la filosofia Open Data
  3. dotarsi di nuove applicazioni interne o pubbliche che interagiscano direttamente con l’EndPoint, modificando ed interrogando i dati in tempo reale o secondo scarichi e procedure programmate
  4. separare di fatto la logica di descrizione e conservazione dei dati dal software necessario per gestirli
  5. eliminare la necessità di sviluppare bridge tra applicazioni diverse perché queste si possano “passare” i dati: ora le applicazioni possono recuperare direttamente dall’EndPoint le informazioni a loro necessarie

I dati salvati nell’EndPoint sono da ora raggiungibili, interrogabili, modificabili e comprensibili da qualunque soggetto che conosca SPARQL, il linguaggio pubblico di interrogazione e ricerca di metadati RDF.

Niente più duplicazioni.

Niente più conversioni costose e ripetute nel tempo.

Niente più problemi di gestione derivanti dal pensionamento o dal cambio di attività di colui che si è occupato “storicamente” della base dati.

È la transizione dal software di tipo Open Source ai dati di tipo Open Data, una rivoluzione anche per gli enti e le aziende.