RDF – una valutazione è d’obbligo

di 26 Ottobre 2014 0

Sul portale dati.gov è stato appena pubblicato il nuovo aggiornamento dell’infografica sullo stato dell’Open Data della PA in Italia che porta il totale dei dataset censiti ad oltre 12.000. In un post pubblicato su innovatoripa (e ripubblicato anche su dati.gov) Sergio Agostinelli ricorda che i criteri di rilevazione e classificazione non sono finora cambiati nonostante siano intervenute alcune importanti novità, in particolare la pubblicazione a luglio 2014 delle nuove “Linee guida nazionali per la valorizzazione del patrimonio informativo pubblico” dell’Agid (scaricabili qui), e propone di migliorare la metodologia attraverso un percorso condiviso e aperto a tutta la comunità Open Data italiana.

In questi ultimi anni l’esigenza di pubblicare online i propri dati s’è fatta pressante. Il movimento Open Data si sta sempre più organizzando e le istituzioni hanno cominciato a riconoscere che dalla condivisione dei propri dati è possibile trarre vantaggi sia per chi pubblica che per chi consuma le informazioni. Il riuso delle informazioni degli enti pubblici, attraverso analisi ed applicazioni sviluppate da civil hacker ed aziende, genera nuove forme di reddito ed è in grado di guidare e migliorare lo sviluppo dell’intero sistema Paese. Ma per raggiungere questi obiettivi è necessario migliorare la qualità dei dati pubblicati.

Pubblicare i propri dati in RDF significa condividere la propria base di conoscenza e valorizzare al massimo il potenziale informativo dei propri dati

Nella classificazione  a 5 stelle proposta da Tim Berners-Lee le prime tre sono dedicate alla pubblicazione di dati in formati dalle caratteristiche semplici (CSV, XML, etc.) mentre la quarta e la quinta stella sono assegnate a coloro che utilizzano standard internazionali di pubblicazione dei propri dati (RDF). Bisogna però fare attenzione: arrivare alla terza stella può esser definito un passaggio “facile”, raggiungere il quarto livello aggiunge difficoltà non paragonabili a quelle affrontate nei primi tre, anche se l’efficacia di tale approccio giustifica senz’altro lo sforzo.

Superare le tre stelle è possibile, auspicabile oggi e necessario nell’immediato futuro. Pubblicare i propri dati in RDF significa condividere la propria base di conoscenza e valorizzare al massimo il potenziale informativo dei propri dati. Se tutti gli enti pubblici italiani si limitassero a pubblicare solo file CSV saremmo presto sommersi da dati frammentati e non correlati che, a causa della loro quantità, scatenerebbero un effetto boomerang complicando la loro reperibilità e aumentando le difficoltà di riuso.

Di seguito proponiamo una breve analisi dei dataset pubblicati sul portale http://dati.gov.it e qualificati come “4 stelle o superiore”, con l’obiettivo di fornire dei semplici parametri di riferimento per chiunque volesse valutare il proprio lavoro o la fornitura proposta da un’azienda.

Poiché lo standard RDF definisce delle caratteristiche oggettive e verificabili, la nostra valutazione si baserà su 5 differenti verifiche:

  1. i dati sono serializzati secondo uno dei formati previsti da RDF?
  2. nella pubblicazione vengono utilizzate ontologie, sono pubbliche?
  3. la pubblicazione offre una rapprensentazione HTML (per umani) delle risorse?
  4. la pubblicazione offre una rappresentazione RDF (per macchine) delle risorse?
  5. viene offerto uno SPARQL endpoint?

Le cinque verifiche sopra riportate sono applicabili a qualunque pubblicazione RDF e la conformità ad ognuna di esse è necessaria per la “qualificazione” a quattro stelle.

Ecco la tabella riassuntiva dell’analisi: https://docs.google.com/spreadsheets/d/1XRB7HVeTLkOTTPympAmFiO-LmdzlUsi3KmKtPDY1Orc/edit?usp=sharing
Il documento è commentabile ed è gradita la partecipazione di chiunque;  la fonte presa in considerazione è unicamente dati.gov.

Alla luce delle analisi effettuate emerge che solo 7 pubblicazioni sono considerabili a pieno titolo “pubblicazioni RDF”, le restanti 28 sono invece da ultimare o da iniziare nuovamente dal principio.

La Linked Data Cloud della PA italiana stenta a partire ma i soggetti che vi partecipano hanno fatto i giusti passi e sono a pieno titolo parte del Web dei dati; per entrare nella Linked Data Cloud mondiale è richiesto che alle 5 verifiche sopra riportate si affianchi la pubblicazione di almeno 50 triple di collegamento con dataset pubblici, ma questo è un passaggio che chiunque può compiere con semplicità dopo aver fatto il lungo passo che l’ha portato oltre la terza stella.