I Linked Open Data alla Camera: l’ontologia della Camera dei deputati

di 22 dicembre 2011 1

Il primo passo  verso un ripensamento globale della gestione delle risorse informative “storiche” (ma non solo) della Camera risale ormai a circa due anni fa: la formalizzazione di una ontologia in grado di descrivere nel dettaglio tutti i dati  posseduti, dalle schede anagrafiche dei deputati fino alle interrogazioni parlamentari, o alle composizioni dei gruppi o degli organi, e di gestire i cambi di denominazione delle strutture, gli slittamenti nei mandati parlamentari.

Questo insieme di risorse è descritto da un unico data model, identificato da uno specifico namespace, OCD (Ontologia Camera dei Deputati), una ontologia OWL (Ontology Web Language) espressa in triple RDF. Nell’ontologia il ruolo determinante è svolto dal concetto di Legislatura: alla base di qualsiasi evento, la legislatura è l’elemento aggregante e sempre presente. E’  a partire dalla legislatura che si costituiscono gli organi, i gruppi;  successivamente i deputati aderiscono ai gruppi, partecipano agli organi parlamentari e così via.

L’Ontologia ha preso forma in un rapporto serrato con gli uffici della Camera e, con la pubblicazione del Portale storico e del sito dati.camera.it, è stata rilasciata come vocabolario per la descrizione dei dataset della Camera dei deputati. È uno strumento flessibile, pensato per descrivere tutte quelle sfumature presenti in organizzazioni complesse come quella in esame.

Qualche tempo fa Tim Berners Lee ha definito le “5 stars”  per i Linked Open Data, un sistema di rating per assegnare un punteggio ai siti che espongono dati sul web. A partire da quell’originario input è stato un susseguirsi di raccomandazioni, best practices, cookbook, per favorire la nascita e lo sviluppo degli open linked data.

Il lavoro svolto per dati.camera recepisce appieno le cinque indicazioni proposte da Berners Lee  e si candida per le cinque stelle:

  • La prima stella perché sono dati pubblicati sul web
  • La seconda stella perché sono dati pubblicati in formato strutturato e machine readable
  • La terza perché sono in un formato non proprietario
  • La quarta perché utilizza standard del W3C aperti (RDF e SPARQL)
  • La quinta perché, infine, contestualizza i dati attraverso link verso altri dati in rete

Inoltre il sito è conforme ai più recenti standard per la condivisione dei dataset sul web, come VoID , una ontologia utilizzata per descrivere i metadat dei dataset.

Nella definizione delle classi e delle proprietà dell’ontologia abbiamo cercato di riprodurre le caratteristiche tipiche di alcune situazioni e abbiamo utilizzato nomi il più possibile parlanti, affinché l’utente finale possa essere in grado di comprenderne la maggior parte e un utente esperto del dominio possa esser in grado di comprendere i dati proposti nella loro interezza senza documentazione aggiuntiva. Per favorire la leggibilità, il riuso dei dati e l’apertura verso altre ontologie, abbiamo provveduto ad assegnare a ciascuna classe e proprietà una label, una descrizione e, laddove possibile, una definizione ufficiale tratta dal sito della Camera. In tutti i dataset le informazioni sono suddivise in una parte di metadati descrittivi delle risorse (rdfs:label, dc:title, dc:description, dc:date) e un’altra  di riferimenti  a risorse interne al dominio o a risorse web.

Inoltre per la descrizione dei metadati più comuni è stato deciso di utilizzare altre ontologie ampliamente diffuse sul web :

  • dublin core e dublincore terms per la descrizione dei metadati più comuni come il titolo, la descrizione, le date, i riferimenti bibliografici;
  • bio ontology per la descrizione degli eventi biografici dei deputati
  • skos per gli schemi di classificazione
  • foaf per la descrizione delle persone

In questi due anni di lavoro sull’ontologia Camera, abbiamo assistito al proliferare di operazioni analoghe alla nostra in altri Stati e abbiamo cercato in ogni modo di recepire i consigli degli sviluppatori esperti del settore. Abbiamo provato e sperimentato diversi sistemi per la gestione di file RDF, per l’endpoint, per la visualizzazione dei  Linked Open Data: siamo cresciuti insieme a tanti progetti e per questo siamo soddisfatti del risultato. L’ontologia funziona, è consistente,  aderisce perfettamente agli standard oggi presenti e sostiene una impalcatura molto complessa ed articolata.

Ora è la volta di lavorare sulle apps, la parte più divertente; è il momento di scoprire la vera efficacia dei dati descritti in RDF e la forza del reasoning e del mash up con altri dataset.

Non vediamo l’ora di iniziare.