Home » Notizie » Gli open-data di Italiadomani.gov.it sono pubblicati con poca cura e qualità

Gli open-data di Italiadomani.gov.it sono pubblicati con poca cura e qualità

Nota bene: da metà dicembre 2021, la sezione classificata come “open data” in ItaliaDomani è stata rimossa (non sono stati rimossi i file).


Su Italiadomani.gov.it, il sito ufficiale dedicato al PNRR, sono disponibili dei file classificati come open-data, ma ci sono delle criticità

Riteniamo che la stessa attenzione che si è messa nella predisposizione e redazione del piano – per l’approvazione da parte dell’UE – debba essere messa anche nella pubblicazione dei dati in questo sito.

La loro conoscenza è un diritto, e la cura nella pubblicazione è una forma di rispetto e condivisione.

Apprezziamo che siano online, ma va fatto rispettando le “regole” per un buon uso: non è solo un adempimento formale, ma è la conseguenza della consapevolezza che ci si mette nel fare un lavoro “per bene”!

Nell’intento di dare un aiuto, a seguire alcune note su quanto pubblicato.

Ai file della sezione documenti non è associata una licenza, quindi vale la nota generale di copyright del sito, che non consente qualsiasi uso dei dati pubblicati, quindi non sono per nulla dati apertinon sono un bene comune.

Sul sito non è presente una sezione di “contatto”, email/form/altra modalità, per raggiungere un helpdesk del sito e/o chi si occupa di gestirlo. Sarebbe utile approntarlo, per consentire l’interazione con cittadini, riutilizzatori di dati, mass-media, ricercatori etc., anche e proprio per segnalazioni collaborative di possibili errori/problemi, come quelli elencati a seguire.

file open-data al momento sono tutti in formato CSV. Analizzandoli, emergono tanti elementi che fanno pensare che per produrli ci sia limitati ad aprirli nel loro formato nativo – probabilmente dei fogli elettronici – e ci sia limitati a fare un salva con nomesenza porre alcuna cura nel produrre degli output con le caratteristiche di base dei dati aperti.

A seguire delle note di dettaglio, che faranno riferimento sopratutto alla risorsa denominata Traguardi, obiettivi e scadenze per il monitoraggio e l'attuazione degli interventi del PNRR.
È associato a un file che è stato aggiornato già due volte. Queste le versioni, tutte ancora disponibili sul sito (visibile soltanto l’ultima):

Questi aggiornamenti risolvono alcune delle note sottostanti, scritte il 3 ottobre 2021. Anche quelle risolte sono lasciate visibili, ma marcate con un taglio centrale – come questo – per dare conto del fatto di essere superate.

Sono presenti delle righe totalmente vuote. Ad esempio:

534         blank-row    Row at position "534" is completely blank
535         blank-row    Row at position "535" is completely blank
536         blank-row    Row at position "536" is completely blank
537         blank-row    Row at position "537" is completely blank
......

Andrebbero rimosse.

Dopo l’ultima colonna – Meccanismo di verifica – sono presenti una ventina di colonne senza intestazione e senza alcuna valorizzazione delle celle.

Meccanismo di verifica;;;;;;;;;;;;;;;;;;

Andrebbero rimosse.

Il file contiene diverse brutture correlate alle intestazioni di campo. Ad esempio, facendo riferimento alla immagine sottostante:

  1. la prima riga totalmente vuota;
  2. un valore di cella, che in realtà è il titolo della tabella;
  3. un valore di cella, che è la descrizione generale della tabella;
  4. due righe spesso vuote, che contengono alle volte dei dettagli che andrebbero inseriti o in un file di descrizione che accompagna il file, o unite ai valori di intestazione delle colonne;
  5. due colonne, di cui la prima non ha nome, spesso non valorizzata con delle note e la seconda è del tutto vuota.

Sarebbe opportuno lasciare una sola prima riga con le sole intestazioni di campo (i nomi delle colonne).

Due sono gli elementi chiave per fare in modo che un computer, possa leggere correttamente un file CSV:

  • il separatore di campi;
  • la codifica dei caratteri.

Il primo è deducibile in modo quasi diretto, ma il secondo no. È essenziale aggiungere nel sito una nota informativa in cui – ad esempio per questi primi file – documentare che il separatore dei campi è il ; e la codifica dei caratteri è (ad esempio) Windows-1252.

I file da pubblicare per essere letti come dati, sono da rendere disponibili senza righe o colonne che contengano valori aggregati a partire da altre righe e colonne.

Nel file Quadro PNRR e Piano Complementare_(aggiornato al 30.09.2021).csv, è presente ad esempio in fondo a tutto la riga Totale complessivo.

Queste righe e/o colonne d’aggregazione, se presenti, vanno rimosse.

Note di lavoro non rimosse

Nel file Traguardi, obiettivi e scadenze per il monitoraggio e l'attuazione degli interventi del PNRR sono presenti dei valori di cella, che sembrano delle note interne e non dei metadati. Se così è, andrebbero rimosse.

Line 949: verificare coerenza colonne V e W";;;;;;;;;;;;;;;;;;;;;
Line 952: verificare coerenza colonne V e W";;;;;;;;;;;;;;;;;;;;;
Line 965: verificare coerenza colonne V e W";;;;;;;;;;;;;;;;;;;;;
Line 971: verificare coerenza colonne V e W";;;;;;;;;;;;;;;;;;;;;
Line 986: verificare coerenza colonne V e W";;;;;;;;;;;;;;;;;;;;;
Line 992: verificare coerenza colonne V e W";;;;;;;;;;;;;;;;;;;;;
Line 997: verificare coerenza colonne V e W";;;;;;;;;;;;;;;;;;;;;
Line 5406: [...];sul file inviato da Raffaele è indicato come INV.4 anziché INV. 5, quindi è stato corretto il refuso;;;;;;;;;;;;;;;;;;;

Nota bene: non più presenti nel file corrente, ma ancora visibili in questa versione.

Il file contiene oltre ai valori dei campi, delle celle con delle note utili; queste però – in un file CSV – non andrebbero inserite tra i dati, ma in qualche risorsa esterna che le raccoglie.

Un esempio è quello del file Quadro PNRR_aggiornato al 30.09.2021.csv, in cui è possibile leggere:

NOTA*Nella seduta del CdM del 26/08/2021 la compentenza sull'intervento M2C1 investimento 4. Tecnologie satellitari ed economia spaziale è passata al MITD

Alcuni campi contengono una lista controllata di valori. Come ad esempio il campo Milestone / Target che dovrebbe essere valorizzato con soli 2 valori: Milestone o Target.
In un caso però c’è il valore target (la iniziale è minuscola) e non Target.

Un altro esempio è quello della colonna con le unità di misura degli indicatori quantitativi: troviamo sia EUR che Euro, oppure Punti percentuali e Percentuale.

Per queste colonne a valori controllati, andrebbero inseriti dei controlli automatici di congruità.

Per un computer il valore ␣ Massa Carrara ( è per rappresentare lo spazio, qui a inizio cella) è diverso da Massa Carrara: se dovrà conteggiare tutte le occorrenze di Massa Carrara o usare la stringa Massa Carrara per correlarla a valori presenti in un’altra tabella, non terrà conto delle celle in cui erroneamente è stato inserito uno spazio iniziale. E lo stesso vale per uno (o più) spazio alla fine (Massa Carrara ␣ ) o più spazi tra parole (Massa ␣ ␣ Carrara).

Ci sono tantissime occorrenze di spazi bianchi ridondanti e andrebbero rimossi.

Ad esempio nella colonna Indicatori quantitativi le di questo tipo sono così rappresentate:

  • con N.A;
  • con N/A;
  • con NA.

Qui e in altre colonne sarebbe necessario uniformare la modalità per rappresentare il Not Available. Inoltre il valore N/A potrebbe avere un significato diverso dalla cella vuota; se è così, sarebbe da documentare e rendere noto, viceversa (se coincidono) ci sarebbe da scegliere se usare N/A o cella vuota e documentarne il significato.

Andrebbe associato a ogni file CSV un ulteriore file che descriva lo schema dati. Per ogni campo, la descrizione, il formato (utile per i campi con date e numerici). Un esempio è quanto fatto dalla Protezione Civile per i dati COVID-19.

La risorsa Traguardi, obiettivi e scadenze per il monitoraggio e l'attuazione degli interventi del PNRR ha ad esempio già cambiato due volte l’URL.

Dovrebbe essere mantenuto permanente; se possibile sarebbe ottimale poter accedere anche alle eventuali versioni prodotte nel tempo.

I dati aperti in generale, a maggior forza quelli legati a un progetto epocale, devono essere pubblicati in modo da renderne la diffusione ampia e automatica. Per farlo basta descrivere in modo standard, come ad esempio si può leggere nelle “Linee guida per i cataloghi dati“, l’elenco delle risorse pubblicate.

In questo modo i dati aperti di Italia Domani sarebbero automaticamente resi disponibili sul portale nazionale ed europeo sui dati aperti e sui maggiori motori di ricerca.


Grazie

L’ispirazione per la redazione di queste note si deve all’attenzione costante di Marco Cortella e a questo suo ricco scambio su Twitter, e alla spinta di Ciro Spataro.

Nota: dello stessa tema parla Openpolis, in questi articoli: