Se serve conosco personalmente Federico Morando di Synapta (la Startup che ha creato contrattipubblici.org) e potrei contattarlo.
ContrattiPubblici.Org per Dati amministrazione trasparente
Ciao Davide con Federico abbiamo avuto uno scambio di email di recente. Non abbiamo avuto ancora occasione di invitarlo qui ma potrebbe essere l’occasione, mi farebbe piacere se lo facessi tu.
Grazie.
Fatto; questa sera giro il link. Mi conferma l’interesse a partecipare al progetto.
Cari tutti, eccomi!
Siccome siete voi, butto subito lì il link che potrebbe risolvere il grosso dei problemi:
https://contrattipubblici.org/sparql
All’occorrenza, oltre all’end-point, possiamo mettere a disposizione le chiamate all’API del motore di ricerca di ContrattiPubblici.org, che sicuramente è più efficiente per cercare dentro le descrizioni dei contratti e simili.
Abbiamo un po’ di cosine in corso di sistemazione (in particolare, potreste trovare fantomatiche entità di nome “Deiana Gianfranco” e simili, che vengono da un bug noto e quasi sistemato), ma mi aspetto una nuova major release dei dati - coi dati aggiornati a tutto il 2016 - verso la fine della settimana prossima. (Magari, già che ci siamo, sistemiamo due cose con la content negotiation e dereferenziazione degli URI, che al momento ha delle lacune, che non sto a dettagliare.)
I dati di una PA sono quelli che vedete, ad esempio, qui:
https://contrattipubblici.org/lodview/businessEntities/00514490010
abbiamo, quando disponibile (ovvero quasi sempre), il sameAs con IPA (versione LOD):
es.: http://spcdata.digitpa.gov.it/Amministrazione/c_l219
si può quindi usare anche questo ID, anziché quello di contrattipubblici.org, se volete.
In sostanza: a breve dovremmo caricare dei dati nuovi, che presumibilmente vi sono essenziali, e quando avete un elenco delle PA vi possiamo aiutare a fare le query al nostro end-point.
Infine, siccome ContrattiPubblici.org è per noi anche un progetto di visiblità, oltre che di innovazione sociale, ci farebbe piacere comparire tra i Partner di RicostruzioneTrasparente come Synapta.
Fatemi sapere se avete domande o richieste varie su punti specifici!
Ciao Federico,
ci fa molto piacere avere Synapta come partner di Ricostruzione Trasparente, vi ho inserito tra i partner. Mi farebbe piacere, se sei disponibile, farti alcune domande “basiche” sull’utilizzo di SPARQL.
Vorrei iniziare con alcune semplici analisi e farmi un’idea di dove potremmo arrivare.
Grazie di essere salito a bordo!
cc @dagoneye
Certamente: magari fammi qualche esempio di query che vorresti realmente fare e provo a condividerla qui.
Per un’introduzione più generica a SPARQL, prova a partire da qui:
https://www.slideshare.net/synapta/sparql-un-api-per-domare-dati
Nel frattempo, trovi una lunga lista di query di mainenance, che puoi modificare per far cose più utili, qui:
https://contrattipubblici.org/maintenance.html
cliccando su “query” vedi il testo formattato decentemente, da incollare nell’end-point.
@Federico io pensavo ad una analisi di questo tipo: prese le imprese ed i tecnici presenti nelle white list pubblicate sul sito del commissario quali sono le relazioni (in termini di contratti) esistenti con le pubbliche amministrazioni?
Vorrei quindi estrarre per ciascuno degli elementi di queste white list i dati corrispondenti da ContrattiPubblici.Org.
Su come processare i dati derivati per ottenere una rappresentazione simile a questa immagine in cui la dimensione dell’oggetto ditta e tecnico è proporzioanle al valore dei contratti ad oggi ricevuti chiedo consiglio a @jenkin
Servono semplicemente due tabelle:
- una di nodi: imprese, tecnici, pa
- una di connessioni: imprese <-> pa, tecnici <-> pa (non credo ci siano anche tecnici <-> imprese, oppure sì?)
Ma sotto il cofano di contratti pubblici è già rappresentato tutto così…
Segnalo a @Federico questo thread in cui c’è una possibile ipotesi di integrazione delle api di CP.
Scusate il ritardo, cerco di riprendere il filo.
@jenkin confermo che le relazioni in questione sono facilissime da estrarre dal grafo dei contratti pubblici, perché - appunto - è già un insieme di nodi ed archi. Purtroppo, confermo anche che non sappiamo nulla dei tecnici, salvo i casi in cui dovesse esserci un contratto diretto tra PA e tecnico in questione, nel qual caso potrebbe esserci il C.F. del tecnico stesso nel grafo dei contratti.
@lorenzo_perone per i dati nuovi, bisogna aspettare ancora un poco, perché abbiamo avuto un po’ più di problemi del previsto. Li abbiamo già in JSON, ma non sono ancora nel grafo interrogabile pubblicamente e stiamo finendo di ripulire le label, etc.
Direi che ci si può contare subito dopo Pasqua.
Di contro, l’ontologia non cambierà, per cui si può già sperimentare coi dati esistenti sull’end-point SPARQL.
Posso approfittare della tua cortesia e chiederti come formulare in SPARQL una query che data la P. IVA mi permetta di estrarre nodi ed archi?
Come esempio ne ho presa una dall’elenco speciale di Errrani
Ianni costruzioni srl
P.IVA 01550730665
CODICE FISCALE 01550730665
via Macindole 37 - L’Aquila
-Lavori
A occhio la nostra pipeline potrebbe essere questa:
- scraper dagli albi (o altre risorse);
- scraping dai documenti allegati (es. pdf);
- estrazione di codici fiscali, partite iva, id delle pa dai testi;
- query a CP in base a cf, piva e id delle pa, con indicizzazione della rappresentazione dei nodi corrispondenti nei nostri sistemi.
Il punto 4 è così il ponte tra il nostro db e il vostro ed eventuali query complesse coinvolgerebbero entrambi in due step.
Sì, anche se non ci ho mai provato. Tra l’altro, è un end-point SPARQL di Virtuoso, per cui dovrebbe poter sfruttare l’indicizzazione migliore (anche se la release di Virtuoso attuale pare avere qualche problema con le features di ricerca e non vorrei fossero necessarie per quelle ottimizzazioni - ma mal che vada siamo nel caso SPARQL semplice) ed abbiamo rdfs:label e dc:title (dovremmo aggiungere una skos_prefLabel a breve), per cui si può senz’altro configurare.
Prova pure e facci sapere: oggi siamo sotto scadenza, ma nei prossimi giorni dovremmo poter dare una mano.
Open Refine si connette correttamente via SPARQL, ho provato a riconciliare una tabella che conteneva in un campo il nome del comune ma senza esito. Appena hai tempo facciamo qualche prova assieme.
Ciao @Federico novità?
Siete riusciti a caricare il 2016?
Possiamo iniziare a fare qualche prova?