Questo thread è per segnalare il desiderio/utilità di un supporto nell’utilizzo di strumenti tecnologici. Nel pieno spirito di condivisione e supporto reciproco, pensiamo che Ricostruzione Trasparente possa anche essere un luogo dovo ognuno di noi condivide le proprie conoscenze mettendole a fattore comune.
Vorrei imparare a... - domanda ed offerta di competenze
Propongo di condividere le mie competenze su Tabula, OCR e Open Refine, se siete interessati rispondete a questo thread.
Io posso condividere la mia esperienza da sviluppatore python e javascript, in particolare negli ambiti di sviluppo scraper e dataviz…
Lorenzo io potrei collaborare, oltre che con le mie competenze di programmatore, anche a veicolare il messaggio nei confronti dell’aggregazione di 64 comuni che ben conosci. Vorrei però capire un pò meglio alcuni progetti, in particolare l’albo pretorio, e per l’esattezza:
- che tipo di informazioni si vogliono collezionare?
- quali sono gli obiettivi della raccolta?
- come l’avete pensata tecnicamente?
- come pensate di risolvere le problematiche relative allo scraping dei documenti laddove (documenti non text readable, comuni che scansionano gli atti ecc)
- avete pensato al fatto che i comuni pubblicano molti dati in formati open nella loro sezione trasparenza e magari sarebbe più semplice usare quelli in alcuni casi?
Per quanto riguarda il mio comune posso intervenire sui sistemi senza grossi problemi. Fammi sapere come posso essere utile. Buona giornata!
Ciao @mauro30061960, ti rispondo punto punto:
che tipo di informazioni si vogliono collezionare?
Dalle pubbliche amministrazioni ce ne aspettiamo di due tipi:
- flussi di documenti (es. atti di albi pretori) ordinati da un timestamp (es. data e ora di pubblicazione), che tipicamente appaiono sotto forma di elenchi dinamici in una pagina web (che fa da indice);
- archivi di documenti o dataset che hanno un’organizzazione non temporale (es. tematica).
Il primo caso è gestito dalla piattaforma di scraping e vuole essere il più automatizzato possibile, il secondo caso è sostanzialmente fatto a mano, guidato da specifiche domande di ricerca.
quali sono gli obiettivi della raccolta?
Nel primo caso costruire un motore di ricerca di un archivio aggregato degli albi pretori ed esporre dati e documenti mediante API. Nel secondo individuare le criticità nell’apertura dei dati pubblici (con finalità di advocacy e formulazione di richieste di accesso ai dati) e analizzare le informazioni raccolte per inchieste giornalistiche.
come l’avete pensata tecnicamente?
Per il primo caso, ecco uno schema sintetico: collezione di scraper sul modello di albopop, aggregazione e indicizzazione su Elasticsearch, ricerca full-text e API. Il codice lo trovi qui: https://github.com/ricostruzionetrasparente/.
come pensate di risolvere le problematiche relative allo scraping dei documenti laddove (documenti non text readable, comuni che scansionano gli atti ecc)
Si tratta della questione più spinosa. Nel secondo caso di fatto si fa a mano e si trova una soluzione ad hoc caso per caso con vari strumenti (qui la discussione in merito). Nel primo si pensa di integrare tesseract nel flusso di raccolta dei dati, ma anche qualche processo di Named-Entity Recognition e di classificazione semi-automatica (magari mediante machine learning a partire da un training set costruito a mano). Ovviamente è rilevante la qualità dell’OCR, ma dal punto di vista del motore di ricerca potrebbe non essere necessario che sia perfetto, dato che la ricerca sarebbe full-text (con opportune tecniche di natural language processing) e l’output per l’utente sempre e solo il pdf (e i metadati).
avete pensato al fatto che i comuni pubblicano molti dati in formati open nella loro sezione trasparenza e magari sarebbe più semplice usare quelli in alcuni casi?
Le sezioni di amministrazione trasparente ricadono per lo più nel secondo tipo di dati (archivio) e già le stiamo spulciando. Se ci sono invece fonti dati che hanno le caratteristiche di un flusso di documenti non sarebbe un problema trattarle allo stesso modo degli albi pretori.
@mauro30061960 aggiungo solo che l’albo pretorio, rispetto alla sezione amministrazione trasparente ci consente di avere notizie/dati con molto anticipo (in alcuni periodi dell’anno) rispetto alla pubblicazione annuale in amministrazione trasparente.
Buongiorno, purtroppo in questo momento sto solo cercando di “muovermi” tra le vostre soluzioni e sto cercando di capire dove potrei essere utile. Alcuni degli strumenti che utilizzate sono “nuovi” per me, la mia esperienza riguarda la progettazione e analisi basi di dati, ho lavorato con strumenti di integrazione dati quali la suite Pentaho e sviluppo piccole applicazioni in php prevalentemente su db Mysql. Ho una buona esperienza nel campo della Pubblica Amministrazione e spero di poter contribuire in qualche modo al Vs. progetto.
Paolo
Mappa dei comuni del cratere