Ciao @gamba.davide @cristigalasso questo è il pdf con testo convertito in vettoriale (selezionabile) prodotto dall’OCR di Archive.org.
Durante l’estrazione vengono prodotti per ciascun file diversi formati di dati in output, per il file in questione li trovate qui.
@jenkin ho provato con Tabula ma evidentemente il pdf generato è un mix tra immagine rasterizzata e vettoriale, c’è un modo pratico per estrarre i dati dalla tabella?
Raccolta informazioni da monitorare
Ciao, ho provato il servizio http://www.onlineocr.net (registrato ti danno 21 pagine gratis poi a pagamento) e ho caricato il pdf con le schede di Farindola;
mi ha prodotto questo xlsx
https://drive.google.com/open?id=0B6W4brmPa74hLUtKbW15ZGFQMEk
non male, ma da correggere a mano; comunque è un servizio a pagamento: 1000 pagine ca 4 cnt/pagina
Grazie @guenter.richter un risultato decisamente migliore del mio, Archive.org non offre un granché nella conversione di tabelle scansionate, peccato sia a pagamento…
Comunque in questo caso direi che la tabella è tutta sul foglio di calcolo, vero?
In questo caso io utilizzo una stampante virtuale che mi ristampa il pdf, basta suddividere la stampa selezionando da pag 1 a 99 ed in questo modo creo tanti pezzi del documento. E’ un po lungo ma aggiro il limite delle 100 pagine.
Ho provato un altro: www.freepdfconvert.com
qui il risultato ( free fa solo 2 pagine)
https://drive.google.com/open?id=0B6W4brmPa74hWWRJNzlDQ2tUbTA
mi sembra superiore a www.onlineocr.net - costo 99$ lifetime
In questa recensione sono riportati molti strumenti.
Questo è in beta gratuita e mi sembra funzioni bene.
qui il risultato di tabstract beta: https://drive.google.com/open?id=0B6W4brmPa74hM3NvM3JiZm15cm8
crea 3 tabelle ! con risultato accettabile ma sembra inferiore a www.freepdfconvert.com
Avete già visto questa mappa del DPC con le aree per i container? http://www.protezionecivile.gov.it/jcms/it/view_new.wp?prevPage=news&contentId=NEW62913
Ci sono arrivata da qui http://www.sismacentroitalia.it
Ho finito in inserire tutti i pdf convertiti in csv del comune di Pizzoli.
Ho inserito il pdf convertito in csv del comune di Castel Castagna.
@nelsonmau, per convertire l’immagine del comune di Castal Castagna ho utilizzato http://www.onlineocr.net/
Ciao @cristigalasso l’avevo vista ma non avevo avuto modo di ragionarci, sulla sinistra in basso c’è un link per scaricare i dati, li salvo in drive, li tieni a mente tu per quando inizieremo a ripubblicarli?
Sono qui e ci sono anche licenza (CCbySA 4.0) e coordinate.
Grazie.
@cristigalasso @gamba.davide vi ricordate i CAS della regione marche che abbiamo copiato in un foglio su drive; sono tornato alla fonte (sito della regione) per qualche verifica, ma sembra tutto cambiato, interi paesi spariti come per esempio Belmonte Piceno! Chissà come si crea questa pagina? Potete confermare?
Ciao Lorenzo, ho visto che sulla cartella schede FAST sono presenti documenti i pdf (Es. Foligno), vuoi che li trasformo in csv?
Grazie @gamba.davide sarebbe davvero utile, dovremmo creare anche uno schema dati in cui normalizzare, hai voglia di provare?
Ok provo a preparare una bozza; nel frattempo inizio a trasformare i pdf. Ho pensato di mantenere comunque il pdf come documento originale ed inserire nel csv il foglio meta dove inserire le solite informazioni: link, data aggiornamento…ecc.
Accidenti @guenter.richter è vero! Ho estratto io manualmente quei dati due giorni fa e Belmonte Piceno c’era, così come Urbisaglia e Torre San Patrizio che invece adesso non ci sono più. Non so che dire… Proviamo a inviare una email chiedendo spiegazioni?
Non lo so, @lorenzo_perone che ne pensi? Mi sembra tutta questa lista un po’ improvvisato: ‘Fabbraio’ invece di ‘Febbraio’ e anche il rapporto fra numero persone e nuclei familiari spesso e ‘strano’. Non solo sono spariti paesi, ma anche mesi rispetto a vari comuni. Penso si deve comunque monitorare un po’ lo sviluppo nei prossimi giorni.
@lorenzo_perone oggi la Regione Umbria ha pubblicato questa pagina http://www.regione.umbria.it/ammissioni-ed-esclusioni con un bel po’ di documenti relativi all’affidamento delle opere di urbanizzazione primaria finalizzate all’installazione di soluzioni abitative di emergenza (SAE), a Norcia, area industriale “B”. Credo meriti un po’ di attenzione, che ne dici?