Un possibile candidato al riconoscimento di tabelle in pdf scansionate potrebbe essere pdftabextract che è basato su software libero.
Sarebbe utile fare dei test e scrivere una “recensione” ed un caso d’uso del sistema proposto.
@gamba.davide hai voglia di occuparti della cosa? Potresti provare questa procedura su queste tabelle in pdf.
cc @jenkin @andrea.borruso
OCR e table recognition
Vorrei imparare a... - domanda ed offerta di competenze
No @lorenzo_perone ti ho portato in errore io.
Questo tool è da applicare a “scanned and OCR-processed documents with rather complex tables and/or fewoptical features like column or row borders, which often make it impossible to use like tools like Tabula.”
Quindi l’OCR deve essere stato già fatto. Archive fa l’OCR e qui c’è un output di esempio https://archive.org/download/ElencoOrdinanzaSindacale109/Elenco-Ordinanza-sindacale-109_text.pdf
OK Andrea, quindi il flusso è:
- Carico il file su Archive.org
- prendo in input il pdf con testo “vettoriale” generato da Archive
- provo la procedura descritta nel link che ho inserito nel primo messaggio
Così funziona?
Ho letto la documentazione e fatto un test, mi sono fermato alla parte in cui in Python va gestito il riconoscimento delle colonne della tabella.
Non mi sembra un tools che possa essere utilizzato così com’è ma più una sorta di libreria da inserire in un software, in mancanza di alternative open forse è necessario valutare alternative commerciali.
La procedura che ho provato (in parte) è questa.
Ok, lore, allora per un uso “friendly”, potrebbe bastare questo:
- archive;
- rimuovere dal PDF_text di output di archive le immagini in background (perché con i file di esempio che hai inviato tu, ho visto che fanno impazzire tabula). Si può fare in vario modo e anche in batch.;
- estrarre con tabula.
Questo CSV l’ho ottenuto in questo modo
Buongiorno @lorenzo_perone, buongiorno @andrea.borruso, chiedo scusa se intervengo solo adesso ma ero fuori rete. Ricapitolando, se volete provo la procedura descritta da Andrea sulle schede di Spoleto (spero di ultimare tutto nel fine settimana),
Su suggerimento di Lorenzo ieri ho inserito i documenti originali in pdf ed il relativo csv nelle cartelle dei comuni di Pizzoli, Castel Castagna e Barete rinominandoli secondo questa mia regola:
Comune_TipoScheda_Esito_DataDocumento in modo da ever chiaro di cosa stiamo parlando; condividete?
Lorenzo ho una domanda: una volta trasformati tutti i documenti, al fine di utilizzarli saranno uniti tutti in un unico file?
Ultima cosa, condivisa anche da Alessio, inserirei nello nei campi anche il codice Istat ed Ipa che potere trovare qui.
Buongiorno @lorenzo_perone, buongiorno @andrea.borruso, chiedo scusa se intervengo solo adesso ma ero fuori rete. Ricapitolando, se volete provo la procedura descritta da Andrea sulle schede di Spoleto (spero di ultimare tutto nel fine settimana),
Ottimo.
Su suggerimento di Lorenzo ieri ho inserito i documenti originali in pdf ed il relativo csv nelle cartelle dei comuni di Pizzoli, Castel Castagna e Barete rinominandoli secondo questa mia regola:
Comune_TipoScheda_Esito_DataDocumento in modo da ever chiaro di cosa stiamo parlando; condividete?
OK, mi raccomando nei metadati teniamo il nome del file originale e indichiamo il nuovo nome
Lorenzo ho una domanda: una volta trasformati tutti i documenti, al fine di utilizzarli saranno uniti tutti in un unico file?
Si, direi di usare lo schema di struttura di cui discutiamo qui, lo schema andrebbe verificato guardando i modelli di schede FAST ed AeDES presenti in rete, descrivendo per le classificazioni anche le opzioni possibili.
Ultima cosa, condivisa anche da Alessio, inserirei nello nei campi anche il codice Istat ed Ipa che potere trovare qui
Concordo.
Ciao Andrea, quale strumento hai utilizzato per eliminare le immagini?
Grazie mille per l’aiuto.
Ciao davide ho usato cpdf .
Il comando è cpdf -draft original.pdf -o version_without_images.pdf
Lo puoi fare anche “a mano” con libreoffice draw, ma è molto noioso.
Ma no, che c’entra la pazienza, anzi ero stato lacunoso.
Quando visualizzerai su tabula il pdf senza immagini (i pdf che hanno subito l’OCR in archive), l’anteprima su tabula sarà una pagina bianca, ma in realtà il testo è presente. Lo vedrai selezionando l’area su cui fare lavorare tabula.
Grande @andrea.borruso, funziona perfettamente. Direi che con Archive.org + Cpdf + Tabula non ci dovrebbero essere più problemi per il PDF scannerizzati.
Ottimo, @gamba.davide ti va di scrivere un breve how to?
@jenkin allestiamo lo spazio di pubblicazione dei task come avevi proposto?
Ciao Lorenzo, ho finito di importare le schede di Spoleto, inserendo i metadati e nei dati anche le colonne Istat ed Ipa, fatto stessa cosa per quanto in precedenza importato (Barete, Castal Castagna, Pizzoli); potresti verificare se tutto OK?
Nella cartella Amatrice ho inserito il pdf della scheda Aedes che ho trasformato in csv con tabula; procederei a sistemarlo… mi ci vorrà qualche giorno perchè sono 75 pagine.
Il tutorial per trasformare le Immagini in csv sarà pronto entro venerdì.
@gamba.davide mi sembra un ottimo lavoro, io inizierei a fare nel foglio di calcolo di riepilogo un nuovo spreadsheet con codici comune esiti fast ed esiti aedes per fare una dashboard di indicatori, importante sarebbe inserire anche la data di aggiornamento dei dati, che ne pensi @andrea.borruso?
Ciao @lorenzo_perone ho finito la creazione del CSV di Amatrice, è tutto nella cartella.
Ho anche ultimato il tutorial per la trasformazione di un file immagine PDF in CSV, lo trovi qui; fammi sapere se può andare bene. CC @andrea.borruso
Domani provo a creare una bozza con quanto finora disponibile, preso di aver compreso quanto necessiti.