OCR e table recognition

nelsonmau · 2017-04-06 09:08:20 UTC

@jenkin neanche il fatto quotidiano ricostruisce le storie con la tua fantasia cmq mi pare che abbiate risolto in fretta e io cmq ho risposto appena possibile chiedendo anche scusa. Lo richiedo

lorenzo_perone · 2017-04-12 16:38:19 UTC

@cristigalasso @gamba.davide @andrea.borruso stiamo testando le funzioni OCR di ambar che probabilmente utilizzeremo come motore di OCR, ho creato un account di progetto sul quale vi invito a caricare i file pdf “scansione” per verificare il funzionamento. Vi invio le credenziali come messaggio diretto. Chiunque voglia aggiungersi per il test scriva pure.

gamba.davide · 2017-04-13 01:20:58 UTC

Ciao @lorenzo_perone, ho provato a fare l’upload di due pdf scansionati già “conosciuti” (La scheda fast di Castel Castagna e l’ordinanza di Spoleto); il primo documento è stato caricato ma non mi visualizza nulla, il secondo è stato caricato correttamente e sembra riconoscere il contenuto. Come di fa a scaricare il documento trasformato per verificarlo? E’ presente il tasto download ma mi permette di scaricare solamente il pdf originale. E’ possibile che occorra collegate un account Dropbox? Nel tutorial sembrerebbe di si ma prima di procedere proferisco chiedere.

lorenzo_perone · 2017-04-13 06:34:41 UTC

@gamba.davide il sistema converte il file e lo carica in un database che lo indicizza, per accedere al documento puoi cercare del testo che é contenuto dentro e verrà visualizzata la sezione del documento che lo contiene.

gamba.davide · 2017-04-13 07:35:32 UTC

Ciao Lorenzo, il documento l’ho trovato andando nel tab ricerca ed inderendo “*” in modo da estrarre tutti i documenti ed in effetti li trova tutti e due anchr se il documento di Castel Castagna é bianco. A questo punto come estraggo il documento “trasformato” in testo?

lorenzo_perone · 2017-04-13 09:02:23 UTC

nella versione di test di ambar non c’è questa possibilità, i testi nel db non verranno estratti per essere ripubblicati ma sono per essere indicizzati, @jenkin abbiamo alternative?

jenkin · 2017-04-13 09:32:16 UTC

In realtà non mi è chiaro cosa voglia dire “estrarre il documento trasformato in testo”… il fatto di trasformarlo in testo serve esclusivamente per abilitare la ricerca full-text ed eventuali algoritmi di arricchimento dei metadati, una volta trovato ciò che si cerca lo si legge nella versione pdf (human readable)… ovviamente se è necessario processare i documenti in qualche modo, si possono fare query che ritornano il testo integrale dell’atto (così come estratto dal pdf), ma quello poi lo vediamo quando avremo la nostra versione (e sul database potremo fare tutte le query che vogliamo).

Al momento stiamo provando a usare la versione in cloud di Ambar per valutare la bontà del loro OCR sui classici documenti che ci troviamo a gestire, a una prima occhiata direi molto bene, ma più proviamo e meglio è…

gamba.davide · 2017-04-13 10:07:40 UTC

Forse allora non ho compreso l’utilizzo, pensavo che servisse per estarre il testo come Archive.org e utilizzarlo ad esempio con tabula. Mi rendo conto ora che forse non é questo l’obiettivo, ma permettere di ricercare del testo in un pdf scansionato dove effettivamente non é possibile ricercarlo con la solita funzione cerca. Ieri ne ho inseriti due, in uno non estre nulla ma forse é la qualità della scansione che non é ottimale. Nell’altro documento mi estrae parzialmente il testo ma forse é legato l’account di prova?

lorenzo_perone · 2017-04-13 10:20:37 UTC

@gamba.davide prova ad allegare qui i documenti che non riconosce in maniera efficace così ci ragioniamo su

gamba.davide · 2017-04-14 00:18:08 UTC

Ciao Lorenzo, il documento non visibile è questo castelcastagna_fast_agibili_171216.pdf (853,1 KB)

l’altro documento parziale in realtà ora è visibile, probabilmente quando ho fatto la prova non aveva ultimato l’upload.

lorenzo_perone · 2017-04-15 12:25:38 UTC

Grazie @gamba.davide farò delle prove anche io

lorenzo_perone · 2017-04-18 07:18:20 UTC

@gamba.davide @jenkin sono riuscito a fare il caricamento, il problema risiede (credo) nel formato del pdf, anche se non sono riuscito a capire esattamente se è la versione (1.7) oppure qualche diritto.
Ho convertito il pdf usando Imagemagick

convert -density 300 +antialias castelcastagna_fast_agibili_171216.pdf castelcastagna_fast_agibili_171216_reprint.pdf

ed ho ottenuto il file che allego, ho testato il caricamento su un’istanza privata di Ambar, @gamba.davide vorresti fare una prova sull’istanza di RT così facciamo un doppio controllo?

gamba.davide · 2017-04-18 12:24:07 UTC

Ok questa sera installo Imagemagick e ci provo. Ti aggiorno, grazie.