@jenkin neanche il fatto quotidiano ricostruisce le storie con la tua fantasia cmq mi pare che abbiate risolto in fretta e io cmq ho risposto appena possibile chiedendo anche scusa. Lo richiedo
OCR e table recognition
@cristigalasso @gamba.davide @andrea.borruso stiamo testando le funzioni OCR di ambar che probabilmente utilizzeremo come motore di OCR, ho creato un account di progetto sul quale vi invito a caricare i file pdf “scansione” per verificare il funzionamento. Vi invio le credenziali come messaggio diretto. Chiunque voglia aggiungersi per il test scriva pure.
Ciao @lorenzo_perone, ho provato a fare l’upload di due pdf scansionati già “conosciuti” (La scheda fast di Castel Castagna e l’ordinanza di Spoleto); il primo documento è stato caricato ma non mi visualizza nulla, il secondo è stato caricato correttamente e sembra riconoscere il contenuto. Come di fa a scaricare il documento trasformato per verificarlo? E’ presente il tasto download ma mi permette di scaricare solamente il pdf originale. E’ possibile che occorra collegate un account Dropbox? Nel tutorial sembrerebbe di si ma prima di procedere proferisco chiedere.
@gamba.davide il sistema converte il file e lo carica in un database che lo indicizza, per accedere al documento puoi cercare del testo che é contenuto dentro e verrà visualizzata la sezione del documento che lo contiene.
Ciao Lorenzo, il documento l’ho trovato andando nel tab ricerca ed inderendo “*” in modo da estrarre tutti i documenti ed in effetti li trova tutti e due anchr se il documento di Castel Castagna é bianco. A questo punto come estraggo il documento “trasformato” in testo?
nella versione di test di ambar non c’è questa possibilità, i testi nel db non verranno estratti per essere ripubblicati ma sono per essere indicizzati, @jenkin abbiamo alternative?
In realtà non mi è chiaro cosa voglia dire “estrarre il documento trasformato in testo”… il fatto di trasformarlo in testo serve esclusivamente per abilitare la ricerca full-text ed eventuali algoritmi di arricchimento dei metadati, una volta trovato ciò che si cerca lo si legge nella versione pdf (human readable)… ovviamente se è necessario processare i documenti in qualche modo, si possono fare query che ritornano il testo integrale dell’atto (così come estratto dal pdf), ma quello poi lo vediamo quando avremo la nostra versione (e sul database potremo fare tutte le query che vogliamo).
Al momento stiamo provando a usare la versione in cloud di Ambar per valutare la bontà del loro OCR sui classici documenti che ci troviamo a gestire, a una prima occhiata direi molto bene, ma più proviamo e meglio è…
Forse allora non ho compreso l’utilizzo, pensavo che servisse per estarre il testo come Archive.org e utilizzarlo ad esempio con tabula. Mi rendo conto ora che forse non é questo l’obiettivo, ma permettere di ricercare del testo in un pdf scansionato dove effettivamente non é possibile ricercarlo con la solita funzione cerca. Ieri ne ho inseriti due, in uno non estre nulla ma forse é la qualità della scansione che non é ottimale. Nell’altro documento mi estrae parzialmente il testo ma forse é legato l’account di prova?
@gamba.davide prova ad allegare qui i documenti che non riconosce in maniera efficace così ci ragioniamo su
Ciao Lorenzo, il documento non visibile è questo castelcastagna_fast_agibili_171216.pdf (853,1 KB)
l’altro documento parziale in realtà ora è visibile, probabilmente quando ho fatto la prova non aveva ultimato l’upload.
@gamba.davide @jenkin sono riuscito a fare il caricamento, il problema risiede (credo) nel formato del pdf, anche se non sono riuscito a capire esattamente se è la versione (1.7) oppure qualche diritto.
Ho convertito il pdf usando Imagemagick
convert -density 300 +antialias castelcastagna_fast_agibili_171216.pdf castelcastagna_fast_agibili_171216_reprint.pdf
ed ho ottenuto il file che allego, ho testato il caricamento su un’istanza privata di Ambar, @gamba.davide vorresti fare una prova sull’istanza di RT così facciamo un doppio controllo?