OCR e table recognition


#32

Intendi la cartella “Fonti e dati” su Drive? io la vedo…


#33

Ho controllato, è dove è sempre stata e tu hai privilegi in scrittura su quella cartella.


#34

Il buon @nelsonmau ha fatto un po’ d’ordine :wink:


#35

Ciao @cristigalasso, intendo quella cartella… In realtà tutte, penso che con lo spostamento sia cambiato l’indirizzo che avevo.


#36

Trovato tutto, scusatemi.


#38

Un messaggio è stato spostato in un nuovo argomento: OCR and Elasticsearch with Ambar


#39

@cristigalasso non è spam, abbiamo provato il loro servizio che avevo segnalato ieri e sono stati carini a contattarci qui! :smiley:


#40

Scusa! Ho letto velocemente il messaggio e ho pensato fosse spam, perdonami @jenkin!


#41

ragazzi, sì, scusate, ho semplificato un po’ e messo tutto nell’unica cartella “Fonti e dati”, ma non ho cancellato nulla ovviamente :slight_smile:

Vorrei provare a tenere questa parte un po’ più “usabile”


#42

Eh, però AVVERTI PRIMA! Chiedi, spiega e poi agisci… Non che agisci, poi caos, panico, si salvi chi può e poi, niente niente, ho solo messo in ordine la cameretta… :wink:


#43

@jenkin neanche il fatto quotidiano ricostruisce le storie con la tua fantasia :stuck_out_tongue: cmq mi pare che abbiate risolto in fretta e io cmq ho risposto appena possibile chiedendo anche scusa. Lo richiedo :slight_smile:


#44

@cristigalasso @gamba.davide @andrea.borruso stiamo testando le funzioni OCR di ambar che probabilmente utilizzeremo come motore di OCR, ho creato un account di progetto sul quale vi invito a caricare i file pdf “scansione” per verificare il funzionamento. Vi invio le credenziali come messaggio diretto. Chiunque voglia aggiungersi per il test scriva pure.


#45

Ciao @lorenzo_perone, ho provato a fare l’upload di due pdf scansionati già “conosciuti” (La scheda fast di Castel Castagna e l’ordinanza di Spoleto); il primo documento è stato caricato ma non mi visualizza nulla, il secondo è stato caricato correttamente e sembra riconoscere il contenuto. Come di fa a scaricare il documento trasformato per verificarlo? E’ presente il tasto download ma mi permette di scaricare solamente il pdf originale. E’ possibile che occorra collegate un account Dropbox? Nel tutorial sembrerebbe di si ma prima di procedere proferisco chiedere.


#46

@gamba.davide il sistema converte il file e lo carica in un database che lo indicizza, per accedere al documento puoi cercare del testo che é contenuto dentro e verrà visualizzata la sezione del documento che lo contiene.


#47

Ciao Lorenzo, il documento l’ho trovato andando nel tab ricerca ed inderendo “*” in modo da estrarre tutti i documenti ed in effetti li trova tutti e due anchr se il documento di Castel Castagna é bianco. A questo punto come estraggo il documento “trasformato” in testo?


#48

nella versione di test di ambar non c’è questa possibilità, i testi nel db non verranno estratti per essere ripubblicati ma sono per essere indicizzati, @jenkin abbiamo alternative?


#49

In realtà non mi è chiaro cosa voglia dire “estrarre il documento trasformato in testo”… il fatto di trasformarlo in testo serve esclusivamente per abilitare la ricerca full-text ed eventuali algoritmi di arricchimento dei metadati, una volta trovato ciò che si cerca lo si legge nella versione pdf (human readable)… ovviamente se è necessario processare i documenti in qualche modo, si possono fare query che ritornano il testo integrale dell’atto (così come estratto dal pdf), ma quello poi lo vediamo quando avremo la nostra versione (e sul database potremo fare tutte le query che vogliamo).

Al momento stiamo provando a usare la versione in cloud di Ambar per valutare la bontà del loro OCR sui classici documenti che ci troviamo a gestire, a una prima occhiata direi molto bene, ma più proviamo e meglio è… :slight_smile:


#50

Forse allora non ho compreso l’utilizzo, pensavo che servisse per estarre il testo come Archive.org e utilizzarlo ad esempio con tabula. Mi rendo conto ora che forse non é questo l’obiettivo, ma permettere di ricercare del testo in un pdf scansionato dove effettivamente non é possibile ricercarlo con la solita funzione cerca. Ieri ne ho inseriti due, in uno non estre nulla ma forse é la qualità della scansione che non é ottimale. Nell’altro documento mi estrae parzialmente il testo ma forse é legato l’account di prova?


#51

@gamba.davide prova ad allegare qui i documenti che non riconosce in maniera efficace così ci ragioniamo su


#52

Ciao Lorenzo, il documento non visibile è questo castelcastagna_fast_agibili_171216.pdf (853,1 KB)

l’altro documento parziale in realtà ora è visibile, probabilmente quando ho fatto la prova non aveva ultimato l’upload.