OCR e table recognition


#22

Assocerei al tuo ottimo lavoro una lincenza CCBY SA.

@lorenzo_perone @gamba.davide vorrei scrivere sulla cosa un blog post che ne prende spunto dal titolo “Archive, molto di più dell’archivio del web”.

Lo pubblicherei sul sito RT.

Se vi sembra sensato e utile, mi muovo


#23

Grazie @andrea.borruso, modifico licenza e ricopio nella cartella se serve anche nella versione word.


#24

@andrea.borruso mi sembra un’ottima idea.
@nelsonmau potremmo fare un blog post?


#25

@gamba.davide la versione modificabile la inserirei sempre, grazie


#26

Segnalo questo prodotto per l’OCR, basato su Elasticsearch: https://ambar.cloud/.


#27

Ciao @andrea.borruso, come da tuo suggerimento ho inserito nel documento la licenza CC-BY-SA.
Trovi sia la versione pdf che doc qui.
Grazie.


#28

Visto il modesto costo annuo (99$) io credo che dovremmo valutare bene questa opzione. Faccio qualche prova con la versione online.


#29

Tieni conto che sotto al cofano usano questo, opportunamente configurato: https://www.elastic.co/guide/en/elasticsearch/plugins/master/ingest-attachment.html (il motore dell’OCR è Apache Tika). Se riesci a fare qualche prova con i nostri documenti sarebbe perfetto, così ci rendiamo conto se vale la pena…

Ah, occhio alla nota sotto il pricing: “Non-profitable organization or university? Contact us for a special offer”… se funziona bene, abbiamo svoltato, probabilmente ci conviene comunque tenere ES in casa per ora, ma sarebbe relativamente facile interfacciare i due db… :slight_smile:


#30

Attualmente il sistema che c’è all’indirizzo non sembra funzionare, ho utilizzato la modalità di caricamento via Dropbox (scan ogni 15 minuti) e via direct upload, ma nessuno dei pdf che ho caricato, senza avere errori, sembra presente nella coda di elaborazione, mah


#31

Buongiorno a tutti, é possibile che la cartella fonti e pubbliche amministrazioni sia stata spostata? Non vedo piú nulla.


#32

Intendi la cartella “Fonti e dati” su Drive? io la vedo…


#33

Ho controllato, è dove è sempre stata e tu hai privilegi in scrittura su quella cartella.


#34

Il buon @nelsonmau ha fatto un po’ d’ordine :wink:


#35

Ciao @cristigalasso, intendo quella cartella… In realtà tutte, penso che con lo spostamento sia cambiato l’indirizzo che avevo.


#36

Trovato tutto, scusatemi.


#38

Un messaggio è stato spostato in un nuovo argomento: OCR and Elasticsearch with Ambar


#39

@cristigalasso non è spam, abbiamo provato il loro servizio che avevo segnalato ieri e sono stati carini a contattarci qui! :smiley:


#40

Scusa! Ho letto velocemente il messaggio e ho pensato fosse spam, perdonami @jenkin!


#41

ragazzi, sì, scusate, ho semplificato un po’ e messo tutto nell’unica cartella “Fonti e dati”, ma non ho cancellato nulla ovviamente :slight_smile:

Vorrei provare a tenere questa parte un po’ più “usabile”


#42

Eh, però AVVERTI PRIMA! Chiedi, spiega e poi agisci… Non che agisci, poi caos, panico, si salvi chi può e poi, niente niente, ho solo messo in ordine la cameretta… :wink: