Scraper della piattaforma Halley


#1

Gli albi pretori di molti comuni sono gestiti da una piattaforma proprietaria che produce pagine con la stessa struttura, per cui un solo scraper è sufficiente a gestirli tutti. @ebergam ne ha già uno in cantiere per Halley, che a questo punto possiamo mettere in funzione… giusto?


Piattaforma di scraping degli Albi Pretori dei comuni colpiti dal sisma
#2

si per me! accendi tutto! Ovviamente è prioritaria l’archiviazione: ogni atto dev’essere archiviato opportunamente


#3

Vedi Validazione specifiche del formato dei feed rss.


#4

@ebergam ho bisogno di un aggiornamento da parte tua sull’aggiunta delle fonti compatibili con il tuo scraper…

Da parte mia ho terminato il lavoro sulla conversione XML -> JSON e la validazione rispetto alle specifiche (vedi RicostruzioneTrasparente/albopop-json-converter) e gli RSS da te prodotti non risultano validi… :open_mouth:

Ecco in dettaglio cosa c’è da sistemare:


#5

Caro @jenkin,
Hai fatto benissimo a mettere qui gli warning, tutte cose che mi ero appuntato di sistemare ad un certo punto ma che non avevo ancora fatto. Ora ho una bella listina di todo (e per favore se vedi altro continua a postarmeli man mano che proseguiamo).

Sono giorni pienissimi con l’università, prima del weekend non ho fisicamente tempo per rimettere la testa sul codice. Nel weekend sistemo e soprattutto continuo la mappatura di tutto ciò che è halleyweb partendo dai fogli che mi avete indicato tu e Lorenzo :slight_smile:


#6

Va benissimo… quello sopra è l’output del validatore, puoi usarlo tu stesso seguendo le istruzioni nel readme del repo… :slight_smile:


#7

Ehi, non ti scordare di aggiungere i tag <enclosure> con i pdf allegati agli atti! :smiley:


#8

Lavoro terminato e in produzione: https://github.com/ebergam/halley2RSS/


#9

#10

#11

#12

#13

@ebergam puoi valutare la possibilità (ed eventuale difficoltà) a adattare lo scraper per l’archivio di Halley Web (esempio). Considerato un run una tantum, secondo te quanto riusciamo a tornare indietro nel tempo? Ci arriviamo al 24 agosto scorso?


#14

@jenkin buona idea, ci ragiono in settimana


#15

Siamo passati al nuovo scraper per Halley, qui chiudo.


#16