Scraper della piattaforma Halley

jenkin · 2017-03-20 15:53:54 UTC

Gli albi pretori di molti comuni sono gestiti da una piattaforma proprietaria che produce pagine con la stessa struttura, per cui un solo scraper è sufficiente a gestirli tutti. @ebergam ne ha già uno in cantiere per Halley, che a questo punto possiamo mettere in funzione… giusto?

nelsonmau · 2017-03-20 18:22:06 UTC

si per me! accendi tutto! Ovviamente è prioritaria l’archiviazione: ogni atto dev’essere archiviato opportunamente

jenkin · 2017-03-20 18:24:23 UTC

Vedi Validazione specifiche del formato dei feed rss.

jenkin · 2017-04-04 10:46:17 UTC

@ebergam ho bisogno di un aggiornamento da parte tua sull’aggiunta delle fonti compatibili con il tuo scraper…

Da parte mia ho terminato il lavoro sulla conversione XML -> JSON e la validazione rispetto alle specifiche (vedi RicostruzioneTrasparente/albopop-json-converter) e gli RSS da te prodotti non risultano validi…

Ecco in dettaglio cosa c’è da sistemare:

WARNING:root:‘13,247683’ is not of type ‘number’ (domain-channel-longitude)
WARNING:root:‘42,694141’ is not of type ‘number’ (domain-channel-latitude)
WARNING:root:‘pubDate’ is a required property (domain-channel-pubDate)
WARNING:root:‘webMaster’ is a required property (domain-channel-webMaster)
WARNING:root:‘act’ is a required property (domain-item-act)

ebergam · 2017-04-04 12:00:11 UTC

Caro @jenkin,
Hai fatto benissimo a mettere qui gli warning, tutte cose che mi ero appuntato di sistemare ad un certo punto ma che non avevo ancora fatto. Ora ho una bella listina di todo (e per favore se vedi altro continua a postarmeli man mano che proseguiamo).

Sono giorni pienissimi con l’università, prima del weekend non ho fisicamente tempo per rimettere la testa sul codice. Nel weekend sistemo e soprattutto continuo la mappatura di tutto ciò che è halleyweb partendo dai fogli che mi avete indicato tu e Lorenzo

jenkin · 2017-04-04 12:44:38 UTC

Va benissimo… quello sopra è l’output del validatore, puoi usarlo tu stesso seguendo le istruzioni nel readme del repo…

jenkin · 2017-04-12 16:13:37 UTC

Ehi, non ti scordare di aggiungere i tag <enclosure> con i pdf allegati agli atti!

jenkin · 2017-04-18 20:24:01 UTC

Lavoro terminato e in produzione: https://github.com/ebergam/halley2RSS/

jenkin · 2017-04-18 20:24:06 UTC

jenkin · 2017-04-18 20:24:09 UTC

jenkin · 2017-05-13 16:41:39 UTC

jenkin · 2017-05-13 16:41:45 UTC

jenkin · 2017-05-13 16:43:20 UTC

@ebergam puoi valutare la possibilità (ed eventuale difficoltà) a adattare lo scraper per l’archivio di Halley Web (esempio). Considerato un run una tantum, secondo te quanto riusciamo a tornare indietro nel tempo? Ci arriviamo al 24 agosto scorso?

ebergam · 2017-05-14 19:17:05 UTC

@jenkin buona idea, ci ragiono in settimana

jenkin · 2017-09-24 18:02:58 UTC

Siamo passati al nuovo scraper per Halley, qui chiudo.

jenkin · 2017-09-24 18:03:01 UTC