Gli albi pretori di molti comuni sono gestiti da una piattaforma proprietaria che produce pagine con la stessa struttura, per cui un solo scraper è sufficiente a gestirli tutti. @ebergam ne ha già uno in cantiere per Halley, che a questo punto possiamo mettere in funzione… giusto?
Scraper della piattaforma Halley
si per me! accendi tutto! Ovviamente è prioritaria l’archiviazione: ogni atto dev’essere archiviato opportunamente
@ebergam ho bisogno di un aggiornamento da parte tua sull’aggiunta delle fonti compatibili con il tuo scraper…
Da parte mia ho terminato il lavoro sulla conversione XML -> JSON e la validazione rispetto alle specifiche (vedi RicostruzioneTrasparente/albopop-json-converter) e gli RSS da te prodotti non risultano validi…
Ecco in dettaglio cosa c’è da sistemare:
- WARNING:root:‘13,247683’ is not of type ‘number’ (domain-channel-longitude)
- WARNING:root:‘42,694141’ is not of type ‘number’ (domain-channel-latitude)
- WARNING:root:‘pubDate’ is a required property (domain-channel-pubDate)
- WARNING:root:‘webMaster’ is a required property (domain-channel-webMaster)
- WARNING:root:‘act’ is a required property (domain-item-act)
Caro @jenkin,
Hai fatto benissimo a mettere qui gli warning, tutte cose che mi ero appuntato di sistemare ad un certo punto ma che non avevo ancora fatto. Ora ho una bella listina di todo (e per favore se vedi altro continua a postarmeli man mano che proseguiamo).
Sono giorni pienissimi con l’università, prima del weekend non ho fisicamente tempo per rimettere la testa sul codice. Nel weekend sistemo e soprattutto continuo la mappatura di tutto ciò che è halleyweb partendo dai fogli che mi avete indicato tu e Lorenzo
Va benissimo… quello sopra è l’output del validatore, puoi usarlo tu stesso seguendo le istruzioni nel readme del repo…