Il numero delle fonti che gli scraper dovranno monitorare e grattare è nell’ordine delle centinaia (solo i comuni del cratere sono 130). Questo richiede che ci sia una lista unica e condivisa di fonti che indichi anche quali hanno uno scraper associato, che sia proposto, in sviluppo o in produzione. A ogni fonte devono essere associate delle informazioni di contorno che la definiscano e l’indicazione del feed pop a cui interfacciarsi per l’indicizzazione dei contenuti, quando disponibile.
Propongo di aprire un repository rt-scrapers
in cui mettere un file sources.json
con l’elenco delle fonti individuate e monitorate. La strutture dati della singola fonte è da decidere, ma dovrebbe contenere almeno un id univoco, un nome, un’amministrazione di riferimento, un luogo, un url diretto alla pagina ufficiale, i dati del cittadino monitorante che la ha adottata e poi l’indicazione dello scraper associato (con informazioni come il nome, il repo su github, i dati del manutentore, l’url al feed rss prodotto).
Qualsiasi suggerimento di nuova fonte corrisponderebbe all’apertura di una issue nel repo (tag “Nuova fonte”), da chiudere con un commit che aggiunga la definizione della fonte alla lista sources.json.
Qualsiasi proposta di sviluppo di un nuovo scraper su una fonte scoperta corrisponderebbe all’apertura di una issue (tag “Nuovo scraper”), da chiudere con un commit che aggiorni la definizione della fonte con le informazioni sullo scraper e l’url al feed rss corrispondente.
L’elenco delle fonti poi potrebbe essere reso esplorabile mediante per esempio un’istanza di petrusino (o una semplice tabella filtrabile) da mantenere nello stesso repository. Sarebbe così facile per chiunque vedere quali fonti ci interessano, quali sono monitorate, su quali c’è ancora lavoro da fare.
Questo file json sarebbe poi la base da cui partire per sviluppare l’aggregatore di tutti i feed rss elencati e il processo che indicizzerà in un database centrale tutti i documenti pubblicati e resi pop.