La piattaforma di scraping si basa su un indice di tutte le fonti monitorate e da monitorare, su cui stiamo discutendo qui. Materialmente si tratta di un file JSON, che però può essere la base di un’interfaccia web sia per chi lavora a RT, sia per chi sta seguendo il progetto dall’esterno.
L’elenco delle fonti poi potrebbe essere reso esplorabile mediante per esempio un’istanza di petrusino (o una semplice tabella filtrabile) da mantenere nello stesso repository. Sarebbe così facile per chiunque vedere quali fonti ci interessano, quali sono monitorate, su quali c’è ancora lavoro da fare.
Elenco alcune funzionalità possibili:
- elenco filtrabile in base a vari parametri (es. monitorato / non monitorato);
- elenco ricercabile (es. testo libero sul campo descrizione);
- contatori generali (es. numero di fonti per regione, numero di scraper per sviluppatore e un domani elementi indicizzati per fonte, ecc.);
- mappe per i parametri geografici (le fonti hanno un codice istat, se disponibile);
- informazioni aggiuntive di contesto (es. dai dati della viz sui contatori, da istat, da contratti pubblici, dall’indice delle pa, ecc.)
In prospettiva questa pagina potrebbe diventare uno degli entry point dell’intero progetto: entro, ho una visione di insieme, posso fare ricerche sulle fonti, ho l’elenco dei feed degli albi, ho le informazioni di contesto, ho insomma un sommario e un indice di un bel pezzo di RT.
Si tratta per lo più di lavoro di frontend: progettazione, design ed elenco di richieste al backend. Nomino in prima battuta @giovannipolimeni e @guenter.richter che nel thread sulla lista avevano già cominciato a ragionarci. Che ne dite? Fin dove ci si può spingere prima di mettere mano materialmente all’implementazione? Quanto flessibili possiamo rimanere nella progettazione per assicurarci di poter aggiungere pezzi e funzionalità in un secondo momento? Cosa ci serve decidere subito (penso alla parte di backend) per assicurarci dopo le funzionalità che vorremmo?