Proposta schema di progetto e flusso di lavoro


#1

L’idea di fondo è quella di AlboPOP: a partire da una lista di fonti da monitorare (vedi Lista delle fonti e degli scraper) si sviluppa in piena libertà una serie di scraper autonomi e indipendenti (per quanto riguarda linguaggio, librerie, implementazione, hardware su cui girano, ecc.) a cui viene richiesto solo di pubblicare i documenti grattati sotto forma di feed RSS secondo precise specifiche (es. albopop/specs, da validare per il caso di RT, vedi Validazione specifiche del formato dei feed rss).

In questo modo la lista di pagine web si trasformerebbe in una lista di feed RSS aggiornati ognuno con una certa frequenza dagli scraper. L’aggregazione di questi flussi richiede un processo centrale che li monitori e ne indicizzi i documenti in un database centrale, per esempio Elasticsearch, e/o che ne effettui il download degli allegati, per esempio i pdf degli atti.

Una volta nel database, i documenti sarebbero disponibili a tutte le applicazioni che lo interrogano e si appoggiano alle sue API. Potrebbero anche essere ulteriormente arricchiti da processi asincroni come processi di OCR, Named-Entity Recognition, crowd-sourcing, ecc.


Vorrei imparare a... - domanda ed offerta di competenze
#2