Salut les kheys J'ai un projet où il faut qu'on scrape un site J'aimerais savoir comment mettre à jour notre base de données sans tout rescraper (trop de données), si le site rajoute de nouvelles data
La commission européenne met à disposition sur son site internet la base de données du marché ETS (Emission Trading System) européen qui recense par installation (i.e. une usine) les allocations et les émissions carbone.
Ben tu fais une comparaison de ce qui est déjà présent dans ta DDB. Si une donnée change, tu fais un update global sur chacune des lignes, sinon pas besoin.
EDIT : Désolé j'ai mal compris la question. Je pense que t'as pas le choix, tu scrappe d'abord puis tu compares ce qui a changé
Le 27 décembre 2022 à 21:06:04 : Ben tu fais une comparaison de ce qui est déjà présent dans ta DDB. Si une donnée change, tu fais un update global sur chacune des lignes, sinon pas besoin.
EDIT : Désolé j'ai mal compris la question. Je pense que t'as pas le choix, tu scrappe d'abord puis tu compares ce qui a changé
"1106821 records" tu veux que je rescrappe 1 million de lignes à chaque fois ?
Tu me poses une question je te réponds, si tu fais le job une fois par semaine c'est pas choquant de scrapper toutes les pages. Si tu le fais toutes les 2 heures là c'est pas dingue.
Le 27 décembre 2022 à 21:10:22 : Tu me poses une question je te réponds, si tu fais le job une fois par semaine c'est pas choquant de scrapper toutes les pages. Si tu le fais toutes les 2 heures là c'est pas dingue.