Topic de super_mario95 :

[AIDE] Web scraping

  • 1
Salut les kheys
J'ai un projet où il faut qu'on scrape un site
J'aimerais savoir comment mettre à jour notre base de données sans tout rescraper (trop de données), si le site rajoute de nouvelles data

Le 27 décembre 2022 à 20:56:19 :
c quoi ce site

La commission européenne met à disposition sur son site internet la base de données du marché ETS (Emission Trading System) européen qui recense par installation (i.e. une usine) les allocations et les émissions carbone.

Ben tu fais une comparaison de ce qui est déjà présent dans ta DDB. Si une donnée change, tu fais un update global sur chacune des lignes, sinon pas besoin.

EDIT : Désolé j'ai mal compris la question. Je pense que t'as pas le choix, tu scrappe d'abord puis tu compares ce qui a changé

Le 27 décembre 2022 à 21:06:04 :
Ben tu fais une comparaison de ce qui est déjà présent dans ta DDB. Si une donnée change, tu fais un update global sur chacune des lignes, sinon pas besoin.

EDIT : Désolé j'ai mal compris la question. Je pense que t'as pas le choix, tu scrappe d'abord puis tu compares ce qui a changé

"1106821 records"
tu veux que je rescrappe 1 million de lignes à chaque fois ?

Tu me poses une question je te réponds, si tu fais le job une fois par semaine c'est pas choquant de scrapper toutes les pages. Si tu le fais toutes les 2 heures là c'est pas dingue.

Le 27 décembre 2022 à 21:10:22 :
Tu me poses une question je te réponds, si tu fais le job une fois par semaine c'est pas choquant de scrapper toutes les pages. Si tu le fais toutes les 2 heures là c'est pas dingue.

je garderais ca en tete merci

  • 1

Données du topic

Auteur
super_mario95
Date de création
27 décembre 2022 à 20:50:02
Nb. messages archivés
10
Nb. messages JVC
10
En ligne sur JvArchive 339