Topic de AntoineForum144 :

Après avoir scanné Internet (IPv4:80), je m'apprête à enregistrer toutes les pages web

Supprimé

Le 11 juillet 2022 à 18:00:57 :

Le 11 juillet 2022 à 17:56:49 :

Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

concurrent.futures

C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz

C'est un peu simpliste comme explication https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Combien de thread en parallèle comptes-tu utiliser? Comment vas-tu gérer les impacts CPU? La load?

Quel est ce fichier d'entrée dont tu parles?

Pourquoi 600?

600 car ça fait 100 000 lignes par fichier et que j'avais un bug en Python avec la mémoire quand je mettais plusieurs millions, en même temps ça me permet de compresser au fur et à mesure et donc d'économiser de l'espace de stockage (je prévois de faire des transferts vers d'autres serveurs mais ça m'évitera les interruptions de script et me fera donc gagner du temps)

pour le nombre de threads j'ai juste fait des tests (500 threads)

les fichiers d'entrées ce sont les URL (IP)

500 threads avec de l'heavy io sur les disks qui dump HTML , tu nous informeras du résultat, on est intéressé https://image.noelshack.com/fichiers/2020/46/4/1605213870-bouled55.png
Le grand nombre de fichiers me permet aussi de m'adapter aisément si j'ai envie de rajouter des serveurs
600 fichiers c'est juste pour le script, ensuite ils seront combinés en un seul (en tout cas il y aura au moins deux versions, l'une en un seul fichier, l'autre en plusieurs parties)

Le 11 juillet 2022 à 18:04:31 :

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées https://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Le 11 juillet 2022 à 18:10:34 :

Le 11 juillet 2022 à 18:04:31 :

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées https://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça

Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

Le 11 juillet 2022 à 18:12:51 :

Le 11 juillet 2022 à 18:10:34 :

Le 11 juillet 2022 à 18:04:31 :

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées https://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça

Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scans https://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Le 11 juillet 2022 à 18:17:00 :

Le 11 juillet 2022 à 18:12:51 :

Le 11 juillet 2022 à 18:10:34 :

Le 11 juillet 2022 à 18:04:31 :

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées https://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça

Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scans https://image.noelshack.com/fichiers/2020/43/2/1603199517-capitaine-emploi.png

C'est une infime minorité de cas et ce qui compte c'est de récupérer le contenu HTML, pas autre chose, après on peux aussi chipoter et dire qu'il faut cliquer sur tel ou tel lien

Sinon y'a Wayback Machine...
C'est pas illégal de scrap les pages web ?
C'est quoi l'intérêt juste ?
AntoineForum toujours dans la boucle :(
Tu as intérêt à respecter le droit à l’oubli après publication, sinon Gilbert va venir toquer à ta porte.

Données du topic

Auteur
AntoineForum144
Date de création
11 juillet 2022 à 17:42:00
Date de suppression
11 juillet 2022 à 18:36:15
Supprimé par
Modération ou administration
Nb. messages archivés
73
Nb. messages JVC
75
En ligne sur JvArchive 111