Après avoir scanné Internet (IPv4:80), je m'apprête à enregistrer toutes les pages web

11 juillet 2022 à 18:05:28

Le 11 juillet 2022 à 18:00:57 :
Le 11 juillet 2022 à 17:56:49 :
Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts?
Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs?
concurrent.futures
C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz
C'est un peu simpliste comme explication
Combien de thread en parallèle comptes-tu utiliser? Comment vas-tu gérer les impacts CPU? La load?
Quel est ce fichier d'entrée dont tu parles?
Pourquoi 600?

600 car ça fait 100 000 lignes par fichier et que j'avais un bug en Python avec la mémoire quand je mettais plusieurs millions, en même temps ça me permet de compresser au fur et à mesure et donc d'économiser de l'espace de stockage (je prévois de faire des transferts vers d'autres serveurs mais ça m'évitera les interruptions de script et me fera donc gagner du temps)

pour le nombre de threads j'ai juste fait des tests (500 threads)

les fichiers d'entrées ce sont les URL (IP)

CossedPuisLuned

11 juillet 2022 à 18:08:27

500 threads avec de l'heavy io sur les disks qui dump HTML , tu nous informeras du résultat, on est intéressé

AntoineForum144

11 juillet 2022 à 18:08:32

Le grand nombre de fichiers me permet aussi de m'adapter aisément si j'ai envie de rajouter des serveurs

AntoineForum144

11 juillet 2022 à 18:10:15

600 fichiers c'est juste pour le script, ensuite ils seront combinés en un seul (en tout cas il y aura au moins deux versions, l'une en un seul fichier, l'autre en plusieurs parties)

keccak-128

11 juillet 2022 à 18:10:34

Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html
Le but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>

répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées

AntoineForum144

11 juillet 2022 à 18:12:51

Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html
Le but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>
répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées

Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça

Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

keccak-128

11 juillet 2022 à 18:17:00

Le 11 juillet 2022 à 18:12:51 :
Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html
Le but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>
répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées
Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça
Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript

ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scans

AntoineForum144

11 juillet 2022 à 18:17:45

Le 11 juillet 2022 à 18:17:00 :
Le 11 juillet 2022 à 18:12:51 :
Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html
Le but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>
répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées
Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça
Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript
ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scans

C'est une infime minorité de cas et ce qui compte c'est de récupérer le contenu HTML, pas autre chose, après on peux aussi chipoter et dire qu'il faut cliquer sur tel ou tel lien