Après avoir scanné Internet (IPv4:80), je m'apprête à enregistrer toutes les pages web
SuppriméLe 11 juillet 2022 à 18:00:57 :
Le 11 juillet 2022 à 17:56:49 :
Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts?Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs?
concurrent.futures
C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz
C'est un peu simpliste comme explication
Combien de thread en parallèle comptes-tu utiliser? Comment vas-tu gérer les impacts CPU? La load?
Quel est ce fichier d'entrée dont tu parles?
Pourquoi 600?
600 car ça fait 100 000 lignes par fichier et que j'avais un bug en Python avec la mémoire quand je mettais plusieurs millions, en même temps ça me permet de compresser au fur et à mesure et donc d'économiser de l'espace de stockage (je prévois de faire des transferts vers d'autres serveurs mais ça m'évitera les interruptions de script et me fera donc gagner du temps)
pour le nombre de threads j'ai juste fait des tests (500 threads)
les fichiers d'entrées ce sont les URL (IP)
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le htmlLe but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>
répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées
Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le htmlLe but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées
Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça
Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript
Le 11 juillet 2022 à 18:12:51 :
Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le htmlLe but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées
Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça
Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript
ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scans
Le 11 juillet 2022 à 18:17:00 :
Le 11 juillet 2022 à 18:12:51 :
Le 11 juillet 2022 à 18:10:34 :
Le 11 juillet 2022 à 18:04:31 :
Le 11 juillet 2022 à 18:01:33 :
Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le htmlLe but est de récupérer le contenu HTML des résultats du scan
ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste
<div class="root">
</div>répond l'op si tu fais juste une requete http des pages, toutes les SPA seront dégagées
Les serveurs SPA sont très rares, donc je n'ai pas besoin de penser à ça
Ensuite il y a plusieurs façons de récupérer le HTML, par exemple si tu fais un view-source ou inspecter l'élément, tu n'auras pas les mêmes résultats, car le navigateur prend en compte les actions de javascript
ça dépend de ce que tu veux faire après mais y'a plein de pages qui chargent du contenu dynamiquement (e.g. les commentaires youtube) qui seront pas dans tes scans
C'est une infime minorité de cas et ce qui compte c'est de récupérer le contenu HTML, pas autre chose, après on peux aussi chipoter et dire qu'il faut cliquer sur tel ou tel lien
Données du topic
- Auteur
- AntoineForum144
- Date de création
- 11 juillet 2022 à 17:42:00
- Date de suppression
- 11 juillet 2022 à 18:36:15
- Supprimé par
- Modération ou administration
- Nb. messages archivés
- 73
- Nb. messages JVC
- 75