Topic de AntoineForum144 :

Après avoir scanné Internet (IPv4:80), je m'apprête à enregistrer toutes les pages web

Supprimé
AntoineForum est l'anagramme de "mon autre fion"

Le 11 juillet 2022 à 17:50:23 :

Le 11 juillet 2022 à 17:49:08 :
150 1000go c'est peu :(

Il n'y a pas les CSS avec

Mon site c'est un bête <canvas> avec un script JS qui tourne dedans, du coup t'aura pas grand chose à garder si tu sauvegardes pas le CSS et le JS :rire:

ton estimation de 1000go me semble fausse + this

Le 11 juillet 2022 à 17:51:32 :
Le fameux script python mono thread qui va scan l'ensemble des servers webs https://image.noelshack.com/fichiers/2020/02/2/1578437201-henrycalvi.png

Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

concurrent.futures

C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz

Le 11 juillet 2022 à 17:42:42 :
Ok mon autre fion

J'ai eu du mal à comprendre :rire:

Le 11 juillet 2022 à 17:56:49 :

Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

concurrent.futures

C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz

https://image.noelshack.com/fichiers/2022/28/1/1657555106-capture.png
je l'ai nommé crawl mais ce n'est pas le terme exact vu que je me base sur le scan que j'avais fait (59 millions d'IP avec un port 80 ouvert), le fichier contiendra 59 millions de lignes (lorsque la requête a échouée, ce sera marqué failed)

Le 11 juillet 2022 à 17:58:33 :

Le 11 juillet 2022 à 17:56:49 :

Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

concurrent.futures

C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz

https://image.noelshack.com/fichiers/2022/28/1/1657555106-capture.png

Mais ça sert à quoi ?

Le 11 juillet 2022 à 17:59:01 :

Le 11 juillet 2022 à 17:58:33 :

Le 11 juillet 2022 à 17:56:49 :

Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

concurrent.futures

C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz

https://image.noelshack.com/fichiers/2022/28/1/1657555106-capture.png

Mais ça sert à quoi ?

antoineforum ? à rien pourquoi ?

+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(
Moi j'ai déjà commencé à télécharger internet mais je fais tout à la main, page par page. C'est un peu long mais ça occupe.

Le 11 juillet 2022 à 17:56:49 :

Le 11 juillet 2022 à 17:55:46 :
Peux nous expliquer l'architecture de ton script qui permettra de scan l'ensemble des servers web exposant leur port 80? Comment vas-tu gérer les process, comment gères-tu les threads dans tes scripts? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Quelle méthode déploiement pour paralléliser l'exécution sur plusieurs serveurs? https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

concurrent.futures

C'est simple, j'ai divisé le fichier en 600 parties, le script les lit un par un puis quand il termine, il supprime le txt temporaire et compresse en .tar.gz

C'est un peu simpliste comme explication https://image.noelshack.com/fichiers/2017/52/1483276815-issoucalvitie.jpg

Combien de thread en parallèle comptes-tu utiliser? Comment vas-tu gérer les impacts CPU? La load?

Quel est ce fichier d'entrée dont tu parles?

Pourquoi 600?

Est-ce que tu as mis une limite sur la taille maximale du HTML que tu peux enregistrer ?

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

Le 11 juillet 2022 à 18:01:13 :
Est-ce que tu as mis une limite sur la taille maximale du HTML que tu peux enregistrer ?

Oui, pareil pour le titre et headers, mais c'est une limite très généreuse, c'est vraiment pour éviter les abus
Pour l'encodage c'est UTF-8

C'est marrant, je m'étais amusé a faire ca il y a longtemps, sur une plage ip réduite pour test en automatisant avec un vieux script batch windows, angryipscanner et httrack. Sur une connexion adsl 8 Mbps (le luxe a l'époque). Je dois avoir l'archive qui traîne sur un des mes vieux hdd.

Le 11 juillet 2022 à 18:01:52 :

Le 11 juillet 2022 à 18:01:13 :
Est-ce que tu as mis une limite sur la taille maximale du HTML que tu peux enregistrer ?

Oui, pareil pour le titre et headers, mais c'est une limite très généreuse, c'est vraiment pour éviter les abus, il y a aussi un timeout
Pour l'encodage c'est UTF-8

Dommage...

Quel est votre projet sinon ?

Le 11 juillet 2022 à 18:01:33 :

Le 11 juillet 2022 à 18:00:13 :
+ avec toutes les pages web qui sont des SPA ça a peu de sens de juste collecter le html :(

Le but est de récupérer le contenu HTML des résultats du scan

ok mais tu vas faire tourner le javascript ? si tu gardes juste le html initial d'une page React, t'auras juste

<div class="root">
</div>

Pour en faire quoi surtout

Données du topic

Auteur
AntoineForum144
Date de création
11 juillet 2022 à 17:42:00
Date de suppression
11 juillet 2022 à 18:36:15
Supprimé par
Modération ou administration
Nb. messages archivés
73
Nb. messages JVC
75
En ligne sur JvArchive 283