Topic de Araboide :

Supprimer les doublons d'un PDF

  • 1
Salut, j'ai un document PDF assez conséquent, mais celui-ci contient pas mal de doublons de pages, j'ai essayé de chercher si y'avait pas un site ou un logiciel pour le faire automatiquement mais j'ai pas trouvé grand-chose, quelqu'un pour m'aider ? :hap:

automatique connais pas

sinon t'extrais et tu reassemble le pdf en enlevant les doublons

Le 11 octobre 2023 à 00:56:34 XYZCityHunter a écrit :
automatique connais pas

sinon t'extrais et tu reassemble le pdf en enlevant les doublons

Trop chiant, le document fait un bon millier de pages

Le 11 octobre 2023 à 00:58:50 :

Le 11 octobre 2023 à 00:56:34 XYZCityHunter a écrit :
automatique connais pas

sinon t'extrais et tu reassemble le pdf en enlevant les doublons

Trop chiant, le document fait un bon millier de pages

T'es stagiaire faut assumer les tâches de stagiaire

Justement si on t'as assigné une tâche aussi longue c'est pour être un peu tranquille et pas que tu la termines en 2 min

Le 11 octobre 2023 à 01:00:24 FakeBG23 a écrit :

Le 11 octobre 2023 à 00:58:50 :

Le 11 octobre 2023 à 00:56:34 XYZCityHunter a écrit :
automatique connais pas

sinon t'extrais et tu reassemble le pdf en enlevant les doublons

Trop chiant, le document fait un bon millier de pages

T'es stagiaire faut assumer les tâches de stagiaire

Justement si on t'as assigné une tâche aussi longue c'est pour être un peu tranquille et pas que tu la termines en 2 min

Aaaaya je suis pas stagiaire, je veux juste élaguer un peu le fameux dossier Dutroux de WikiLeaks qui contient beaucoup de doublons :rire:

Master PDF, tu peux tout faire avec

Tu peux le trouver sur Ygg https://image.noelshack.com/fichiers/2017/30/4/1501185683-jesusjournalbestreup.png

Tu divises les pages , puis tu fais un script qui decompresse les pages puis calcule un hash en fonction du contenu de la page décompresé.
Après avoir calculé tous les hash si deux hash consécutifs sont les mêmes tu supprimes la page en question....
à la fin tu compresses toutes les pages puis les réassemble :noel:

Le 11 octobre 2023 à 01:04:14 :
Master PDF, tu peux tout faire avec

Tu peux le trouver sur Ygg https://image.noelshack.com/fichiers/2017/30/4/1501185683-jesusjournalbestreup.png

Je m'autocorrige, j'avais pas vu que tu voulais le faire automatiquement.

Oublie, je sais pas https://image.noelshack.com/fichiers/2017/30/4/1501185683-jesusjournalbestreup.png

Le 11 octobre 2023 à 01:04:44 RisitAsh a écrit :
Tu divises les pages , puis tu fais un script qui decompresse les pages puis calcule un hash en fonction du contenu de la page décompresé.
Après avoir calculé tous les hash si deux hash consécutifs sont les mêmes tu supprimes la page en question....
à la fin tu compresses toutes les pages puis les réassemble :noel:

https://image.noelshack.com/fichiers/2022/38/4/1663852709-golemabasourdi.png

Le 11 octobre 2023 à 01:05:58 :

Le 11 octobre 2023 à 01:04:44 RisitAsh a écrit :
Tu divises les pages , puis tu fais un script qui decompresse les pages puis calcule un hash en fonction du contenu de la page décompresé.
Après avoir calculé tous les hash si deux hash consécutifs sont les mêmes tu supprimes la page en question....
à la fin tu compresses toutes les pages puis les réassemble :noel:

https://image.noelshack.com/fichiers/2022/38/4/1663852709-golemabasourdi.png

J’aime pas apple mais avec Apple Macintosh ça se fait bien.
En plus tu peux visualiser facilement les fichiers pdf pour vérifier si tu fais des conneries sur preview :noel:

Le 11 octobre 2023 à 01:04:44 :
Tu split le document, puis tu fais une IA qui calcule un hash en fonction du contenu de la page
Après avoir calculé tous les hash si deux hash sont les mêmes dans le document tu supprimes la deuxième page en question...
à la fin tu ré-assemble toutes les pages puis les réassemble :noel:

C'était presque ça, j'ai corrigé

Le 11 octobre 2023 à 01:05:14 GiIbertM0ntagne a écrit :

Le 11 octobre 2023 à 01:04:14 :
Master PDF, tu peux tout faire avec

Tu peux le trouver sur Ygg https://image.noelshack.com/fichiers/2017/30/4/1501185683-jesusjournalbestreup.png

Je m'autocorrige, j'avais pas vu que tu voulais le faire automatiquement.

Oublie, je sais pas https://image.noelshack.com/fichiers/2017/30/4/1501185683-jesusjournalbestreup.png

Le 11 octobre 2023 à 01:08:35 RisitAsh a écrit :

Le 11 octobre 2023 à 01:05:58 :

Le 11 octobre 2023 à 01:04:44 RisitAsh a écrit :
Tu divises les pages , puis tu fais un script qui decompresse les pages puis calcule un hash en fonction du contenu de la page décompresé.
Après avoir calculé tous les hash si deux hash consécutifs sont les mêmes tu supprimes la page en question....
à la fin tu compresses toutes les pages puis les réassemble :noel:

https://image.noelshack.com/fichiers/2022/38/4/1663852709-golemabasourdi.png

J’aime pas apple mais avec Apple Macintosh ça se fait bien.
En plus tu peux visualiser facilement les fichiers pdf pour vérifier si tu fais des conneries sur preview :noel:

À vrai dire, je m'attendais à une solution un peu plus... accessible... tu vois ? https://image.noelshack.com/fichiers/2022/38/4/1663852709-golemabasourdi.png

Le 11 octobre 2023 à 01:11:17 :

Le 11 octobre 2023 à 01:05:14 GiIbertM0ntagne a écrit :

Le 11 octobre 2023 à 01:04:14 :
Master PDF, tu peux tout faire avec

Tu peux le trouver sur Ygg https://image.noelshack.com/fichiers/2017/30/4/1501185683-jesusjournalbestreup.png

Je m'autocorrige, j'avais pas vu que tu voulais le faire automatiquement.

Oublie, je sais pas https://image.noelshack.com/fichiers/2017/30/4/1501185683-jesusjournalbestreup.png

Le 11 octobre 2023 à 01:08:35 RisitAsh a écrit :

Le 11 octobre 2023 à 01:05:58 :

Le 11 octobre 2023 à 01:04:44 RisitAsh a écrit :
Tu divises les pages , puis tu fais un script qui decompresse les pages puis calcule un hash en fonction du contenu de la page décompresé.
Après avoir calculé tous les hash si deux hash consécutifs sont les mêmes tu supprimes la page en question....
à la fin tu compresses toutes les pages puis les réassemble :noel:

https://image.noelshack.com/fichiers/2022/38/4/1663852709-golemabasourdi.png

J’aime pas apple mais avec Apple Macintosh ça se fait bien.
En plus tu peux visualiser facilement les fichiers pdf pour vérifier si tu fais des conneries sur preview :noel:

À vrai dire, je m'attendais à une solution un peu plus... accessible... tu vois ? https://image.noelshack.com/fichiers/2022/38/4/1663852709-golemabasourdi.png

Tu découpes le pdf en fichiers d’une page.
Tu tries par taille de fichier, tu mets en miniatures les fichiers pdf d’une page.
Tu supprimes à la main les doublons en maintenant Shift pour aller plus vite :noel:

Le 11 octobre 2023 à 01:30:44 RisitAsh a écrit :

Le 11 octobre 2023 à 01:11:17 :

Le 11 octobre 2023 à 01:05:14 GiIbertM0ntagne a écrit :

Le 11 octobre 2023 à 01:04:14 :
Master PDF, tu peux tout faire avec

Tu peux le trouver sur Ygg https://image.noelshack.com/fichiers/2017/30/4/1501185683-jesusjournalbestreup.png

Je m'autocorrige, j'avais pas vu que tu voulais le faire automatiquement.

Oublie, je sais pas https://image.noelshack.com/fichiers/2017/30/4/1501185683-jesusjournalbestreup.png

Le 11 octobre 2023 à 01:08:35 RisitAsh a écrit :

Le 11 octobre 2023 à 01:05:58 :

Le 11 octobre 2023 à 01:04:44 RisitAsh a écrit :
Tu divises les pages , puis tu fais un script qui decompresse les pages puis calcule un hash en fonction du contenu de la page décompresé.
Après avoir calculé tous les hash si deux hash consécutifs sont les mêmes tu supprimes la page en question....
à la fin tu compresses toutes les pages puis les réassemble :noel:

https://image.noelshack.com/fichiers/2022/38/4/1663852709-golemabasourdi.png

J’aime pas apple mais avec Apple Macintosh ça se fait bien.
En plus tu peux visualiser facilement les fichiers pdf pour vérifier si tu fais des conneries sur preview :noel:

À vrai dire, je m'attendais à une solution un peu plus... accessible... tu vois ? https://image.noelshack.com/fichiers/2022/38/4/1663852709-golemabasourdi.png

Tu découpes le pdf en fichiers d’une page.
Tu tries par taille de fichier, tu mets en miniatures les fichiers pdf d’une page.
Tu supprimes à la main les doublons en maintenant Shift pour aller plus vite :noel:

Cimer khey, j'avais commencé à faire comme ça mais j'ai remarqué que quand y'avait un doublon, il se situait toujours 158 pages plus loin que la page originale. Je pense que ça va m'aider à automatiser le truc. :hap:

  • 1

Données du topic

Auteur
Araboide
Date de création
11 octobre 2023 à 00:51:17
Nb. messages archivés
15
Nb. messages JVC
15
En ligne sur JvArchive 267