-- ChristianBonnin - 04 May 2006

Outils d'extraction de texte depuis un PDF

xpdf 3.01

C'est un visualiseur de fichier PDF qui contient l'utilitaire pdftotext permettant d'extraire tout le texte d'un document PDF. (site : http://www.foolabs.com/xpdf/home.html ). Il est écrit en C.

Il est utilisé par TextPresso un outil d'extraction d'information à partir de littérature biologique (site : http://www.textpresso.org/). Le package utilisé dans textpresso contient une version adaptée de texttopdf avec une surcouche en python. Il faut créer des templates pour chaque type de journal: exemple fait rapidement pour un template astro-ph à tester sur un exemple de fichier PDF astro-ph.

Inconvénients de `pdftotext`

Lorsque le document est sur plusieurs colonnes, les paragraphes sont parfois extraits dans le désordre
Les notes de bas de page, les entêtes et pieds de pages sont insérés dans le texte
Les légendes des images sont insérés dans le texte
Les tableaux sont insérés dans le texte
Les caractères en indice ou en exposant sont extraits au même niveau que le reste (notamment les numéros de renvois en bas de page)
Les formules donnent des résultats bizarres: les caractères spéciaux disparaissent

L'option -layout permet de reproduire une partie de la mise en forme avec des espaces, et donc de savoir dans quel ordre les paragraphes étaient écrits.

bibliothèque Java de manipulation de PDF : PDFBox 0.7.2 0.7.3

Site : http://www.pdfbox.org/
Le but est la manipulation de documents PDF tant en écriture qu'en lecture. Un visualiseur de PDF et un outil d'extraction de texte sont fournis.

Mais cette bibliothèque n'est pas très bien documentée.

La version 0.7.2 est normalement une version stable mais provoquait une erreur dans le traitement des annotations.
J'ai donc téléchargé la version 0.7.3 en cours de développement (http://www.pdfbox.org/dist/) qui nécessite en plus le module FontBox 0.1.0.

bibliothèque Java de manipulation de PDF : iText 1.4

Sites : http://www.lowagie.com/iText/ et http://sourceforge.net/projects/itext

Cette Bibliothèque est bien documentée mais est surtout prévue pour la création de documents PDF. L'auteur prévient qu'elle n'est pas adaptée à la transformation de documents existants.

Version GPL de JPedal 2.75

Site : http://www.jpedal.org/

JPedal est un produit commercial mais qui s'appuie sur un noyau open source qui lui-même utilise quelques fonctionnalités de iText.
C'est un produit professionnel bien documenté mais à première vue assez sommaire.

Module Perl PDF 1.11

Module en Perl pour la manipulation de documents PDF.
Description : http://www.cpan.org/modules/by-module/PDF/PDF-110.readme

Module Perl PDF::API2 0.51

Autre module en Perl pour la manipulation de documents PDF (plus approfondi).
Description : http://www.cpan.org/modules/by-module/PDF/PDF-API2-0.51.readme

PdftoHtml 0.38

Cet outil basé sur xpdf transforme un Document PDF en HTML en reproduisant la mise en forme aussi fidèlement que possible.
site : http://pdftohtml.sourceforge.net/ et http://sourceforge.net/projects/pdftohtml/

pdftk 1.12

Boîte à outils permettant de faire certaines opérations en ligne de commande sur les documents PDF.
Je m'en sers pour décompresser les fichier PDF.
Site : http://www.accesspdf.com/pdftk/