--
ChristianBonnin - 01 Jun 2006
Pourquoi les caractères utilisant des polices incorporés sont-ils mal compris ?
Le codage Unicode permet de représenter absolument tous les caractères imaginables (par exemple :
les lettres grecques) mais certains éditeurs (comme ApJ) préfèrent utiliser les polices incorporées.
Mécanisme
Incorporer une police de caractères (ou un sous-ensemble contenant les caractères utilisés) dans un document PDF permet de s'assurer que ces caractères s'afficheront de la même manière sur toutes les plates-formes. A condition toutefois que le visualiseur utilisé sache les gérer.
Des instructions sont donc incluses sous forme de flux binaires (streams) pour décrire la manière dont les caractères sont dessinés.
Les codes de ces caractères peuvent fournir une information. De plus chaque caractère porte un nom.
Problèmes recontrés
Les codes utilisés et mêmes les noms ne permettent pas d'établir une correspondance. Les caractères qu'ils représentent varient d'un document à l'autre.
La seule solution semble donc d'extraire le dessin de ces caractères sous forme d'une image pour tenter une reconnaissance optique.
Mais les outils testés ne permettent même pas de dessiner ces caractères (PDFBox,
JPedal, Xpdf,
PDFtoHTML).
Seuls les visualiseurs Acrobat Reader, GPDF ou d'autres outils payant les affichent correctement.
Solution envisagée
GPDF est un produit open-source qui utilise la librairie
T1Lib elle aussi open-source.
Il devrait donc être possible d'extraire le dessin de ces caractères, affaire à suivre ...
Solution retenue
La dernière version (version 2.8) du visualiseur de
JPedal parvient à afficher correctement les polices incorporées.
C'est un produit commercial qui s'appuie sur une librairie open-source.
La librairie de JPedal est donc utilisée pour obtenir le dessin des caractères qui sont comparés graphiquement avec un jeu de symboles graphiques qui est différent pour chaque éditeur.