Difference: EmbeddedFontsProblem (2 vs. 3)

Revision 32007-06-15 - ChristianBonnin

 
META TOPICPARENT name="AutomaticRecognitionObjectNames"
-- ChristianBonnin - 01 Jun 2006

Pourquoi les caractères utilisant des polices incorporés sont-ils mal compris ?

Le codage Unicode permet de représenter absolument tous les caractères imaginables (par exemple : les lettres grecques) mais certains éditeurs (comme ApJ) préfèrent utiliser les polices incorporées.

Mécanisme

Incorporer une police de caractères (ou un sous-ensemble contenant les caractères utilisés) dans un document PDF permet de s'assurer que ces caractères s'afficheront de la même manière sur toutes les plates-formes. A condition toutefois que le visualiseur utilisé sache les gérer.

Des instructions sont donc incluses sous forme de flux binaires (streams) pour décrire la manière dont les caractères sont dessinés.

Les codes de ces caractères peuvent fournir une information. De plus chaque caractère porte un nom.

Problèmes recontrés

Les codes utilisés et mêmes les noms ne permettent pas d'établir une correspondance. Les caractères qu'ils représentent varient d'un document à l'autre.

La seule solution semble donc d'extraire le dessin de ces caractères sous forme d'une image pour tenter une reconnaissance optique.

Mais les outils testés ne permettent même pas de dessiner ces caractères (PDFBox, JPedal, Xpdf, PDFtoHTML).

Seuls les visualiseurs Acrobat Reader, GPDF ou d'autres outils payant les affichent correctement.

Solution envisagée

GPDF est un produit open-source qui utilise la librairie T1Lib elle aussi open-source.

Il devrait donc être possible d'extraire le dessin de ces caractères, affaire à suivre ...

Solution retenue

La dernière version (version 2.8) du visualiseur de JPedal parvient à afficher correctement les polices incorporées.
C'est un produit commercial qui s'appuie sur une librairie open-source.
Changed:
<
<
>
>
La librairie de JPedal est donc utilisée pour obtenir le dessin des caractères qui sont comparés graphiquement avec un jeu de symboles graphiques qui est différent pour chaque éditeur.
 
META FILEATTACHMENT attr="" comment="" date="1149176116" name="U0370-1.pdf" path="U0370-1.pdf" size="30867" user="ChristianBonnin" version="1.1"
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback