Tags:
create new tag
, view all tags
-- ChristianBonnin - 20 Sep 2007

Paramétrage d'un nouveau type de document

Les paramètres d'extraction sont variables d'un journal à l'autre, en particulier les tailles des caractères et les dimensions d'une page.

La première chose à faire est d'ajouter un journal dans la fenêtre de configuration (menu Configuration, commande Parameters).
Cliquer sur la 1ère ligne de l'arborescence des configurations.
Dans la zone Journal, saisir le nom du journal (les zones début et fin permettent d'entrer un numéro de volume de début et de fin au cas où les paramètres dépendraient aussi du numéro de volume).
Cliquer sur Add dans le cadre Configuration.
Le nouveau nom de journal apparaît dans l'arborescence. Cliquer dessus puis sur la ligne de configuration.

Les paramètres ont alors tous une valeur par défaut. Pour modifier cette valeur, il faut cliquer sur le paramètre, entrer la valeur dans la zone Value et cliquer sur Modify.

Les paramètres pagefooter et pageheader requièrent une coordonnée en pixel. Les paramètres normalheight, subtitleheight, titleheight requièrent une hauteur de police en pixel.
Pour connaître les valeurs à saisir le paramètre show_height commande l'insertion dans un document existant d'annotations qui renseignent sur les coordonnées et hauteurs des groupes de caractères.

Cliquer sur le paramètre show_height et mettre sa valeur à true.
Enregistrer la configuration avec le bouton Save.
Choisir le nouveau journal dans la liste déroulante des journaux, ouvrir un document et le visualiser dans Acrobat Reader.

Dans l'exemple suivant, on voit les coordonnées des caractères de l'entête de page qui ne devra pas être extrait et celles d'un groupe de caractères du texte à extraire.
On voit également la hauteur des caractères du texte.
Les valeurs des paramètres pageheader, et normalheight seront par exemple respectivement : 75.0 et 9.0

Cette méthode permet de déterminer la valeur des paramètres pageheader, pagefooter, normalheight, subtitleheight (c'est souvent la même) et titleheight.

  • Document annoté:
    show_height.jpg


Le paramètre showothersymbol doit être mis à true si des caractères ~ apparaissent à la place du texte extrait, ce qui est le cas lorsque tous les caractères utilisent une police incorporée au document et décrite graphiquement.

Penser à remettre le paramètre show_height à false lorsque toutes les valeurs sont configurées.

Topic revision: r5 - 2008-04-23 - ChristianBonnin
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback