--
ChristianBonnin - 20 Sep 2007
Paramétrage d'un nouveau type de document
Les paramètres d'extraction sont variables d'un journal à l'autre, en particulier les tailles des caractères et les dimensions d'une page.
La première chose à faire est d'ajouter un journal dans la fenêtre de configuration (menu
Configuration, commande
Parameters).
Cliquer sur la 1ère ligne de l'arborescence des configurations.
Dans la zone
Journal, saisir le nom du journal (les zones début et fin permettent d'entrer un numéro de volume de début et de fin au cas où les paramètres dépendraient aussi du numéro de volume).
Cliquer sur
Add dans le cadre Configuration.
Le nouveau nom de journal apparaît dans l'arborescence. Cliquer dessus puis sur la ligne de configuration.
Les paramètres ont alors tous une valeur par défaut. Pour modifier cette valeur, il faut cliquer sur le paramètre, entrer la valeur dans la zone
Value et cliquer sur
Modify.
Les paramètres
pagefooter
et
pageheader
requièrent une coordonnée en pixel. Les paramètres
normalheight
,
subtitleheight
,
titleheight
requièrent une hauteur de police en pixel.
Pour connaître les valeurs à saisir le paramètre
show_height
commande l'insertion dans un document existant d'annotations qui renseignent sur les coordonnées et hauteurs des groupes de caractères.
Cliquer sur le paramètre
show_height
et mettre sa valeur à
true
.
Enregistrer la configuration avec le bouton
Save.
Choisir le nouveau journal dans la liste déroulante des journaux, ouvrir un document et le visualiser dans Acrobat Reader.
Dans l'exemple suivant, on voit les coordonnées des caractères de l'entête de page qui ne devra pas être extrait et celles d'un groupe de caractères du texte à extraire.
On voit également la hauteur des caractères du texte.
Les valeurs des paramètres
pageheader
, et
normalheight
seront par exemple respectivement : 75.0 et 9.0
Cette méthode permet de déterminer la valeur des paramètres
pageheader
,
pagefooter
,
normalheight
,
subtitleheight
(c'est souvent la même) et
titleheight
.
- Document annoté:
Le paramètre
showothersymbol
doit être mis à
true
si des caractères ~ apparaissent à la place du texte extrait, ce qui est le cas lorsque tous les caractères utilisent une police incorporée au document et décrite graphiquement.
Penser à remettre le paramètre
show_height
à
false
lorsque toutes les valeurs sont configurées.