--
ChristianBonnin - 01 Jun 2006
Programmes réalisés
Outil d'extraction de texte
Programme en java permettant d'extraire le texte d'un document en PDF.
Un fichier de configuration permet de paramétrer très finement cette extraction (taille des polices, position du texte, caractères spéciaux).
Ces paramètres sont personnalisables pour chaque éditeur et en fonction du numéro de volume.
Mise en valeur des noms d'objet dans un document
Programme en java permettant de mettre en valeur dans un document PDF des groupes de mots en fonction :
- d'une expression régulière unique
- d'un fichier d'expressions régulières (problème de performance)
- des mots trouvés par le programme AstroFinder (expressions régulières simplifiées dans un arbre)
Un type de paragraphe est également attribué à chaque ligne de texte (titre, résumé, mot-clef, sous-titre, texte, tableau, légende, référence).
Création de la liste des expressions régulières à chercher
Programme en java parcourant les fichiers
main
et
amas
des formats de noms d'objet pour en déduire un fichier d'expressions régulières.
A cette occasion, de nombreuses ambigüités et erreurs ont été corrigées dans le fichier
main
.
Le programme permet de parcourir les fichiers
main
et
amas
et d'en déduire le fichier des expressions régulières en signalants les erreurs.
Les noms d'objet en
NAME...
issus de
Simbad sont également inclus.
Interface graphique
L'interface graphique (en Java, Swing) permet d'ouvrir un document PDF (ou HTML) depuis un fichier ou une adresse internet (URL) ou simplement son bibcode.
Le texte du document est alors extrait et affiché.
Les noms d'objet y sont recherchés et regroupés dans une arborescence en fonction de leur position (Titre, résumé, texte, ...). Ils apparaissent en couleur dans le texte extrait. (La couleur dépend de leur existence dans SIMBAD, de leur présence sur la référence, du respect de leur format par rapport au dictionnaire.
Le document PDF annoté peut être visualisé en utilisant Acrobat Reader ou enregistré dans un fichier.
Les documents HTML annotés peuvent être visualisés avec un navigateur.
Enregistrement des références dans Simbad
Le programme permet de déduire une liste d'identificateurs à partir de la liste des noms d'objets, puis de générer un fichier de commandes à exécuter dans une console
Simbad.
Ce fichier peut contenir en plus des noms des objets, les raw id, les types de positions et les nombres d'occurences.
Déploiement
Le programme est utilisé de manière systématique par les documentalistes depuis janvier 2008.
Tests et Validation
Des tests unitaires sont automatiquement réalisés à chaque nouvelle version.
Ils couvrent la génération des expressions régulières depuis le dictionnaire de nomenclature. l'extraction de texte depuis un document PDF ou HTML, la recherche de noms d'objet avec leur position,
Le programme permet de retraiter des listes d'anciens documents afin de comparer automatiquement les noms trouvés avec ceux trouvés par les documentalistes.
Une liste de validation contenant une douzaine d'articles est systématiquement testée.