Tags:
create new tag
, view all tags
-- ChristianBonnin - 01 Jun 2006

Programmes réalisés

Outil d'extraction de texte

Programme en java permettant d'extraire le texte d'un document en PDF.
Un fichier de configuration permet de paramétrer très finement cette extraction (taille des polices, position du texte, caractères spéciaux).
Ces paramètres sont personnalisables pour chaque éditeur et en fonction du numéro de volume.

Mise en valeur des noms d'objet dans un document

Programme en java permettant de mettre en valeur dans un document PDF des groupes de mots en fonction :
  • d'une expression régulière unique
  • d'un fichier d'expressions régulières (problème de performance)
  • des mots trouvés par le programme AstroFinder (expressions régulières simplifiées dans un arbre)
Un type de paragraphe est également attribué à chaque ligne de texte (titre, résumé, mot-clef, sous-titre, texte, tableau, légende, référence).

Création de la liste des expressions régulières à chercher

Programme en java parcourant les fichiers main et amas des formats de noms d'objet pour en déduire un fichier d'expressions régulières.
A cette occasion, de nombreuses ambigüités et erreurs ont été corrigées dans le fichier main.
Le programme permet de parcourir les fichiers main et amas et d'en déduire le fichier des expressions régulières en signalants les erreurs.
Les noms d'objet en NAME... issus de Simbad sont également inclus.

Interface graphique

L'interface graphique (en Java, Swing) permet d'ouvrir un document PDF (ou HTML) depuis un fichier ou une adresse internet (URL) ou simplement son bibcode.
Le texte du document est alors extrait et affiché.
Les noms d'objet y sont recherchés et regroupés dans une arborescence en fonction de leur position (Titre, résumé, texte, ...). Ils apparaissent en couleur dans le texte extrait. (La couleur dépend de leur existence dans SIMBAD, de leur présence sur la référence, du respect de leur format par rapport au dictionnaire.
Le document PDF annoté peut être visualisé en utilisant Acrobat Reader ou enregistré dans un fichier.
Les documents HTML annotés peuvent être visualisés avec un navigateur.

Enregistrement des références dans Simbad

Le programme permet de déduire une liste d'identificateurs à partir de la liste des noms d'objets, puis de générer un fichier de commandes à exécuter dans une console Simbad. Ce fichier peut contenir en plus des noms des objets, les raw id, les types de positions et les nombres d'occurences.

Déploiement

Le programme est utilisé de manière systématique par les documentalistes depuis janvier 2008.

Tests et Validation

Des tests unitaires sont automatiquement réalisés à chaque nouvelle version.
Ils couvrent la génération des expressions régulières depuis le dictionnaire de nomenclature. l'extraction de texte depuis un document PDF ou HTML, la recherche de noms d'objet avec leur position,
Le programme permet de retraiter des listes d'anciens documents afin de comparer automatiquement les noms trouvés avec ceux trouvés par les documentalistes.
Une liste de validation contenant une douzaine d'articles est systématiquement testée.
Topic revision: r9 - 2009-03-30 - ChristianBonnin
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback