--
ChristianBonnin - 06 Sep 2007
Lignes de commande des différents programmes
Arguments de la machine Java
Mémoire
Les programmes doivent être lancés avec l'argument -Xmx512m.
Cette mémoire est surtout utilisée pour lire et charger en mémoire le contenu du document PDF.
Archives Java
Les archives Java utilisées forment le
CLASSPATH
suivant :
jsamp-1.0.jar:Aclient.jar:weka.jar:bcprov-jdk14-132.jar:bcmail-jdk14-132.jar:wsdl4j-1.5.1.jar:saaj.jar:commons-discovery-0.2.jar:commons-logging-1.0.4.jar:axis.jar:jaxrpc.jar:WS.jar:jpedalSTD.jar:FontBox-0.1.0.jar:PDFBox-0.7.3.jar:objectname.jar:simbadned.jar
DJIN : l'interface graphique
Module
cds.ObjectName.Ihm.Menu
Syntaxe :
java cds.ObjectName.Ihm.Menu [OPTIONS] [file]
ou le script
objname.sh
Options possibles :
- -config file : Fichier XML de configuration
- -training : Enregistrement de données d'apprentissage :
Lorsque cette option est mise, l'utilisateur se voit proposer d'enregistrer les informations concernant les noms d'objet qu'il a validés et ceux qu'il a supprimés dans un fichier d'apprentissage pour le module Weka au moment d'ajouter tous les noms d'objet de l'arborescence dans la liste des identificateurs. Ce qui permettra de tenir compte de ces informations pour décider si les noms d'objet doivent être ou non rejetés.
- -dico : lorsque cette option est présente, DJIN recrée une liste d'expressions régulières à partir du dictionnaire de nomenclature et des noms en "NAME..." donnés par SIMBAD, puis quitte aussitôt (ce mode est utilisé pour la mise en place d'une nouvelle version).
- -dicoUrl string: Même comportement que pour -dico mais contient une URL pour télécharger les fichiers
main
et amas
, les informations NED sont également analysées et le programme ne quitte pas après l'analyse (utilisé par Marianne Brouty pour vérifier les modifications effectuées sur le dictionnaire)
- -edit string : Editeur du document (ex : AA, ApJ, MNRAS, ...)
- -volume number : Numéro de volume
- file : Document PDF à ouvrir
ou bien :
- -bib bibcode : Code bibliographique du document à ouvrir (l'éditeur et le numéro de volume sont alors déduits du bibcode)
- -list listfile : Validation d'une liste de bibcodes (si l'option -bib est aussi présente, la validation commence au bibcode donné)
Programmes YesNo et Simref (détection de noms d'objet dans les titres)
Outils en ligne de commande
Validation de listes d'articles
java cds.ObjectName.Recognition.Robot [OPTIONS] -list file [ rép destination ]
ou le script
parfileReader.sh
Cet outil permet de valider de longues listes d'articles. Ces listes sont dans un fichier avec des lignes au format suivant :
BIBCODE;URL
où l'url permet de télécharger le fichier correspondant au bibcode. L'url peut commencer par
file:///
si le fichier se trouve en local.
Lorsque l'url est absente le programme tente de la retrouver à partir du bibcode et du paramètre 'urldownload'
Une liste de bibcode peut être facilement obtenue en lançant le script
SIMBAD suivant :
exemple pour A&A 454
format ref bib "%REFLIST(%B;\n)"
query bibcode wildcard 2006A&A...454*
Lorsqu'un répertoire de destination est précisé, le programme génère des fichiers de commandes de mise à jour de
SIMBAD.
Ces fichiers ont pour nom le bibcode et l'extension ".sim".
A chaque nom d'objet trouvé dans un document correspond une ligne dans le fichier
objnames.csv
au format suivant :
BibCode;Name;Result;Version;Main id;Exists
La colonne Result contient OK, False ou NotFound selon que le nom devait bien être trouvé, est un faux positifs ou n'a pas été trouvé.
La colonne Version contient le numéro de version du programme.
La colonne Exists contient 1 ou 0 selon que l'objet existe ou non.
L'ancien fichier
objnames.csv
est systématiquement sauvegardé.
Options possibles :
- -list : bibcode list file
- -config file : Fichier XML de configuration
- -edit string : Editeur du document (ex : AA, ApJ, MNRAS, ...)
- -volume number : Numéro de volume
Lecture de fichiers parfile
Ces fichiers contiennent pour chaque article le bibcode, le titre, le résumé, les mots-clefs.
Le programme lit tous les fichiers contenus dans un répertoire et génère des fichiers de commandes de mise à jour de
SIMBAD.
Syntaxe :
java cds.ObjectName.Recognition.Robot [OPTIONS] -abstractDir
rép source [
rép destination ]
ou le script
parfileReader.sh
Le répertoire source contient tous les fichiers parfile et les fichiers de mise à jour sont générés dans le répertoire destination avec le même nom que les fichiers source et l'extension ".sim".
L'option "-title" écrit les titres des documents traités dans trois types de listes de titres en HTML :
- une pour les titres où des noms d'objet déjà présents sur la référence ont été détectés (finit par ".1.html", les noms sont signalés en vert)
- une où aucun nom n'a été détecté (finit par ".0.html")
- une pour les titres où des noms d'objet ont été détectés (finit par ".html", les noms sont signalés en rouge)
Ces fichiers peuvent être ensuite traités par le programme
YesNo
Génération de fichiers parfile
Génération d'un fichier parfile contenant les bibcodes et titres d'une liste d'article en faisant une requête à
SIMBAD.
java cds.ObjectName.File.TitleToFile [OPTIONS]
Options possibles :
- -edit The document's editor (ex : A&A, ApJ, MNRAS, ...)
- -year [..end] Year(s)
- -config XML configuration file
- -abstractDir
Le fichier généré peut ensuite être traité par le programme précédent.
Détection de noms d'objet dans les notes de SIMBAD
Le but est de repérer dans les notes de
SIMBAD des noms d'objet non taggés.
Syntaxe :
java cds.ObjectName.File.NotesToHtml -start start year -end end year output dir
ou le script
notesToHtml.sh
La première étape consiste à envoyer une requête à
SIMBAD pour récupérer les contenu des notes (courtes, longues et internes).
L'argument
-type
peut être ajouté pour préciser le type de notes (S, L ou I).
L'argument
-remove
peut être ajouté pour indiquer un fichier d'expressions régulières de noms d'objet considérés comme du bruit
Le résultat est stocké dans un fichier texte dans le répertoire de sortie indiqué.
Si le fichier texte est déjà présent,
la requête n'est pas relancée.
Les notes sont ensuite écrites dans un tableau HTML (extension .html) et les commandes de mise à jour de
SIMBAD dans des fichiers d'extension .sim.
Les résultats peuvent être consultés
ici.
Utilitaire de comparaison d'images
java cds.ObjectName.Extraction.GraphicSymbol image1 image2 [OPTIONS]
Cet outil permet de comparer les images de deux symboles graphiques en donnant le nombre de pixels qu'ils ont en commun.
Les images sont d'abord ramenées à la même taille et une image résultat de la superposition des deux symboles est créée.
Options possibles
- image1 & image2 : Les deux images à comparer
- -result file : Fichier image résultat de la superposition des deux symboles
Exemple de résultat :
First picture dimension : 213x451 = 96063 pixels
Second picture dimension : 211x451 = 95161 pixels
Identical pixels within the first picture frame : 80946
Non black pixels out of the first picture frame : 0
Percentage of different pixels : 18