Tags:
create new tag
, view all tags
-- ChristianBonnin - 06 Sep 2007

Lignes de commande des différents programmes

Arguments de la machine Java

Mémoire

Les programmes doivent être lancés avec l'argument -Xmx512m.
Cette mémoire est surtout utilisée pour lire et charger en mémoire le contenu du document PDF.

Archives Java

Les archives Java utilisées forment le CLASSPATH suivant :

jsamp-1.0.jar:Aclient.jar:weka.jar:bcprov-jdk14-132.jar:bcmail-jdk14-132.jar:wsdl4j-1.5.1.jar:saaj.jar:commons-discovery-0.2.jar:commons-logging-1.0.4.jar:axis.jar:jaxrpc.jar:WS.jar:jpedalSTD.jar:FontBox-0.1.0.jar:PDFBox-0.7.3.jar:objectname.jar:simbadned.jar

DJIN : l'interface graphique

Module cds.ObjectName.Ihm.Menu
Syntaxe :
java cds.ObjectName.Ihm.Menu [OPTIONS] [file]
ou le script objname.sh

Options possibles :

  • -config file : Fichier XML de configuration
  • -training : Enregistrement de données d'apprentissage :
Lorsque cette option est mise, l'utilisateur se voit proposer d'enregistrer les informations concernant les noms d'objet qu'il a validés et ceux qu'il a supprimés dans un fichier d'apprentissage pour le module Weka au moment d'ajouter tous les noms d'objet de l'arborescence dans la liste des identificateurs. Ce qui permettra de tenir compte de ces informations pour décider si les noms d'objet doivent être ou non rejetés.

  • -dico : lorsque cette option est présente, DJIN recrée une liste d'expressions régulières à partir du dictionnaire de nomenclature et des noms en "NAME..." donnés par SIMBAD, puis quitte aussitôt (ce mode est utilisé pour la mise en place d'une nouvelle version).

  • -dicoUrl string: Même comportement que pour -dico mais contient une URL pour télécharger les fichiers main et amas, les informations NED sont également analysées et le programme ne quitte pas après l'analyse (utilisé par Marianne Brouty pour vérifier les modifications effectuées sur le dictionnaire)

  • -edit string : Editeur du document (ex : AA, ApJ, MNRAS, ...)
  • -volume number : Numéro de volume
  • file : Document PDF à ouvrir
ou bien :
  • -bib bibcode : Code bibliographique du document à ouvrir (l'éditeur et le numéro de volume sont alors déduits du bibcode)
  • -list listfile : Validation d'une liste de bibcodes (si l'option -bib est aussi présente, la validation commence au bibcode donné)

Programmes YesNo et Simref (détection de noms d'objet dans les titres)

Outils en ligne de commande

Validation de listes d'articles

java cds.ObjectName.Recognition.Robot [OPTIONS] -list file [ rép destination ]
ou le script parfileReader.sh

Cet outil permet de valider de longues listes d'articles. Ces listes sont dans un fichier avec des lignes au format suivant :

BIBCODE;URL
où l'url permet de télécharger le fichier correspondant au bibcode. L'url peut commencer par file:/// si le fichier se trouve en local.
Lorsque l'url est absente le programme tente de la retrouver à partir du bibcode et du paramètre 'urldownload'
Une liste de bibcode peut être facilement obtenue en lançant le script SIMBAD suivant :

exemple pour A&A 454

format ref bib "%REFLIST(%B;\n)"
query bibcode wildcard 2006A&A...454*

Lorsqu'un répertoire de destination est précisé, le programme génère des fichiers de commandes de mise à jour de SIMBAD.
Ces fichiers ont pour nom le bibcode et l'extension ".sim".

A chaque nom d'objet trouvé dans un document correspond une ligne dans le fichier objnames.csv au format suivant :
BibCode;Name;Result;Version;Main id;Exists
La colonne Result contient OK, False ou NotFound selon que le nom devait bien être trouvé, est un faux positifs ou n'a pas été trouvé.
La colonne Version contient le numéro de version du programme.
La colonne Exists contient 1 ou 0 selon que l'objet existe ou non.
L'ancien fichier objnames.csv est systématiquement sauvegardé.

Options possibles :

  • -list : bibcode list file
  • -config file : Fichier XML de configuration
  • -edit string : Editeur du document (ex : AA, ApJ, MNRAS, ...)
  • -volume number : Numéro de volume

Lecture de fichiers parfile

Ces fichiers contiennent pour chaque article le bibcode, le titre, le résumé, les mots-clefs. Le programme lit tous les fichiers contenus dans un répertoire et génère des fichiers de commandes de mise à jour de SIMBAD.

Syntaxe :
java cds.ObjectName.Recognition.Robot [OPTIONS] -abstractDir rép source [ rép destination ] ou le script parfileReader.sh

Le répertoire source contient tous les fichiers parfile et les fichiers de mise à jour sont générés dans le répertoire destination avec le même nom que les fichiers source et l'extension ".sim".

L'option "-title" écrit les titres des documents traités dans trois types de listes de titres en HTML :

  • une pour les titres où des noms d'objet déjà présents sur la référence ont été détectés (finit par ".1.html", les noms sont signalés en vert)
  • une où aucun nom n'a été détecté (finit par ".0.html")
  • une pour les titres où des noms d'objet ont été détectés (finit par ".html", les noms sont signalés en rouge)

Ces fichiers peuvent être ensuite traités par le programme YesNo

Génération de fichiers parfile

Génération d'un fichier parfile contenant les bibcodes et titres d'une liste d'article en faisant une requête à SIMBAD.

java cds.ObjectName.File.TitleToFile [OPTIONS]

Options possibles :

  • -edit The document's editor (ex : A&A, ApJ, MNRAS, ...)
  • -year [..end] Year(s)
  • -config XML configuration file
  • -abstractDir Directory where the parfile will be generated

Le fichier généré peut ensuite être traité par le programme précédent.

Détection de noms d'objet dans les notes de SIMBAD

Le but est de repérer dans les notes de SIMBAD des noms d'objet non taggés.

Syntaxe :

java cds.ObjectName.File.NotesToHtml -start start year -end end year output dir
ou le script notesToHtml.sh

La première étape consiste à envoyer une requête à SIMBAD pour récupérer les contenu des notes (courtes, longues et internes).
L'argument -type peut être ajouté pour préciser le type de notes (S, L ou I).
L'argument -remove peut être ajouté pour indiquer un fichier d'expressions régulières de noms d'objet considérés comme du bruit
Le résultat est stocké dans un fichier texte dans le répertoire de sortie indiqué.
Si le fichier texte est déjà présent, la requête n'est pas relancée.
Les notes sont ensuite écrites dans un tableau HTML (extension .html) et les commandes de mise à jour de SIMBAD dans des fichiers d'extension .sim.

Les résultats peuvent être consultés ici.

Utilitaire de comparaison d'images

java cds.ObjectName.Extraction.GraphicSymbol image1  image2 [OPTIONS]

Cet outil permet de comparer les images de deux symboles graphiques en donnant le nombre de pixels qu'ils ont en commun.
Les images sont d'abord ramenées à la même taille et une image résultat de la superposition des deux symboles est créée.

Options possibles

  • image1 & image2 : Les deux images à comparer
  • -result file : Fichier image résultat de la superposition des deux symboles

Exemple de résultat :

First  picture dimension : 213x451 = 96063 pixels
Second picture dimension : 211x451 = 95161 pixels
Identical pixels within the first picture frame : 80946
Non black pixels out of the first picture frame : 0
Percentage of different pixels : 18
zeta_xi19.png
Topic revision: r13 - 2009-11-23 - ChristianBonnin
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback