Difference: ReuFind ( vs. 1)

Revision 12018-12-10 - EmmanuellePerret

 
META TOPICPARENT name="WebHome"

Réunion du 10 décembre 2018 : les programmes find*

O.J. : Les programmes find*
- Les types de sortie, types d'interrogation par liste, volumétrie des listes, etc.
- Note: le programme de recherche findsdss-sp est un peu différent - à voir dans un 2e temps, mais on pourra aussi l'évoquer.

Présents : Marianne B., Catherine B., Mihaela B. Gilles L., Emmanuelle P., Fabienne W.

Rappel de l'utilisation des programmes find par Gilles :

find_ (+tab) : affiche la liste de tous les programmes find disponibles (tous les derniers grands catalogues).

find_sdss_dr12.py -h : help sur la commande où on peut voir les différentes options existantes.

Notamment :

-a : affiche toutes les colonnes
-r : spécifie un rayon de recherche
-format : permet de choisir une sortie tsv (tab separated values) par exemple.

En-dessous des options, la liste des colonnes indexées dans le catalogue et qui permettent d'ajouter des contraintes à la recherche. Par exemple pour SDSS DR12, on peut rechercher par objid, sp-id, et ajouter des contraintes sur les mag, etc.

Normalement, on devrait pouvoir spécifier une recherche pour une magnitude < 10.
=> Gilles doit vérifier la syntaxe et voir s'il est possible de faire une contrainte du type 10<mag<12.

A ajouter pour que le programme soit utilisable par les documentalistes :

=> Une interrogation via une liste d'objets. La liste d'objets est un fichier comprenant :

  • soit 1 position sexa ou en degrés par ligne;
  • soit 1 objid par ligne;
  • soit 1 JName par ligne (= colonne "SDSS9" pour la version SDSS 9 par exemple).
=> La distance entre l'objet trouvé et la position demandée pour une recherche par coo.

N.B. : La distance est indiquée lorsqu'on utilise l'option -a mais pas quand le résultat affiche les colonnes par défaut -- qui sont celles choisies par défaut dans le catalogue VizieR.

=> Une option qui permette un tri sur cette distance. (Option "-sr" du findsdss) -- Attention, cela ralentit forcément le résultat.

=> Le nombre de résultats obtenus dans le rayon de recherche ("0 match", "1 match", "2 matches", etc.)

On note que dans la sortie actuelle, la requête d'entrée est bien répétée donc ok.
Cf. lignes #-c= (ou encore, par exemple : #INFO -c=348.277890+21.971980,rs=2) pour une recherche par position.

En terme de sortie : le format ASCII aligné ou TSV est très bien.

Exemples de commandes pour l'ancien programme ici : http://cloud-wiki.u-strasbg.fr/twiki/bin/view/Ressources/TipsProg#FindSdss

Le -no-format (format d'origine des tables) est a priori plutôt mieux pour avoir les données d'origine mais petit bémol, lorsque l'équipe VizieR "tronque" les données (par exemple, ne conserve que 4 décimales au lieu de 11), c'est souvent qu'il y a une raison...

Le script fonctionnera bien jusqu'à ~10,000 objets dans une liste.
Donc c'est suffisant pour l'équipe COSIM (attention: ne pas appeler l'équipe COSIM, "cosimistes", c'est réducteur selon l'avis de Fabienne).
Par contre pour VizieR, on peut avoir des listes beaucoup plus importantes. Dans ce cas, il faudra faire autrement.

Pour l'équipe COSIM, il serait plus avantageux d'avoir un gsc4sim qui fonctionne par script (il y aurait déjà toutes les qualités, longueurs d'onde, etc. associées aux données que l'on souhaite avoir par catalogue).
=> Il faudrait revoir entièrement le script gsc4sim pour cela. A priori, il vaut mieux faire les modifications sur le find déjà...

Un autre programme : vizquery.py permet de faire beaucoup plus de chose mais son installation et utilisation sont peut-être plus compliquées.

Rappel pour l'installation du package python-cdsclient qui contient les différents scripts :

L'URL pour récupérer les scripts : http://cds.u-strasbg.fr/resources/doku.php?id=cdsclient
Copier le package dans son répertoire /bin et l'y extraire ( tar -xvzf ).

Ensuite, pour pouvoir utiliser ces programmes depuis n'importe où, en tappant simplement la commande find_sdss_dr12.py par exemple, il faut mettre à jour la variable d'environnement PATH dans son fichier .bashrc.
Par exemple, la ligne correspondante dans le .bashrc de Marianne :
# set PATH
export PATH=$PATH:${HOME}/bin:${HOME}/bin/python-cdsclient:${HOME}/.simbad:${PATH}:./

=> En cas de souci pour utiliser/installer les programmes find*, Gilles est prêt à venir voir sur nos machines directement ce qui coince.

Gilles crée rapidement un petit script query.sh qui permet de lire une liste et d'utiliser la commande find combinée avec un sed, par exemple... C'est beaucoup plus lent mais ça permet de se dépanner si besoin.

Exemple du query.sh :

#!/bin/sh
while read line
do
   echo $line
   find_gaia_dr2.py $line | sed "s/^/$line   /g"
done < liste

Concernant le findsdss-sp

Ce programme interroge une liste de plate-mjd-fiber (un par ligne) et fonctionne encore pour la DR12 (contrairement au findsdss classique).

Gilles repère que le programme interroge un fichier CSV par release dont le fichier FITS correspondant est disponible sur la page : http://www.sdss.org/dr14/spectro/spectro_access/ (par exemple pour la DR14 où le fichier serait specObj-dr14.fits).

=> Donc, finalement, la gestion des futures version du SDSS semble possible pour ce programme.

N.B. : les SDSS qui ont un spectre ne sont pas forcément tous dans VizieR où il y a uniquement les catalogues photométriques (on peut donc retrouver des plate-mjd-fiber via findsdss-sp et pas via le findsdss). En cours d'expertise par Ada et à voir pour la DR14...

N.B. 2 : Le sp-id pour la DR12 est indexé dans TAP (donc utilisable via requête ADQL: http://tapvizier.u-strasbg.fr/adql/) mais pas dans VizieR.

-- EmmanuellePerret - 2018-12-10

 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback