CR de la réunion Grand catalogue

Participants: G.Landais, T.Boch, P.Ocvirk, F-X.Pineau, S.Derrière, A.Siebert, E.Perret, P.Vannier, M.Brouty

Ordre du jour:

Rappel sur le pipeline et particularités du pipeline grand catalogue
Comment améliorer le pipeline et comment faire circuler l'information dans VizieR
Evolutions techniques ou organisationnelles possible

Pipeline grand catalogue

Note: le schéma est incomplet:il manque la génération du catalogue progressif (HiPS) et du MOC

Note: Il a été rappelé que les grands catalogues VizieR ne peuvent etre considérés comme des miroirs et ne sont pas tenus à la préservation. Ceci sera stipulé dans la demande DSA.

Amélioration du pipeline

Les intervenants dans le pipeline grand catalogue sont plus nombreux:

Contact avec les centres producteurs (ESO,..): T.Boch, A.Siebert, P.Ocvirk
Astronomes: Pierre, Arnaud, Sebastien
Création des binaires: FX, Thomas
Intégration TAPVizieR et sync. miroirs: Gilles
Documentalistes: Patricia, Emmanuelle

Bilan général positif. Cependant, le passage d'information n'est pas optimal.

Quelques questions ont été soulevées

comment traiter les catalogues de grosses volumétries issus de A&A que nous sommes tenus de mettre en ligne en même temps que la parution de l'article?
Note (Patricia) : il ne s'agit pas d'une obligation de A&A, mais l'article en ligne génère des liens pointant vers les données CDS et il faut éviter les liens morts.
Il s'agit aussi de cas rare!
Il a été soulevé que les conditions de mises en ligne dans la précipitation (3 jours) ne sont pas souhaitable pour le CDS.
Pas de réponses aujourd'hui. A voir avec Mark.
la pertinence de proposer les grands catalogues dans un format texte dans leur globalité a été soulevée.
Cela pourrait être une réponse à la demande fréquente d'utilisateurs voulant récupérer un catalogue en entier.
Pas de décisions prises pour ce point.
la gestion des grands catalogue dans les miroirs n'est pas satisfaisante. Nous avons vu lors de la redirection vers le CfA des dysfonctionnements rendant une utilisation très limitée de VizieR.
La cause vient du miroir qui ne connait que ces grands catalogues (et tous ne sont pas dupliqués) + ceux du CDS. Il reste dans le noir si le catalogue n'est pas joignable au CDS et s'il est absent du miroir.
Une possibilite serait (Thomas) d'ajouter en base de données la liste des miroirs où sont installés les grands catalogues. L'information intéresse Sebastien dans le cadre du registry. (TODO)
Cependant, si l'opération est intéressante elle ne règle pas entièrement le problème.
faut il continuer à créer des scripts dédiés aux grands catalogues (package cdsclient dans le devcorner)?
aujourd'hui ce travail n'est plus fait au profit d'un script générique: son utilisation est cependant difficile. L'idée serait de revoir ce script générique !
Ce serait bien d'avoir des scripts pour les catalogues les plus importants (Gaia, SDSS, etc)
La conservation des données originales des grands catalogues n'est pas assurée aujourd'hui. Elles ne sont pas stockées dans un espace leur étant propre.
Nous n'avons pas trouvé d'urgence à le faire.
l'importance des filtres photométriques pour les grands catalogues.
Bien souvent la photometrie est recalculée dans les données d'origine du catalogue dans un système connu (Pierre). C'est celui-ci qui est pris en compte.
L'utilisation de la photometrie VizieR ne changera pas beaucoup selon que l'on assigne le système réel ou un système proche (Arnaud)! Le procédé actuel répond bien à son utilisation.
le service de crossmatch demande d'avoir une idée sur la précision des positions sur l'ensemble du catalogue.
C'est une information qui est généralement existante dans la documentation du catalogue d'origine (Arnaud) ou que l'on pourrait récupérer.
Cette information pourrait elle etre ajoutée dans VizieR? Si c'était une métadonnée accessible depuis la base (table META*), ça permettrait des traitement automatiques (Thomas)
--> aujourd'hui, l'information lorsqu'elle est connue est normalement ajoutée par les documentalistes dans la section "Description" du fichier "ReadMe".
la génération de l'index basé sur les qbox est faite par les informaticiens mais est disponible aussi aux documentalistes:
ex: catClient.py -source WISE_PRELIM -whole -col=RAdeg,DEdeg --dir=mirror |qboxes - > qboxes
Note (sebastien) : les qboxes sont ils toujours d'actualité compte tenu de l'utilisation HEALPix et moc?
réponse oui! Mais cela devrait disparaitre dans la verion VizieR2 au profit de HEALPix ou moc.

Homogénéisation des colonnes VizieR

Les UCD sont parfois donnés par les auteurs: ils pourraient être transmis aux documentalistes.
FX va faire un script pour aider à générer les UCD1+ dans le fichier .Summary
Il est aussi rappellé que les UCD1 sont facultatifs dans l'ingestion VizieR (à l'exception des positions principales) - les UCD1+ suffisent.
les noms de colonnes.
On peut avoir aujourd'hui 3 noms de colonnes:
- les noms VizieR
- les noms de colonnes originales
- les noms utilisés par QueryCat et le crossmatch

Il a été demandé d'homogénéiser les noms de colonnes dans QueryCat/crossmatch avec soit les noms VizieR , soit les noms originaux. Le Choix est encore à déterminer.
Si le choix se porte sur les noms VizieR, il faudrait améliorer le pipeline de génération des fichiers binaires (.rcf). La génération des fichiers rcf construit un byte-by-byte temporaire qui pourrait être soumis aux documentalistes pour y assigner les noms des colonnes VizieR. Ce fichier serait ensuite utilisé pour générer le fichier rcf et le byte-by-bytes final.

Optimisation du passage d'information.

La proposition d'utiliser redmine pour le suivi des grands catalogues est acceptée. Il reste à en voir les détails (définition des statuts correspondant aux différentes étapes d'ingestion).
le tableau de suivi d'ingestion des grands catalogues reste d'actualité : il devrait cependant être simplifié pour ne conserver qu'une
une demande de suivi "grand catalogue" ?
Bien que la fréquence d'ingestion de grands catalogue soit indépendante de notre volonté. On pourrait envisager une réunion tous les 6 mois.

La modification du contenu

Compte tenu que le service de grand catalogue n'est pas considéré comme un miroir des données originales, nous ne sommes pas tenus par les mêmes exigences de préservation

Une question générale: ou se situe la frontière VizieR entre curation et préservation ? Peut on faire les 2 ?
(Gilles) C'est possible dans la mesure ou l'on distingue l'affichage du stockage, mais la solution n'est pas optimale aujourd'hui.

Aujourd'hui, les données originales sont parfois modifiées :

sur la précision des données (arrondi)
sur les valeurs nulles:
ex SDSS: pour des magnitude: valeur=-9999 et valeur>4000 n'ont pas la même signification mais sont mis en NULL dans VizieR.

Il a été proposé de remonter le signalement de transformation aux utilisateurs.
Les transformation sont "normalement" indiquées dans le ReadMe dans la section "History". Mais ce n'est pas systématique!

Note pour la gestion des transformations pour les données issues des articles :
les données originales sont conservées (non public), elles permettent une éventuelle reconstruction. Les fichiers standardisés gardent la précision d'origine (exception faite des données issues des FITS).
Cependant, la précision des données peut changer (opéré par les documentalistes, validé par les astronomes) lors de son ingestion dans la base de données VizieR. Aujourd'hui, c'est la précision assignée par le CDS qui est retournée par les pages Web, VOTable et sorties TAP.
Dans le futur VizieR2, la base de données devra conserver la précision d'origine et proposer la "curation" VizieR.

Une homogénéisation des méthodes (grands catalogues, données des articles) serait bienvenue pour remonter aux utilisateur les informations de transformation.
Aucune décision n'a été prise quant à celle-ci (on en reste aujourd'hui à la section History du ReadMe).

Une proposition pour les grands catalogue est de conserver les valeur originales dans le fichier binaire du CDS. Le pages web VizieR quant à elles pourraient modifier la sortie. Mais dans ce cas, la sortie VOTable retournera les valeurs d'origine: est ce souhaitable ? Aucune décision n'a été prise sur le sujet.

Création d'un guideline pour les grands catalogue (FX)

Afin d'homogénéiser les méthodes pour la création de grand catalogues :

choix des colonnes
opération de curation sur les colonnes
.. ?

par exemple le catalogue VVV n'a pas été construit avec les mêmes règles entre la DR1, DR2.
(Pierre) Cela n'a rien de choquant, les catalogues VizieR sont aussi du sur-mesure.

A-t-on le droit de modifier (voir exemple des valeurs nulles plus haut) des données?
Exemple : a-t-on le droit de le faire pour l'ESO? Y a t'il eu un accord avec l'ESO? A voir avec Mark.

(Thomas : il me semble que le deal avec l'ESO était de rentrer les catalogues phase 3 tels que, avec un minimum de modifications, la curation ayant a priori été faite par l'ESO).

Il n'y a pas eu de suite à la demande de guideline..l'idée reste cependant d'actualité...