Tags:
create new tag
, view all tags

Réunion "Grands Catalogues" 14/05/2020

Présents (en visio): Thomas B., Marianne B., Gilles L., Giacomo M., Pierre O., Emmanuelle P., François-Xavier (F.X.) P., Patricia V.

OJ :

  • Identifiants/acronymes (cf. message Cécile suite à réunion Archi)
  • Gaia EDR3
  • Etat de l'art : TAP+mirroir
  • Suivi des grands catalogues : communication, avancement, planification
  • Gestion des colonnes de temps pour les grandes volumétries
  • Procédure grands cats utilisable par les documentalistes pour grands cats "simples" (comprendre ncol<=10), genre StarHorse ou https://iopscience.iop.org/article/10.3847/1538-3881/ab63d5#ajab63d5s3
    C'est envisageable? Utile? Désirable?
    Note: cette discussion est très liée aux démarches archi, est-ce quelque chose qui est envisagé?
  • SDSS DR 14 ?
  • Un mot des dév. en cours par F.X. ?
    • Nouvel index: plus rapide (à mesurer!), moins gourmand en mémoire, pas besoin de démon
    • Nouveau format de fichier (en cours): moins gourmand en mémoire, pas besoin de démon, compatible avec l'ancien, meilleurs support des métadonnées, support du "null" value, meilleur possibilité de conversion en d'autres format, support des tableaux, meilleur possibilité de compression, plus rapide (30 MB/s en monothread, >300MB/s en multi-thread), ...
  • Catalogues ESO :
    • VVV VIRAC PM DR4.1 statut ?
    • Autres grand cat ESO en cours (on fait, on fait pas?): VST ATLAS DR4, VPHAS+ DR3.2, VIKING DR4, VHS DR5, KIDS DR4

Thomas

Identifiants/acronymes (cf. message Cécile suite à réunion Archi)

Cécile voudrait qu'une colonne d'identificateurs créée à partir des formats définis par le Dictionnaire de Nomenclature soit prévue pour chaque grand catalogue ; au besoin via une colonne calculée par VizieR. Et qu'une règle correspondante soit systématiquement ajoutée dans Sesame.

Cette demande concerne les Grands Catalogues mais est-ce aussi une demande pour les autres catalogues ?
Dans le cas des "petits" catalogues, la colonne SIMBAD/SimbadName n'est-elle pas suffisante ? En particulier, la construction des noms "officiels" est souvent beaucoup plus compliquée que dans le cas des grands catalogues...
=> A voir avec des cas concrets.

Proposition : signaler les grands catalogues dès que possible à Marianne, pour le Dictionnaire de Nomenclature. Il semble plus simple que les vérifications soient faites côté Dictionnaire, qui pourrait ensuite transmettre la bonne combinaison acronyme+format à l'équipe Grands Catalogues. La plupart du temps, les solutions devraient être assez "simples", mais il y aura forcément des cas particuliers.

Exemple de cas particulier : Pan-STARRS DR1, où le catalogue ne contenait pas d'autre colonne d'identificateurs que l'ObjID alors que les auteurs avaient pré-enregistré l'acronyme et le format souhaité à l'IAU et l'avaient aussi explicitement exprimé dans la publication associée à la DR1, <PSO JDDD.dddd+DD.dddda> ; bonne nouvelle : la DR2 semble contenir une colonne avec ces identificateurs.

Question : unicité des acronymes -- un identificateur (=acronyme+format) donné renvoie-t-il toujours à un seul objet astronomique ?
=> En théorie, oui.
Il peut y avoir des problèmes avec des formats trop tronqués (c'est déjà arrivé par exemple avec le Hamburg-ESO Survey, où un identificateur <HE JHHMM+DDMM> peut correspondre à plusieurs sources). Dans un tel cas, pour l'instant, les problèmes sont résolus ultérieurement lorsqu'ils sont vus.

Dans le cas des grands catalogues, il est possible de faire un tri sur une colonne d'IDs pour vérifier combien sont uniques (cela prend un peu de temps mais ce n'est pas un problème). Par contre, s'il n'y a pas de colonne d'IDs, cela devient plus compliqué.

Remarques côté Dictionnaire :

  • tri sort/uniq : très utile s'il pouvait être fait systématiquement (dans le cas où une colonne est fournie), pour détecter les éventuels problèmes le plus tôt possible, sinon le Dictionnaire pourra indiquer par exemple si l'identificateur est basé sur une combinaison de colonnes (et lesquelles) ;
  • ajout post-réunion (Marianne) : d'autres vérifications complémentaires pourraient aussi être demandées dans certains cas, si c'est possible bien sûr (par exemple pour vérifier les différents formats d'une colonne de noms fournie par les auteurs, avec l'utilisation d'un occasionnel suffixe, difficile à "deviner" si la colonne est une chaîne de caractères).
Concernant Sésame, il n'y a actuellement pas de lien avec le Dictionnaire. Les règles d'expressions régulières sont définies au cas par cas. Donc à partir du moment où la règle est bien écrite et que l'objet existe dans SIMBAD, il n'y a pas de problème.

Plutôt que d'ajouter en dur une colonne calculée dans le catalogue, serait-il possible de la calculer au vol ?
=> Cela devrait être possible dans certains cas. A voir.

Marianne : il faudrait vérifier dans ces cas-là que le résultat affiché sera bien toujours le même (aucun changement au fil du temps, je pense notamment à des corrections sur une colonne utilisée dans le "calcul" du nom, mais il y a peut-être d'autres risques possibles). Un identificateur n'est qu'un nom, et ne doit (devrait !) jamais changer : par exemple, un identificateur basé sur la position ne devrait pas changer même si la position évolue au fil des versions d'un catalogue (on voit bien que ce n'est pas le cas en pratique, cf. le SDSS par exemple).

Gaia DR3

La release a été repoussée à la fin de l'année (Thomas nous préviendra lorsqu'il aura une date précise). Les données récupérées (choisies par Pierre, Arnaud...) seront celles issues des observations directement (pas de données de simulation).

Pour les colonnes de vecteurs (avec un nombre de mesures variables), il y aura un traitement particulier pour les extraire dans une nouvelle table.
=> A priori, cela permet de faire des requêtes avec contraintes sur ces mesures ce qui est intéressant pour les utilisateurs.

Gilles

Etat de l'art : TAP + mirroirs

Augmentation soudaine du nombre de grands catalogues => mirroirs (2 mirroirs disposent d'une copie des grands catalogues : Afrique du Sud et Inde) arrivés à saturation. 10To supplémentaires obtenus.

=> Il faudrait une vision générale de la volumétrie à venir pour pouvoir gérer à l'avance ce genre de problème.
=> Il faudrait aussi stabiliser TAP pour permettre de faire des requêtes plus complexes

Suivi et communication interne

De manière plus générale, il faudrait peut-être revoir notre procédure de communication interne pour que tout le monde puisse s'organiser à temps.

Pour rappel, actuellement, il y a :

  • le tableau de suivi des ingestions sur le TWiki : il permet d'avoir une vue d'ensemble pour ce qui est en cours, à venir, etc. (il n'y a pas d'info de volumétrie par contre) + doit être maintenu à jour au fur et à mesure...
  • Redmine : tout le monde peut y avoir accès -- permet de conserver, les différentes étapes, les décisions/modifications, les e-mails, des fichiers, de recevoir des notifications... Sert pour le traitement du catalogue à proprement parlé mais ne convient pas à tout le monde puisqu'il n'est pas toujours utilisé.
  • Un mail final est envoyé à l'équipe qui a traité le catalogue avec Gilles et F.X. en copie lorsque le catalogue a été validé par un astronome et est mis en production (si on n'oublie pas dans le feu de l'action).
  • Une réunion une fois par mois avec toute l'équipe (on vient de définir la périodicité de ces réunions).
=> Pour le suivi, Gilles doit être mis dans la boucle dès le début du traitement du catalogue (pas seulement à la fin) pour pouvoir gérer la mise du catalogue sur TAP.

=> F.X. a quelques idées. Il propose notamment d'utiliser Git. Pour l'instant, pas encore de concret.

Gestion des colonnes de temps pour les grandes volumétries

Pour l'instant, les colonnes de temps ne sont pas indexées. Peut-être devraient-elles l'être puisque les données temporelles deviennent de plus en plus importantes pour VizieR ?

Pierre

Cas récurrents de grands catalogues (>20 millions de lignes), full-sky, mais avec peu de colonnes...

Ces cas là seraient potentiellement simples à traiter, exceptés la volumétrie et l'impossibilité actuellement de les mettre en base (les catalogues full-sky ralentiraient les recherches par position dans VizieR).

=> Pour l'instant, il n'y a pas de procédure simplifiée et les documentalistes ne peuvent pas entrer ce genre de catalogues.
En même temps, dans le cas du catalogue de Coralie Regression for Gaia DR2, il y a une seule colonne en plus par rapport aux données Gaia et la priorité est très basse sur ce type de catalogue...

=> F.X. est en train de travailler sur une procédure simplifiée. A voir pour de prochaines discussions.

Giacomo

Où en est le SDSS DR14 ? Très grande priorité -- important pour le traitement des réf. SIMBAD

F.X. a eu une réponse, au tout début du confinement, des contacts pour le SDSS DR14+DR16 qui ont répondu qu'ils feraient quelque chose... Depuis, pas de nouvelle.

A noter, pour ces versions là, contrairement aux précédentes où une partie des tables pouvaient être reprises, il faudra récupérer toutes les tables "from scratch". Ceci est dû à un reprocess particulier pour ces versions par rapport aux précédentes.

=> Giacomo (voir Cécile) peuvent peut-être relancer les contacts ?

=> Relance à faire pour le Pan-STARRS 2 en tous cas, car cela fait plus d'1 an sans nouvelle...

F.X.

Toutes les releases des catalogues ESO à faire ?

5 catalogues ESO avec de nouvelles versions (VST ATLAS DR4, VPHAS+ DR3.2, VIKING DR4, VHS DR5, KIDS DR4)

=> il faut que Giacomo décide si ces versions sont importantes à faire et avec quelle priorité.

VVV VIRAC PM DR4.1 statut ?

=> Attente de validation par Giacomo.

-- EmmanuellePerret - 2020-05-14

Topic revision: r6 - 2020-05-15 - EmmanuellePerret
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback