Réunion VizieR 26/09/2018
Présents: Gilles L., Pierre O., Emmanuelle P., Tiphaine P., Patricia V.
Pierre
Document de préparation pour le conseil du CDS
Points accentués (voir le document CS_PO2.pdf envoyé par mail par Pierre) :
- les derniers problèmes de requêtes extérieures abusives => occasion de discuter stratégie ;
- la base de données associées de VizieR qui n'est pas alimentée par les documentalistes dont la charge de travail est déjà trop élevée.
On note que les principaux fichiers FITS contenant spectres ou images viennent de A&A, très peu pour l'instant à l'AAS (ApJ, ApJS et AJ) et peu pour le MNRAS (??)
Lorsqu'ils viennent des journaux autres que A&A (qui doivent être traités rapidement), on peut faire l'ingestion des données associées en même temps que la mise en ligne du catalogue mais le procédé d'ingestion est encore un peu complexe, surtout dès que les fichiers FITS sont structurés d'une manière qui n'était pas prévue...
Personnellement, je n'ai pas dû en faire plus de 10 cette année et encore, c'est une fourchette haute...
- Pour la partie DOIs, il faut noter que pour l'instant, seuls les DOIs des articles sont récupérés ainsi que l'ORCID du premier auteur. Cela se fait depuis ADS.
Pour les A&A qui sont mis en ligne en même temps que la publication de l'article, ADS n'a pas encore pu récupérer l'information. Patricia note qu'elle peut récupérer le DOI de l'article manuellement.
=> Finalement, il vaut mieux attendre que Gilles récupère le tout automatiquement, même si cela implique un délai pour avoir l'information. (L'ajout du DOI manuellement empêcherait la récupération automatique de l'ORCID)...
Dans un deuxième temps, il y aura des DOIs pour les catalogues VizieR mais le contrat est encore en attente de signature...
- Le Data Seal of Approval (DSA) est remplacé par Core Trust Seal (CTS) :
http://digitalpreservation.nl/seeds/certification-changes-basic-becomes-core-in-the-coretrustseal/
=> Patricia doit faire des statistiques sur le nombre de =e= mis en 2017 et 2018 pour appuyer l'augmentation de la charge de travail.
Problème avec le nombre de =g0= ?
Problème dans les changements de statuts envoyés automatiquement chaque semaine. C'est un programme géré par Soizick qui a été modifié par Thomas Delacour lors de son CDD chez nous.
Le mail est envoyé à une liste de personne triée sur le volet (voir Soizick) et s'intitule "New Statuts : 25-Sep-2018", l'envoi est hebdomadaire.
Le dernier message donne :
----Statistiques des statuts (2018-09-25):
=.= New(25 Sep 00:02) Old(18 Sep 00:02) Added Removed Modified
=e= 656 644 +31 -19 10
=f= 303 287 +17 -1 7
=g0= 541 626 +13 -98 9
=g1= 208 182 +42 -16 27
=g2= 1486 1474 +12 -- 3
=v= 33 20 +17 -4 4
=q= 869 857 +49 -37 16
=s= 330 323 +7 -- 9
=s1= 65 72 -- -7 4
=s2= 77 77 -- -- 0
=A= 116 111 +34 -29 16
=a= 1897 1897 +1 -1 8
=b= 249 247 +2 -- 0
=C= 63 64 +2 -3 0
=D= 124 124 -- -- 0
=E= 473 471 +9 -7 0
=F= 142 134 +8 -- 1
=I= 949 945 +4 -- 2
=L= 2657 2649 +8 -- 1
=m= 317 317 -- -- 1
=S= 43 43 -- -- 0
=T= 256 264 +20 -28 18
=W= 5 5 -- -- 0
=0= 15229 15284 +334 -389 6
=1= 9 9 -- -- 0
=?= 1 1 -- -- 0
=P= 77 77 -- -- 0
=R= 1946 1946 -- -- 0
=g= 1 1 -- -- 0
=h= 2 2 -- -- 0
=l= 1 1 -- -- 0
=t= 1 1 -- -- 0
=E0= 16 16 -- -- 0
=a0= 369 367 +4 -2 5
=e0= 73 73 -- -- 1
=q=Acro 755 756 +30 -31 12
=q=AAcro 32 28 +6 -2 2
Or apparemment, la proportion de g0 n'est pas juste d'après Cécile (pourtant 13 ajoutés - 98 font bien les 85 de différences. Et si on compte tous les status g1, g2, v, s, b, C et L qui pourraient expliquer la disparition du g0, on arrive à un total de 90 donc ça paraît juste... ?)
=> Bref, il faut voir Soizick pour le fonctionnement de ce programme.
Rappel sur la provenance du =g0= : Cycle des statuts SIMBAD pour les différentes étapes de traitement d'une publication (centré sur la partie VizieR)
Voir aussi le CR du
24 octobre 2017 sur comment récupère-t-on les refs en attente de traitement VizieR et du
21 mars 2017 sur les éventuels oublis de g0.
J'avais aussi fait un point sur les =e= en attente (avec un rappel du process) sur cette page :
http://cds.u-strasbg.fr/twiki/bin/view/Documentaliste/VizierDocumentaliste/VizierStat
La chaîne de traitement d'une publication au CDS commence par le traitement de tous les articles par l'équipe DJIN. Seule l'équipe DJIN lit tous les articles (plus de 10,000 références par an !! Ce n'est pas 100,000 comme j'ai pu le dire, mea culpa, mathématiquement c'est juste impossible mais c'est quand même énorme).
Ce sont eux (les djinistes) qui signalent les publications contenant des tables via un statut interne mis dans le commentaire de travail de la référence SIMBAD (le fameux =e= : en attente de traitement de table électronique). Ce statut est transformé, systématiquement, en =f= lorsque la référence a été traitée par l'équipe de documentalistes VizieR, puis en =g0= lorsque la référence a été validée et est disponible dans VizieR. Ce dernier statut est le feu-vert pour que la référence soit traitée en réunion =g= afin de définir une priorité de traitement pour SIMBAD.
N.B. pour la version plus complète du process :
- certains =g0= sont mis directement dans SIMBAD -- par les DJINistes ou Patricia -- lorsque les tables existaient déjà dans VizieR avant que la référence SIMBAD ne soit créée...
- les Djinistes signalent les tables ou tar.gz ou catalogue avec un lien http, etc. -- au final, ce sont les documentalistes de VizieR qui décident des tables qu'elles traitent par publication (priorité sur les MRTs et ajout de tables non-MRTs dans une même ref. par exemple). De plus, certains =e= deviennent =F= (pas pour SIMBAD) ou inversement (certains =E= deviennent des g0). Pour plus de détails ou d'explications, nous consulter directement, ce sera plus clair !!
Voir status_e_g0.png (envoyé par mail car pas possible d'attacher au TWiki).
Tiphaine
Problème landing page
Pour J/AJ/123/279 : le ReadMe est complètement vide après le signe "<".
Pour J/AJ/109/61 : le ReadMe interprète la mag moyenne
<B>
comme du bold... Tout est en gras après.
Pour J/AcA/50/177 : les noms des catalogues ne sont pas affichés. Ils sont inscrits entre "<>" comme c'était le cas dans le temps pour que le noms du catalogue soit correctement interprété...
Pour J/ApJ/851/152 : la nomenclature SIMBAD qui est par convention donnée entre "<>" n'est pas affichée.
Gilles a résolu tous ces problèmes.
Emmanuelle
J/ApJS/235/16 : >12 millions d'étoiles : base de données particulière vizDB ou grand Cat ?
=> Non, pas besoin de procédure spéciale pour 12 millions d'objets...
J/ApJS/235/16 : du coup récupération des coordonnées LAMOST pour ces 12 millions d'objets ?
=> Gilles va recréer une table avec les positions. Il faut lui envoyer la table en csv.
Patricia
Cat Y/2018/Mar/04 à supprimer du local
=> Gilles s'en occupe.
--
EmmanuellePerret - 2018-09-26