Tags:
create new tag
, view all tags

Réunion VizieR 26/09/2018

Présents: Gilles L., Pierre O., Emmanuelle P., Tiphaine P., Patricia V.

Pierre

Document de préparation pour le conseil du CDS

Points accentués (voir le document CS_PO2.pdf envoyé par mail par Pierre) :
- les derniers problèmes de requêtes extérieures abusives => occasion de discuter stratégie ;
- la base de données associées de VizieR qui n'est pas alimentée par les documentalistes dont la charge de travail est déjà trop élevée.
On note que les principaux fichiers FITS contenant spectres ou images viennent de A&A, très peu pour l'instant à l'AAS (ApJ, ApJS et AJ) et peu pour le MNRAS (??)
Lorsqu'ils viennent des journaux autres que A&A (qui doivent être traités rapidement), on peut faire l'ingestion des données associées en même temps que la mise en ligne du catalogue mais le procédé d'ingestion est encore un peu complexe, surtout dès que les fichiers FITS sont structurés d'une manière qui n'était pas prévue...
Personnellement, je n'ai pas dû en faire plus de 10 cette année et encore, c'est une fourchette haute...
- Pour la partie DOIs, il faut noter que pour l'instant, seuls les DOIs des articles sont récupérés ainsi que l'ORCID du premier auteur. Cela se fait depuis ADS.
Pour les A&A qui sont mis en ligne en même temps que la publication de l'article, ADS n'a pas encore pu récupérer l'information. Patricia note qu'elle peut récupérer le DOI de l'article manuellement.
=> Finalement, il vaut mieux attendre que Gilles récupère le tout automatiquement, même si cela implique un délai pour avoir l'information. (L'ajout du DOI manuellement empêcherait la récupération automatique de l'ORCID)...
Dans un deuxième temps, il y aura des DOIs pour les catalogues VizieR mais le contrat est encore en attente de signature...
- Le Data Seal of Approval (DSA) est remplacé par Core Trust Seal (CTS) : http://digitalpreservation.nl/seeds/certification-changes-basic-becomes-core-in-the-coretrustseal/

=> Patricia doit faire des statistiques sur le nombre de =e= mis en 2017 et 2018 pour appuyer l'augmentation de la charge de travail.

Problème avec le nombre de =g0= ?

Problème dans les changements de statuts envoyés automatiquement chaque semaine. C'est un programme géré par Soizick qui a été modifié par Thomas Delacour lors de son CDD chez nous.
Le mail est envoyé à une liste de personne triée sur le volet (voir Soizick) et s'intitule "New Statuts : 25-Sep-2018", l'envoi est hebdomadaire.
Le dernier message donne :
----Statistiques des statuts (2018-09-25):

 =.=        New(25 Sep 00:02)        Old(18 Sep 00:02)    Added    Removed    Modified
 =e=         656                       644                  +31      -19         10
 =f=         303                       287                  +17       -1          7
=g0=         541                       626                  +13      -98          9
=g1=         208                       182                  +42      -16         27
=g2=        1486                      1474                  +12       --          3
 =v=          33                        20                  +17       -4          4
 =q=         869                       857                  +49      -37         16
 =s=         330                       323                   +7       --          9
=s1=          65                        72                   --       -7          4
=s2=          77                        77                   --       --          0
 =A=         116                       111                  +34      -29         16
 =a=        1897                      1897                   +1       -1          8
 =b=         249                       247                   +2       --          0
 =C=          63                        64                   +2       -3          0
 =D=         124                       124                   --       --          0
 =E=         473                       471                   +9       -7          0
 =F=         142                       134                   +8       --          1
 =I=         949                       945                   +4       --          2
 =L=        2657                      2649                   +8       --          1
 =m=         317                       317                   --       --          1
 =S=          43                        43                   --       --          0
 =T=         256                       264                  +20      -28         18
 =W=           5                         5                   --       --          0
 =0=       15229                     15284                 +334     -389          6
 =1=           9                         9                   --       --          0
 =?=           1                         1                   --       --          0
 =P=          77                        77                   --       --          0
 =R=        1946                      1946                   --       --          0
 =g=           1                         1                   --       --          0
 =h=           2                         2                   --       --          0
 =l=           1                         1                   --       --          0
 =t=           1                         1                   --       --          0
=E0=          16                        16                   --       --          0
=a0=         369                       367                   +4       -2          5
=e0=          73                        73                   --       --          1
=q=Acro         755                       756                  +30      -31         12
=q=AAcro          32                        28                   +6       -2          2

Or apparemment, la proportion de g0 n'est pas juste d'après Cécile (pourtant 13 ajoutés - 98 font bien les 85 de différences. Et si on compte tous les status g1, g2, v, s, b, C et L qui pourraient expliquer la disparition du g0, on arrive à un total de 90 donc ça paraît juste... ?)

=> Bref, il faut voir Soizick pour le fonctionnement de ce programme.

Rappel sur la provenance du =g0= : Cycle des statuts SIMBAD pour les différentes étapes de traitement d'une publication (centré sur la partie VizieR)

Voir aussi le CR du 24 octobre 2017 sur comment récupère-t-on les refs en attente de traitement VizieR et du 21 mars 2017 sur les éventuels oublis de g0.

J'avais aussi fait un point sur les =e= en attente (avec un rappel du process) sur cette page : http://cds.u-strasbg.fr/twiki/bin/view/Documentaliste/VizierDocumentaliste/VizierStat

La chaîne de traitement d'une publication au CDS commence par le traitement de tous les articles par l'équipe DJIN. Seule l'équipe DJIN lit tous les articles (plus de 10,000 références par an !! Ce n'est pas 100,000 comme j'ai pu le dire, mea culpa, mathématiquement c'est juste impossible mais c'est quand même énorme).
Ce sont eux (les djinistes) qui signalent les publications contenant des tables via un statut interne mis dans le commentaire de travail de la référence SIMBAD (le fameux =e= : en attente de traitement de table électronique). Ce statut est transformé, systématiquement, en =f= lorsque la référence a été traitée par l'équipe de documentalistes VizieR, puis en =g0= lorsque la référence a été validée et est disponible dans VizieR. Ce dernier statut est le feu-vert pour que la référence soit traitée en réunion =g= afin de définir une priorité de traitement pour SIMBAD.

N.B. pour la version plus complète du process :

- certains =g0= sont mis directement dans SIMBAD -- par les DJINistes ou Patricia -- lorsque les tables existaient déjà dans VizieR avant que la référence SIMBAD ne soit créée...
- les Djinistes signalent les tables ou tar.gz ou catalogue avec un lien http, etc. -- au final, ce sont les documentalistes de VizieR qui décident des tables qu'elles traitent par publication (priorité sur les MRTs et ajout de tables non-MRTs dans une même ref. par exemple). De plus, certains =e= deviennent =F= (pas pour SIMBAD) ou inversement (certains =E= deviennent des g0). Pour plus de détails ou d'explications, nous consulter directement, ce sera plus clair !!

Voir status_e_g0.png (envoyé par mail car pas possible d'attacher au TWiki).

Tiphaine

Problème landing page

Pour J/AJ/123/279 : le ReadMe est complètement vide après le signe "<".

Pour J/AJ/109/61 : le ReadMe interprète la mag moyenne

 <B> 

comme du bold... Tout est en gras après.

Pour J/AcA/50/177 : les noms des catalogues ne sont pas affichés. Ils sont inscrits entre "<>" comme c'était le cas dans le temps pour que le noms du catalogue soit correctement interprété...

Pour J/ApJ/851/152 : la nomenclature SIMBAD qui est par convention donnée entre "<>" n'est pas affichée.

Gilles a résolu tous ces problèmes.

Emmanuelle

J/ApJS/235/16 : >12 millions d'étoiles : base de données particulière vizDB ou grand Cat ?

=> Non, pas besoin de procédure spéciale pour 12 millions d'objets...

J/ApJS/235/16 : du coup récupération des coordonnées LAMOST pour ces 12 millions d'objets ?

=> Gilles va recréer une table avec les positions. Il faut lui envoyer la table en csv.

Patricia

Cat Y/2018/Mar/04 à supprimer du local

=> Gilles s'en occupe.

-- EmmanuellePerret - 2018-09-26

Topic attachments
I Attachment Action Size Date Who Comment
PNGpng status_e_g0.png manage 722.0 K 2018-10-24 - 07:27 EmmanuellePerret Status =e= et =g0= au CDS
Topic revision: r6 - 2018-10-24 - EmmanuellePerret
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback