Tags:
create new tag
, view all tags

Possibilités de traitement du CDS face à l'augmentation du nombre de publications

Fin mai 2007

I. Nombre de listes pouvant être traitées

De fin novembre 2006 à fin mai 2007 (semaine 07-21), soit sur une période de six mois, 143 listes ont été totalement intégrées à Simbad (quelle que soit leur date de début de traitement). Ce comptage a été fait en vérifiant le changement du statut '=gn=' en '(gn' à partir des listes de =gn= que j'avais archivées. Comme je n'archivais pas au début, et que la date de la modification du statut n'est pas conservée, je n'ai pas pu remonter avant fin novembre 2006. Il est raisonnable d'envisager une incertitude de environ plus ou moins 5 listes sur le chiffre final.

Pendant la même période, 111 listes se sont vues attribuées le statut =g1=, 158 listes le statut =g2=, et 35 listes le statut =L=.

Cela fait un total de 269 listes qui devraient dans l'idéal être intégrées à Simbad (en six mois), alors qu'en pratique seulement une bonne moitié a été effectivement traitée.

Néanmoins, ces chiffres ne reflètent pas une situation normale car ils contiennent aussi le rattrapage des listes en retard.

II. Estimation du nombre de listes à traiter hors retard

On voudrait aussi savoir quel est le nombre de listes à traiter par an dans une situation où il n'y aurait plus de retard :

  • Année : Année de parution de l'article
  • Ntr : Nbre de listes traitées ou triées
  • Ng : Nbre de listes ayant le statut =g= (plus aucun =C= après 2000)
  • Nf : Nbre de listes ayant le statut =f=
  • Ne : Nbre de listes ayant le statut =e=
  • Ntot = Ntr + 0.89*(Ng+Nf+Ne), estimation du nombre total de listes à intégrer à Simbad par année de parution en tenant compte des 10 à 12% de =g0= ou =g= qui finiront en =L=.
  • Nviz : Nbre de listes dans Vizier par année de parution

Année Ntr Ng Nf Ne Ntot Nviz
2006 147 0 46 211 376 416
2005 233 65 30 12 328 594
2004 245 98 15 8 353 639
2003 243 37 17 6 296 477
2002 242 15 10 3 267 440
2001 175 24 26 3 222 454
2000 149 7 21 4 177 374

En se basant sur les années 2006 à 2004, on peut estimer que le nombre de listes Vizier à intégrer à Simbad si l'on suivait le flot des publications est de environ 350 +- 30, chiffre à comparer avec environ 286 +- 30 listes qui peuvent effectivement être traitées, soit un déficit de environ 65 listes par an (+- 40, barres d'erreur estimées à la louche ...).

Le nombre total de listes dans Vizier est nettement supérieur à Ntot, en particulier en 2004. François a vérifié aux ordres de grandeurs que la différence correspond bien soit à des listes sans coordonnées, soit à des listes par exemple de raies sur un objet individuel, soit à des listes de peu d'objets qui ont été rentrées manuellement sans passer par Raccord.

III. Estimation du retard de traitement

Le retard peut être estimé en prenant les listes en =g1= et =g2= non en cours, plus les listes en =g=, =C=, =f=, et =e= auxquelles on enlève les 11% de listes non encore triées qui seront classées en =L= (voir IV.) :

Retard de traitement ~ 74g1 + 180g2 + 0.89*( 291g + 65C + 313f + 383e ) ~ 1190 (semaine 07-21)

Dans quelle mesure les =g1= existant et à venir pourront-ils être effectivement traités ? On peut l'estimer en faisant la somme des =g1= non en cours et des =g1= potentiels venant du réservoir des =g=, =C=, =f=, =e=, en extrapolant les 34% de =g1= que nous mettons en réunion (voir IV.) :

Réservoir de g1 ~ 74g1 + 0.34*( 291g + 65C + 313f + 383e ) ~ 432 (semaine 07-21)

Le temps nécessaire pour retrouver une situation où les =g1= seraient traités au fur et à mesure, en tenant compte des nouvelles listes arrivées au CDS, est de l'ordre de :

Temps rattrapage g1 ~ 432 / ( 286 - 0.34*350 ) ~ 2.6 ans (à partir de la semaine 07-21)

Comme nous ne savons pas comment va évoluer le nombre de tables publiées par an dans les dix prochaines années, il est probablement irréaliste d'essayer de projeter dans l'avenir le rattrapage des listes en =g2=. Par contre il est clair qu'une grande partie du retard de traitement ne pourra jamais être rattrapé en l'état actuel.

IV. Réflexion sur les actions possibles : réunion du 29 mai 2007

La réflexion est surtout tournée sur comment gagner un peu de temps dans les différents points de la chaine de traitement. Peut-on améliorer certains outils ou l'organisation ?

  • Dans l'ordre du jour de la réunion du 29 mai, les premières estimations ne tenaient pas compte des listes en =e= (tables à récupérer), or il y en a beaucoup. Les chiffres ont été corrigés pour en tenir compte. Le départ de James qui s'occupait de contacter les auteurs pour récupérer les tables pourrait avoir eu une influence sur le nombre de =e=. Après discussion avec Patricia il ressort que elle et Marianne peuvent le gérer sans trop de problème. Elles souhaitent se réorganiser pour que le nombre de =f= refète les listes en cours d'intégration dans Vizier, c'est à dire qu'elle éviteront de stocker trop de tables en attente d'intégration, préférant gérer une table d'un bout à l'autre. Il sera donc normal que le nombre de =e= soit assez élévé.

  • Listes Vizier avec une colonne "Simbad" : Il faudrait évaluer le nombre de ces listes, mais en tout cas on sait qu'elles sont assez nombreuses. Dans certains cas Patricia et Marianne font déjà en pratique le travail de Xid par position avec Simbad, et rajoutent dans les tables html une colonne Simbad. Mais par la suite cette colonne Simbad n'est pas réutilisable par Catherine, Fabienne, Marianne car elle n'est pas inclue dans les tables ascii que celles-ci traitent. Elle refont donc finalement souvent un travail de Xid déjà fait.

    • Le principe est de ne pas ajouter d'information à la table originale disponible dans le service catalogue. Mais nous pourrions créer une table de travail à usage interne dans laquelle serait ajoutée une colonne contenant par exemple un identificateur Simbad.

    • On pourrait aussi envisager de mettre au point un script automatique de mise à jour dès l'étape Vizier qui attacherait la référence aux objets cross-identifiés dans Simbad (on gagnerait en complétude sur la bibliographie). La liste des quelques objets non trouvés devrait être mise en note sur la référence.

    • Ces listes seront répertoriées par François qui leur donnera un nouveau statut : =v=

  • Liens Simbad-Vizier : c'est une question récurrente.
    • Il faudrait que les noms d'objets figurant dans Vizier dans la colonne Name soient reconnus par Simbad. Une partie des éléments pour ce faire existent dans les Readme, mais il faudrait créer une table de correspondance.
    • Comme il est clair que nous ne pourrons pas intégrer toutes les listes Vizier à Simbad (même celles qui devraient l'être), il devient fondamental que les utilisateurs sachent qu'ils peuvent trouver plus d'informations dans Vizier et qu'ils voient un lien vers Vizier à partir de l'interrogation Simbad.

  • Raccord : Bernd coordonne la réflexion sur l'amélioration de Raccord. Ce qui prend beaucoup de temps avec Raccord c'est l'optimisation des paramètres, sans pouvoir valider facilement des sources correctement cross-identifiées ou crées dans les étapes intermédiaires. Bernd propose d'utiliser son expérience du travail effectué avec Brice pour les sources radio pour développer un outil Raccord plus convivial et interactif, à partir de menus déroulants, dans un environnement combinant Simbad-Vizier-Aladin. La première réunion pour faire le cahier des charges de cette interface aura lieu le 18 juin 2007.

  • Objectif raisonnable : Nous ne pouvons plus répondre à un objectif de perfection à 99.9%. Puisque de toute façon il est impossible de rentrer toutes les listes qui devraient l'être, le temps passé sur chaque liste devrait rester aussi raisonnable que possible. Les objets posant trop de problèmes devraient être relayés sur les astronomes pour expertise, ou laissés de côté avec une note sur la référence. Il est indispensable que Catherine, Fabienne, et Marianne continuent à regarder certains objets en détail - car c'est ce travail qui fait la valeur ajoutée de Simbad par rapport à d'autres bases de données - mais sans insister au-delà d'une limite de temps "raisonnable".

  • Postes : dans le contexte actuel des départs en retraite à remplacer il parait bien difficile de demander des postes en plus. Une nouvelle évaluation des besoins en poste sera faite lorsque le nouveau Raccord aura été mis en place. On verra alors si il est possible/utile de recruter un CDD. Pour l'instant ce serait investir beaucoup de temps de formation sur un outil qui va changer.

-- CecileLoup - 29 Aug 2007

-- CecileLoup - 10 Feb 2009

Topic revision: r1 - 2009-02-10 - CecileLoup
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback