BCS < Documentaliste/InformatiqueDocumentaliste

Tags: , view all tags

Bibliographical Center Supervisor

Lien :Bibliographical Center Supervisor

Usage:

Visualisation des journaux entrées dans Simbad
- accès aux articles PDF/xml/tables (utilisé par l'équipe Vizier + DJIN)

Edition pour entrer les nouveaux articles:
- 1/ Fetch :
- 1. Téléchargement des articles des dépôts proposés par les éditeurs (A&A+MNRAS FTP cdsarc ; IOP téléchargement auto journalier ; ATEL/GCN/Nature/Science : site web)
  2. Création d'un espace de travail temporaire : <Journal>/TODO/<volume_issue>/<issue>
  3. Extraction du texte -> conversion en XCDS
  4. Génération du parfile + parfile.json + test de complétude ( + .obj pour A&A seulement) + .err.txt (liste erratum)
  5. Génération du .maj + .authors.txt (liste des nouveaux auteurs)
  6. Edition en ligne pour corriger les erreurs + aide pour les auteurs
    -> validation : ré-écriture du parfile + retour à l'étape 5 + correction bibcode si besoin dans XCDS
- 2/ Import :
  - Execution du programme .maj
  - Déplacement des fichiers dans la partie archives

Détails:

A&A:

Fetch : 1_fetch.bash
- Télécharge les articles dans TODO/${VOLUME}_1/1

# ...try to find old volumes:
rsync -tv  --port=1649 cdsarc::ftp-incoming/edp/old/v${VOLUME}/aav0${VOLUME}*_r*_full.tar.gz ${DOWNLOAD_DIR} && SYNC_OK=1
rsync -tv  --port=1649 cdsarc::ftp-incoming/edp/old/v${VOLUME}/aa_v${VOLUME}_*-full_r*.tar.gz ${DOWNLOAD_DIR} && SYNC_OK=1
rsync -tv  --port=1649 cdsarc::ftp-incoming/edp/v${VOLUME}/aa_v${VOLUME}_*-full_r*.tar.gz ${DOWNLOAD_DIR} && SYNC_OK=1
# ...try to find recent volumes:
rsync -tv  --port=1649 cdsarc::ftp-incoming/edp/aa_v${VOLUME}_*-full_r*.tar.gz ${DOWNLOAD_DIR} && SYNC_OK=1

- Dézippe les tous les tar.gz dans ordre croissant des releases
  - Génère les XCDS pour chacun des réperoires obtenus : _prepare_article.bash
    - Re-organise les resources pour toutes les mettre dans le répertoire resources
    - Transforme l'article XML an XCDS : toxcds.bash
      - Détecte quelle XSL à utiliser dans la ligne du DTD (<DOCTYPE...) en haut du XML -> _XSL/Journals/
      - Crée le cache DTD si nécessaire : create_dtd_cache.bash
      - Remplace les caractères Unicode \u...
      - Remplace les entités doublement encodées XML
      - S'il n'existe pas déjà un champ bibcode create_bibcode.bash mis dans le XCDS
        
        Cherche dans l'entete : Année, journal, volume, page, article_section, 1er auteur/collab ( build_simbad_name.bash )
    - Renomme le répertoire original de A&A par le bibcode (cherche le bibcode dans l'article et enlève la lettre d'auteur ->bibcode_light)
  - Génère le JParfile : tojparfile.bash -r "${DOWNLOAD_DIR}" => A&A_${YEAR}_${VOLUME}_1.parfile.json ( année: se base sur la date du 1er article)
    - Pour chaque répertoire bibcode :
      - Transforme le XCDS en parfile.json
      - Contruit la version "simbad-name" pour chaque auteur (nom d'auteur écrit pour Simbad) avec build_simbad_name.bash
      - Concatène le json avec le json global du volume
      - Insert la "simbad-date" YYYY-MMN ( build_simbad_date.bash ) à toutes les entrées
        
        Calcule le mois en fonction de l'année + volume dans la table journaldef en base
        
        Pour A&A N=1
      - Tri les articles selon JOURNAL, puis VOLUME puis ARTICLE NUMBER + sections (articles en 1er, et errata en dernier)
  - Génère le Parfile : toparfile.bash
    - Pour chaque
  - Vérifie la complétude : checkBiblio.bash avec le JParfile
  - Edite le JParfile, pour corriger les données spécifiques à Simbad: checkSimbad.bash
    - Vérifie les auteurs : checkSimbadAuthors.bash et génère le fichier avec les nouveaux auteurs authors.txt
      - Pour chaque auteur
    - Vérifie les noms d'objets : checkSimbadObjects.bash et génère le fichier .obj
      - Pour chaque article dans le jparfile, créé une table temporaire avec les noms d'objets
      - Lance un JOIN dans Simbad et la fonction "normid" pour vérifier leur existance, et leur normalisation
      - Si trouvé dans Simbad différent (casse, ré-écriture Sesame etc...) : ajoute le "simbad-id" et commentaire= "auto"
      - Si ça ne se normalise pas : ajoute le commentaire="! Not correctly written"
      - S'il n'est pas dans Simbad : ajoute évetuellement le "simbad-id" normalisé et le commentaire="! Identifier not (yet) in the database"
    - Prépare le script de mise à jour pour Simbad: tomaj2.bash

Interface Web
- Correction des auteurs
- Correction des noms d'objets: A chaque modification, relance la vérification : checkSimbadObjects.bash et génère le fichier .obj
  - La suppression du simbad-id dans l'interface relance avec le nom original et le commentaire supprimé
  - S'il y avait déjà un commentaire autre que "auto" -> ne fait rien
  - A partir du nouveau nom donné ("simbad-id") : lance un JOIN dans Simbad et la fonction "normid" pour vérifier son existance, et sa normalisation
  - Si trouvé dans Simbad: ne fait rien
  - Si ça ne se normalise pas : ajoute le commentaire="! Not correctly written"
  - S'il n'est pas dans Simbad: ne fait rien

-- AnaisOBERTO - 2022-09-09

Topic revision: r5 - 2023-09-06 - AnaisOBERTO

Account
- Log In
- Register User

Centre de Données astronomiques de Strasbourg

Edit
Attach