Tags:
create new tag
, view all tags

Bibliographical Center Supervisor

Lien :Bibliographical Center Supervisor

Usage:

  • Visualisation des journaux entrées dans Simbad
    • accès aux articles PDF/xml/tables (utilisé par l'équipe Vizier + DJIN)

  • Edition pour entrer les nouveaux articles:
    • 1/ Fetch :
      1. Téléchargement des articles des dépôts proposés par les éditeurs (A&A+MNRAS FTP cdsarc ; IOP téléchargement auto journalier ; ATEL/GCN/Nature/Science : site web)
      2. Création d'un espace de travail temporaire : <Journal>/TODO/<volume_issue>/<issue>
      3. Extraction du texte -> conversion en XCDS
      4. Génération du parfile + parfile.json + test de complétude ( + .obj pour A&A seulement) + .err.txt (liste erratum)
      5. Génération du .maj + .authors.txt (liste des nouveaux auteurs)
      6. Edition en ligne pour corriger les erreurs + aide pour les auteurs
        -> validation : ré-écriture du parfile + retour à l'étape 5 + correction bibcode si besoin dans XCDS
    • 2/ Import :
      • Execution du programme .maj
      • Déplacement des fichiers dans la partie archives

Détails:

A&A:
  • Fetch : 1_fetch.bash

    • Télécharge les articles dans TODO/${VOLUME}_1/1
# ...try to find old volumes:
rsync -tv  --port=1649 cdsarc::ftp-incoming/edp/old/v${VOLUME}/aav0${VOLUME}*_r*_full.tar.gz ${DOWNLOAD_DIR} && SYNC_OK=1
rsync -tv  --port=1649 cdsarc::ftp-incoming/edp/old/v${VOLUME}/aa_v${VOLUME}_*-full_r*.tar.gz ${DOWNLOAD_DIR} && SYNC_OK=1
rsync -tv  --port=1649 cdsarc::ftp-incoming/edp/v${VOLUME}/aa_v${VOLUME}_*-full_r*.tar.gz ${DOWNLOAD_DIR} && SYNC_OK=1
# ...try to find recent volumes:
rsync -tv  --port=1649 cdsarc::ftp-incoming/edp/aa_v${VOLUME}_*-full_r*.tar.gz ${DOWNLOAD_DIR} && SYNC_OK=1
    • Dézippe les tous les tar.gz dans ordre croissant des releases
      • Génère les XCDS pour chacun des réperoires obtenus : _prepare_article.bash
        • Re-organise les resources pour toutes les mettre dans le répertoire resources

        • Transforme l'article XML an XCDS : toxcds.bash
          • Détecte quelle XSL à utiliser dans la ligne du DTD (<DOCTYPE...) en haut du XML -> _XSL/Journals/
          • Crée le cache DTD si nécessaire : create_dtd_cache.bash
          • Remplace les caractères Unicode \u...
          • Remplace les entités doublement encodées XML
          • S'il n'existe pas déjà un champ bibcode create_bibcode.bash mis dans le XCDS
            • Cherche dans l'entete : Année, journal, volume, page, article_section, 1er auteur/collab ( build_simbad_name.bash )
        • Renomme le répertoire original de A&A par le bibcode (cherche le bibcode dans l'article et enlève la lettre d'auteur ->bibcode_light)
      • Génère le JParfile : tojparfile.bash -r "${DOWNLOAD_DIR}" => A&A_${YEAR}_${VOLUME}_1.parfile.json ( année: se base sur la date du 1er article)
        • Pour chaque répertoire bibcode :
          • Transforme le XCDS en parfile.json
          • Contruit la version "simbad-name" pour chaque auteur (nom d'auteur écrit pour Simbad) avec build_simbad_name.bash
          • Concatène le json avec le json global du volume
          • Insert la "simbad-date" YYYY-MMN ( build_simbad_date.bash ) à toutes les entrées
            • Calcule le mois en fonction de l'année + volume dans la table journaldef en base
            • Pour A&A N=1
          • Tri les articles selon JOURNAL, puis VOLUME puis ARTICLE NUMBER + sections (articles en 1er, et errata en dernier)
      • Génère le Parfile : toparfile.bash
        • Pour chaque
      • Vérifie la complétude : checkBiblio.bash avec le JParfile
      • Edite le JParfile, pour corriger les données spécifiques à Simbad: checkSimbad.bash
        • Vérifie les auteurs : checkSimbadAuthors.bash et génère le fichier avec les nouveaux auteurs authors.txt
          • Pour chaque auteur
        • Vérifie les noms d'objets : checkSimbadObjects.bash et génère le fichier .obj
          • Pour chaque article dans le jparfile, créé une table temporaire avec les noms d'objets
          • Lance un JOIN dans Simbad et la fonction "normid" pour vérifier leur existance, et leur normalisation
          • Si trouvé dans Simbad différent (casse, ré-écriture Sesame etc...) : ajoute le "simbad-id" et commentaire= "auto"
          • Si ça ne se normalise pas : ajoute le commentaire="! Not correctly written"
          • S'il n'est pas dans Simbad : ajoute évetuellement le "simbad-id" normalisé et le commentaire="! Identifier not (yet) in the database"
        • Prépare le script de mise à jour pour Simbad: tomaj2.bash

  • Interface Web
    • Correction des auteurs
    • Correction des noms d'objets: A chaque modification, relance la vérification : checkSimbadObjects.bash et génère le fichier .obj
      • La suppression du simbad-id dans l'interface relance avec le nom original et le commentaire supprimé
      • S'il y avait déjà un commentaire autre que "auto" -> ne fait rien
      • A partir du nouveau nom donné ("simbad-id") : lance un JOIN dans Simbad et la fonction "normid" pour vérifier son existance, et sa normalisation
      • Si trouvé dans Simbad: ne fait rien
      • Si ça ne se normalise pas : ajoute le commentaire="! Not correctly written"
      • S'il n'est pas dans Simbad: ne fait rien
-- AnaisOBERTO - 2022-09-09
Topic revision: r5 - 2023-09-06 - AnaisOBERTO
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback