Tags:
create new tag
, view all tags

Stage de Anaïs Egner - IUT Schuman - [8/04/19 au 21/06/19]

Important : cette page est réservée au suivi du stage, merci de ne pas la modifier

Informations générales pour les stagiaires

Pour toute information concernant ce stage : contacter François, Mireille

Sujet

Stage (Avril - Juin 2019)

Avril

Lundi 8 :

  • Arrivée
  • Journée d'accueil salle de réunion de la Coupol
  • Présentation de l'Observatoire Virutel avec le tuteur de stage
  • Introduction générale au modèle utilisé.
Mardi 9: Mercredi 10 : Jeudi 11 :
  • Installation de Python & PostgreSQL sur le poste de travail
  • Réalisation d'un script Python permettant de récupérer les informations dans les headers de tous les fichiers .hed d'un même dossier
  • Lecture de la documentation Python concernant les fichiers CSV
  • Récupération de ces informations dans un fichier au format CSV
  • Lecture de la documentation PSQL concernant l'import de fichiers CSV
  • Création d'une table contenant les informations de chaque fichier
Vendredi 12:
  • Réalisation d'un script Python permettant de récupérer les descriptions des différents types d'informations dans les headers de fichiers .hed
  • Récupération de ces informations dans un fichier au format CSV
  • Création d'une table PSQL à partir d'un fichier CSV contenant les descriptifs de chacune des informations récupérées dans les header des fichiers
  • Séminaire en anglais "What's new at CDS ?"; présentation des nouveautés techniques que proposent les logiciels et services du CDS
  • Réalisation de deux nouveaux scripts Python pour récupérer les informations dans les headers de deux nouvelles séries de fichiers .hed
  • Récupération de ces informations dans des fichiers CSV séparés
  • Création de nouvelles tables à partir de ces fichiers CSV
  • Extraction de la base de données PostgreSQL dans un fichier
Lundi 15:
  • Réalisation d'un script Pyhton permettant de récupérer différentes informations provenants de l'en-tête de fichiers FITS provenant d'images HST
  • Introduction au mapping Provenance minimal qui va être utilisé
  • Réalisation d'un script Python permettant de récupérer les informations provenants des diverses images extensions de fichiers FITS
  • Présentation du métier d'astronome en salle de réunion de la Coupol
  • Réalisation d'un script Python permettant de récupérer les descriptions des différents types informations provenants de l'en-tête de fichiers FITS
Mardi 16:
  • Réalisationd'un script Python permettant de récupérer les descriptions des différents types informations provenants des diverses images extensions
  • Création de diverses tables PSQL à partir de fichiers CSV contenant les différentes informations provenants de l'en-tête de fichiers FITS
  • Création de diverses tables PSQL à partir de fichiers CSV contenant les différentes informations provenants des diverses images extensions de fichiers FITS
  • Extraction de la base de données mise à jour dans un fichier
  • Début de la mise en place du mapping Provenance de la base de données généré, gestion de la cohérence de celle-ci
Mercredi 17:
  • Création des tables du mapping provenance
  • Remplissage des tables créées à l'aide des anciennes tables
  • Gestion des identifiants uniques avec chaines de caractères et incrémentation automatique (solution choisie trouvée ici)
  • Gestion des liens entre les tables
  • Vérifications de la cohérence de la base
  • Recherche d'une méthode permettant de différencier les plaques des images dans la base
  • Ajout de deux types d'entity dans la table (plaques et images) et différenciation de leurs identifiants uniques
Jeudi 18:
  • Revue de la base de données générée avec le tuteur de stage
  • Réalisation des améliorations et changements demandés
  • Obtention de cinq nouvelles séries de fichiers .hhh
  • Réalisation d'un script Shell réorganisant les données ligne par ligne dans les fichiers afin de pouvoir les traiter plus facilement
  • Récupération et reformattage des données des fichiers, puis création des tables de données et de description des différentes séries de fichiers
Mardi 23, Mercredi 24, Jeudi 25:
  • Absence pour des raisons médicales
Vendredi 26:
  • Réunion informatique sur le thème de la création de librairies Python et de leur déploiement
  • Séminaire "La Science Ouverte, l'Astronomie et le CDS"
  • Uniformisation des dates au format standard, amélioration de la lisibilité des données dans la base (pour les séries gr, xs, is, xj, xo)
  • Remplissage des tables créées pour chaque série de fichiers à l'aide des données récupérées et uniformisées
  • Récupération des données utiles à Provenance à partir des ces tables
  • Création d'une nouvelle base de donnée nommée provenance
  • Copie des tables (du mapping provenance uniquement) de l'ancienne base de données vers la nouvelle créée
  • Extraction de la base provenance dans un fichier
Lundi 29:
  • Récupération d'une série de fichiers HST
  • Réalisation d'un script récupérant les headers des fichiers ainsi que leurs description, formatage des dates données au format non-officiel
  • Réalisation d'un script récupérant les différentes informations des fichiers extensions des fichiers HST; séparation des informations concernant les images et de celles concernant les tables
  • Problème de traitement de la masse de fichiers rencontré ; fichiers atteignant des tailles importantes
  • Objectif: création de 6 tables dans la base de données de travail (non provenance)
    • Table Header drc et table description header DRC
    • Table extension image et table description extension image
    • Table extension table et table description extension table
Mardi 30:
  • Problème de création des tables; données non homogènes, tous les fichiers ne possèdent pas les mêmes attibut et ils ne sont pas ordonnés de la même façon
  • Recherche de résolution au problème; récupérer tous les noms d'attributs de tous les fichiers et, pour chaque fichier, remplir uniquement les attributs qu'il possède avec ses valeurs et une valeur par défaut pour les autres

Mai

Jeudi 2:

  • Résolution du problème pour le contenu des headers (données et descriptions)
  • Récupération et reformattage des données contenues dans le header et de leurs descriptions
  • Création d'une table pour les données des headers
  • Création d'une table pour les descriptions des données des headers
  • Résolution du problème pour le contenu des extensions de type image et bintable (données uniquement, descriptions à faire)
Vendredi 3:
  • Récupération et reformattage des données contenues dans les extension type image et bintable et de leurs descriptions pour la série de fichiers DRC.
  • Création d'une table pour les données des extensions type image
  • Création d'une table pour les descriptions des données des enxtensions type image
  • Création d'une table pour les données des extensiosn type table
  • Création d'une table pour les descriptions des données des enxtensions type table
  • Début du mapping provenance pour cette série de fichiers
Lundi 6:
  • Mise en place du mapping provenance pour la série de fichiers
  • Changement d'approche quant au remplissage des tables du modèle provenance
  • Recherche de différentes techniques:
  • Problème avec la procédure stockée, débuggage avec le tuteur de stage
Mardi 7: Jeudi 9:
  • Récupération et reformattage des données contenues dans le header, les extension type image et bintable, et de leurs descriptions pour la série de fichiers DRZ.
  • Création d'une table pour les données des headers
  • Création d'une table pour les descriptions des données des headers
  • Création d'une table pour les données des extensions type image
  • Création d'une table pour les descriptions des données des enxtensions type image
  • Création d'une table pour les données des extensions type table
  • Création d'une table pour les descriptions des données des enxtensions type table
  • Début du mapping provenance pour cette série de fichiers
Vendredi 10:
  • Suite du mapping provenance pour les fichiers DRZ
  • Problème de disque dur, remplacement nécéssaire: perte des bases de données
Lundi 13:
  • Remise en place des bases de données pour toutes les séries de fichiers
  • Corrections de détails dans la base provenance
Mardi 14:
  • Création et remplissages des tables D0 pour les fichiers DRC&Z
  • Réalisation d'un script python pour récupérer le contenu des headers FLC et FLT
  • Réalisation d'un script python pour récupérer les descriptions du contenu des headers FLC et FLT
  • Début de réalisation d'un script python pour récupérer le contenu des extensions image des fichiers FLC et FLT
Mercredi 15:
  • Fin de la réalisation d'un script python pour récupérer le contenu des extensions image des fichiers FLC et FLT
  • Réalisation d'un script python pour récupérer les descriptions des données contenues dans les extensions image des fichiers FLC et FLT
  • Réalisation d'un script python pour récupérer le contenu des extensions table des fichiers FLC et FLT
  • Réalisation d'un script python pour récupérer les descriptions des données contenues dans les extensions table des fichiers FLC et FLT
  • Création et remplissage d'une table contenant les données des headers FLC et FLT
  • Création et remplissage d'une table contenant les descriptions des données des headers FLC et FLT
  • Création et remplissage d'une table contenant les données des extensions images FLC et FLT
  • Création et remplissage d'une table contenant les descriptions des données des extensions images FLC et FLT
  • Création et remplissage d'une table contenant les données des extensions tables FLC et FLT
  • Création et remplissage d'une table contenant les descriptions des données des extensions tables FLC et FLT
  • Début du mapping provenance pour cette série de fichiers
Jeudi 16:
  • Mapping provenance pour la table Entity
  • Mapping provenance pour la table Used
  • Mapping provenance pour la table Activity
Vendredi 17:
  • Tests de mapping provenance pour la table WasGeneratedBy
  • Procédure stockée pour remplir la table WasGeneratedBy
  • Vérifications de cohérence de la base
Lundi 20:
  • Fix des problèmes recontrés dans la base:
    • Certaines activités sont crées en double dans la table WasGeneratedBy (source du problème : les activités sont duppliquées dans Used car elles utilisent deux entités)
    • Certaines activités de la table WasGeneratedBy n'ont pas d'entité FLC ou FLT qui leur correspond
  • Création d'une procédure stockée créant des entités pour les activités n'ayant pas d'entité dans WasGeneratedBy
Mardi 21:
  • Création et remplissage d'une table profile contenant des informations sur les headers FLC & FLT
  • Réalisation d'un script de corrections pour les entités fltw enregistrées comme flcw dans la base
  • Test de la procédure stockée créant des entités pour les activités n'ayant pas d'entité dans WasGeneratedBy
Mercredi 22:
  • Revu de la base avec le tuteur
  • Discussion et recherche concernant les fichiers FLC et FLT qui n'ont toujours pas de commentaire et de date, il se pourrait que ces fichiers ne proviennent pas d'une calibration enregistrée dans la base
Jeudi 23:
  • Après vérification, il y a bien des fichiers qui ne proviennent pas d'une calibration eregistrée dans la base
  • Cependant certains des fichierc FLC et FLT qui n'ont pas de date et de commtaire proviennent bien d'une calibration enregistrée dans la base: recherche de la source du problèm
  • Après vérification, tous les headers n'avaient pas été fourni au départ ; une partie du problème pourrait venir de là
Vendredi 24:
  • Fix d'un problème dans les DSS: des plaques photos figuraient dans WasGeneratedBy et des images figuraient dans Used
  • Récupération de fichiers Hips
  • Réalisation d'un script permettant de récupérer les données de tous les hips d'un ordre spécifique
  • Récupération des données de tous les hips d'ordre 10
  • Création d'une table pour les hips
  • Remplissage de la table avec les hips d'ordre 10
Lundi 27:
  • Récupération des fichiers DRZ/DRC et FLT/FLC manquants
  • Récupération des données des fichiersDRZ/DRC et FLT/FLC supplémentaire
  • Création de DRZ+, DRC+ et FL+ dans la base (avec à chaque fois une table pour les headers, images et tables)
  • Revue du rapport de stage avec le tuteur de stage
  • Explication du mapping pour les Hipsgen
Mardi 28:
  • Réalisation de procédures pour remplir les tables Collection et WasInformedBy
  • Début de réalisation du mapping pour les tuiles (Activity, Entity, WasGeneratedBy)
Mercredi 29:
  • Recherches sur l'optimisation des rocédure stockées en SQL
  • Réalisation d'une procédure stockée pour remplir le Used des tuiles
Jeudi 30:
  • Réalisation d'une procédure qui vérifie que les nouveaux FLC/FLT récupérés ont ou n'ont pas déjà d'équivalent dans la table WasGeneratedBy. Si il y a un équivalent, il est alors remplacé par le fichier et l'entité équivalente est supprimée
  • Réalisation d'un script SQL supprimant les masque en doublons dans entity et remplace le masque dupliqué dans used par celui que l'on décide de garde

Vendredi 31:

  • Fix d'un probmème de nommage de certaines entity
  • Problèmes de performances pour réaliser le mapping de Activity et Entity des tuiles

Juin

Lundi 3:

  • Création des tables Collection et WasInformedBy
  • Réalisation d'une procédure pour remplir ces deux tables
Mardi 4:
  • Problème de dupplication des informations dans Used pour les tuiles
  • Recherche de le raison du problème
Mercredi 5:
  • Le problème venait du fait qu'on lisait toutes les lignes d'un Npix pour en faire chacune une entité propre alors qu'il ne fallait faire qu'une entité par Npix pour Used
  • Réecriture du script python qui récupère les données des tuiles
  • Mapping pour ces Entity
  • Création d'indexes pour les tables Entity et Activity (id, nom et description)
Jeudi 6:
  • Récriture de la procédure qui s'occupe de Used dans pour les tuiles
  • Problème d'espace disponible trop faible; changements pour gagner plus d'espace pour pouvoir continuer à insérer dans la base
  • Ecriture d'un script permettant de récupérer les paramètres des fichiers DRZ et DRC
  • Création d'une table de travail pour les paramètres
  • Création de la table paramètre
  • Problèmes de performances pour la base; changements de paramétrage avec le tuteur
Vendredi 7:
  • Ecriture d'une procédure pour le mapping de ces paramètres
  • Fix de cette procédure; les paramètre étaient liés dans la table à des activité qui avaient des paramètres similaires mais qui ne provenaient pas de la bonne entité
Mardi 11:
  • Problèmes de performance pour le script Used pour les tuiles
  • Récréation d'indexes pour la table Entity; indexes différents pour les colonnes d'identifiant et de nom
  • Solution trouvée pour la performance du script pour tuiles dans la table Used
Mercredi 12:
  • Duplication des entity non déjà présentes lors de l'exécution du script pour les tuiles Used
  • Début des requêtes optimisées
  • Tests de requêtes pour obtenir le provenance des tuiles
  • Recherche sur les cross-database queries
Jeudi 13:
  • Transfert de la base de travail vers la base de donnée Provenance
  • Vérifications de la cohérance de la base en retraçant la provenance de tuiles HiPS
  • Ecritures de requêtes pour que les utilisateurs puissent retracer la provenance des tuiles
  • Ecritures de requêtes pour obtenir les paramètres d'une activité donnée

Liens

  • ...

Versions testables

  • ...

Documentation

  • ...

Liste des améliorations à envisager

  • Ajouter les données manquantes, comme la Location par exemple
  • Faire la Provenance passive
  • Ajouter les Agents
  • Finir la partie ActivityConfiguration

Bugs connus

  • Les context images, weight images et science images ont toutes le même commentaire
  • Les images calibrées ont le même commentaire que leur équivalent RAW
  • Certains DRC/Z (science image) n'apparraissent pas dans WasGeneratedBy, alors que leur équivalent context image et weight image oui
  • Certains DRC/Z n'ont pas d'équivalent context image et weight image
  • Il manque des FLC/T et DRZ/C dans la base
Topic revision: r64 - 2019-06-14 - AnaisEgner
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback