MDA - ontologies Notes de la reunion du 13 mai 2004 Participants: S. Derriere, P. Dubois, F. Genova, S. Lesteven, A. Napoli Objectif: discuter des elements necessaires pour une premiere definition d'une ontologie derivee des UCD1+ liste des UCD1+ liste discutee a cette reunion: http://vizier.u-strasbg.fr/UCD/lists/ucd1p-words-20040426.txt liste la plus recente http://vizier.u-strasbg.fr/UCD/lists/ucd1p-words.txt dans ce qui suit, on essaiera d'appeler 'chemin' un ensemble de plusieurs elements relies par des '.'. Deux chemins sont separes par un ';' ex: phys.temp; arith.diff UCD1+: 12 'concepts' (?) elementaires, il y en avait ~27 dans les UCD1. forte demande pour limiter le nombre mais cela peut entrainer des problemes dans la liste des UCD1+: P = primaire, le chemin apparait seulement en premier, S = secondaire, le chemin apparait en seconde position seulement, Q = P ou S discussion successive de chacun de ces 'concepts' - arith arithmetique tres peu de mots commencant par arith: facteurs, exposants, gradients arith ne contient pas les operations arithmetiques utilise pour qualifier une propriete c'est une temperature vient toujours en deuxieme chemin phys.temp; arth.diff difference entre deux temperatures, l'UCD ne dit pas ce que sont les deux temperatures de depart phys.temp: un niveau (d'ordre conceptuel) arith.diff: un autre niveau (proprietes?) ; : separe concept et propriete? l'ordre est-il significatif? attention: une propriete est un concept - em electromagnetique decrit des proprietes spectrales en general sert a qualifier qqchose dit dans quel domaine du spectre ont ete mesures un flux et une magnitude phot.mag; em.opt.V magnitude mesuree dans la bande V qui fait partie du domaine optique du spectre electromagnetique mots commencant par arith: . quelques grands domaines de longueur d'onde (en accord avec le WG Registry): 7 domaines ex infrarouge, optique, radio meme genre que arith la plupart des chemins avec em= instances de 'bande passante dans le spectre' il y a aussi des mots pour dire bande passante dans 'instrument' . trois mots decrivent non pas une bande passante mais un valeur particuliere de la longueur d'onde (par opoosition a une bande comme definie ci-dessus): em.energy em.freq em.wl (wavelength) ils sont equivalents em decrit tout ce qui est un morceau du spectre, une longuer d'onde (ponctuelle) ou un domaine de longueur d'onde sur l'axe des frequences/longueurs d'ondes/energies, un point ou un segment il y a des relations mathematiques entre energie, frequence et longueur d'onde, les constantes qui apparaissent dans ces relations sont connues E=h.nu lambda=c/nu - instr instrument toutes les quantites qui ont a voir avec l'instrumentation au sens large: detecteur, telescope, spectrographe, etc un peu fourre-tout des chemins commencant par inst sont des concepts inst.tel = idee de telescope, qualifie une autre propriete ex: position sur terre d'un telescope meta.id;instr.tel nom ou identificateur d'un telescope temperature du telescope phys.temp;instr.tel on n'a pas voulu repeter les proprietes generales dans tous les mots possibles, factorisation instr.tel.focus longueur focale du telescope. c'est une quantite (valeur numerique) on est sense savoir de quel telescope on parle, on fera apparaitre meta.id s'il y a plusieurs telescopes possibles dans le contexte, si le nom du telescope n'apparait pas il n'y en a qu'un instr.tel.focus apparait seulement lie lie a l'idee du telescope, c'est une propriete du telescope au meme titre que son nom le concept de telescope est instr.tel ensuite des instances de telescope auront un nom, une longueur focale, ... le concept de 'nom' est general, il a ete factorise en creant un mot special. focus n'existe que pour un telescope pour le moment, mais on pourrait avoir besoin de creer focus d'un spectrographe... comment le construirait-on? - meta metadonnees tout ce qui n'etait pas des mesures: donnes biblio, codes, flags associes a certaines valeurs, ex magnitude 12.8+, le flag qualifie la qualite de la donnee on a mis dans meta les infos qui n'allaient pas ailleurs meta.id identification, nom, designation (d'une source, d'un instrument, ...) meta.id; instr.tel meta.id; src meta.main mesure principale, qualificateur, n'apparait jamis en premier. on peut le rajouter a un chemin pour dire que c'est la mesure principale, ex dans une table deux colonnes ra:ra, ra corrigee meta.main a ete cree pour faciliter le travail d'un outil automatique qui voudrait extraire une valeur de ra de la table. les deux colonnes auraient le meme UCD, on laisse l'auteur decider quelle colonne il faut prendre quand on cherche une ra dans les UCD1: pos_eq_ra, pos_eq_ra_main, il fallait creer un mot specifique pour donner la colonne 'principale' pour chaque type de donnees - obs tout ce qui a a voir avec les observations pas grand chose dedans, pourrait etre fusionner avec autre chose ex: masse d'air lors d'une observation obs.air:etat de l'atmosphere obs.air.mass: masse d'air, tres courant obs.param: des parametres tres specifiques, qu'il ne vaut pas la peine de singulariser avec un nom particulier (phase de la lune, distance a Jupiter lors de l'observation, ... obs.image: Secondaire, decrit le concept d'image, ex taille ou epoque d'une image numero de l'image: meta.id;obs.image phot 'le plus important' pour les astronomes (?), les astronomes mesurent des photons!! mesure de photometrie phot.mag magnitude phot.flux flux phot.count comptage de coups il y a des relations mais elles sont complexes... on fait toujours les mesures dans une portion du spectre ex en optique filtre, X ou radio la mesure se fait aussi dans une certaine bande passante on mesure un flux, on peut convertir en magnitude si on est en optique ou IR proche, on X on compte photon par photon (coups) 1/3 de l'arbre des UCD1, environ 500 UCD, pour la photometrie, on a rejete unepartie de la complexite dans em qui reprend la complexite des filtres une magnitude dans le domaine V du domaine optique phot.mag;em.opt.V les couleurs ont aussi a voir avec la photometrie: on trouve souvent des couleurs, qui sont des differences entre deux magnitudes, ce qui pose un probleme parce qu'une couleur peut etre une difference entre des magnitudes a n'importe quelle longueur d'onde et n'importe quelle autre couleur est un UCD tres frequent, la couleur est une valeur relative et c'est souvent ca qu'on peut mesurer proprement, la couleur permet aussi d'avoir une donnee comparable pour une etoile brillante ou une etoile faible par ex couleur generique: phot.mag;arith.diff on peut decrire tous les filtres avec em mais problemes avec les couleurs, il faudrait pouvoir nommer toutes les combinaisons possibles, combiner tous les em possibles avec tous les em possibles... strategie actuelle: mots pour les plus courants phot.color.B-V.Jhn, une vingtaine de couleurs specifiques Rq: on lit dans certains cas les chemins de droite a gauche et de gauche a droite, et ce n'est pas toujours lie a l'importance de l'un ou de l'autre (?) mais dans 'nom de telescope', c'est bien le nom qui est important et qui apparait en premier, pas le telescope, meme s'il peut sembler que l'importance est inverse - phys la physique les donnees atomiques et moleculaires sont dans phys (ce qui n'etait pas le cas dans les UCD1) at: donnees atomiques mol: donnees moleculaires (NB: c'est un domaine de travail du projet MDA, definition du contenu dans ce domaine interdisciplinaire) phys est tres divers, tres peu d'elements sont toujours primaires par exemple, les chemins 'phys' passnt en second quand il s'agit d'une mesure d'erreur sur une quantite ex: phys.mass c'est une masse phys.temp une temperature meta.code;phys.mass flag, c'est une valeur limite, un seuil..., sur une masse stat.error;phys.temp erreur de mesure sur la temperature (erreur standard) la designation des erreurs est un des points tres frequemment discutes: par ex: T(emperature)=8700 deltaT=200, i.e. la temperature = 8700 + ou - 200 certains voudraient ecrire phys.temp;stat.error parce que deltaT est aussi une temperature mais l'option prise dans les UCD1+ est concept=temperature attribut associe=erreur (a valider) la raison du choix: l'utilisateur cherche les tables qui contiennent une mesure de temperature, l'outil de recherche cherche phys.temp dans les descriptions des tables, renvoie les tables les plus pertinentes. dans une table donnee c'est phys.temp qui est significatif pour la recherche, l'erreur n'intervient que dans une requete ulterieure, dans la table (par ex avec un outil de trace qui dessinera les barres d'erreur). le regroupement temperature, erreur sur la temperature se fera au niveau de la description de la table. c'est une nouvelle fonctionnalite du standard XML VOTable copie de la version 1.09 de VOTable sur la page twiki de la reunion pages VOTable: http://www.ivoa.net/twiki/bin/view/IVOA/IvoaVOTable dans GROUP, plusieurs possibilites . un des FIELD est le concept, le ou les autres FIELD sont des proprietes . pour ra, dec, les champs d'une coordonnees Rq: ne pas se priver de pouvoir lire les UCD1+ dans les eux sens? Rq: la maniere dont on fait la mesure, qui renvoie a l'instrument de mesure, a son fonctionnement et aux conditions de mesure, sera probablement au coeur de la discussion a venir: une valeur mesuree, la facon dont on la calcule, des valeurs associees Rq: si on essayait de simplifier les UCD1+? de toutes facons il faut simplifier, ca a deja ete fait, mais on peut encore essayer de les voir differemment pour aboutir a une simplification - pos position c'est une mesure physique (de meme que phot ou time) phys: les proprietes physiques qui ne sont pas phot, pos, time phys.dist, distance a une objet ou entre deux objets, devrait-il aller dans pos? la troisieme dimension (les deux autres = position sur la sphere celeste), ou une difference entre deux positions les positions sont plutot des positions angulaires on a inclus dans les UCD1+ une certaine variete de systemes de coordonnees quel que soit le systeme, ou presque, il s'agit de reperer un point sur une sphere, sauf pos.det position dans le detecteur pos.gal.compon composantes cartesiennes des coord galactiques dans ra et dec, on distingue ra heure, ra minutes, ra secondes (meme chose pour dec), pas pour les autres systemes. c'est un chois pragmatique qui tient compte de ce que font les auteurs de tables. on a alors deux niveaux dans GROUP: coordonnees: ra et dec, puis h, m, s WCS World Coordinate System, standard pour la description des coordonnees en astro, maintenu par l'Union Astronomique Internationale, les mots sont utilises dans les en-tete - a expliciter dans la liste des UCD1+ (pour le moment par ex pos.wcs.crpix WCS CRPIX) pos.dec pos.ra;meta.main pos.eq.ra.minutes, les minutes dans l'ascension droite exemple a probleme: les cas ou une partie des coordonnees figurent dans le label de la colonne, ex 'RA (9h)', la colonne ne contient que des minutes et il faut pouvoir recomposer la valeur - spect donnees spectrales, parametres qui concernent les spectres raies, decalage doppler des raies, rapports de raies spect.line mesure de la longeur d'onde, largeur,... aussi des mesures physiques... pas seulement des raies: indice spectral le contenu de spec est different de celui de em - src ce qui a a voir avec les sources un peu fourre-tout classification: probabilite qu'un objet soit une etoile ou une galaxie src.class.star-galaxy type d'etoile, de galaxie morphologie de l'objet: les objets peuvent etre des sources etendues orbites des sources autour du soleil ou d'un compagnon variabilite on voit dans src la zoologie des methodes de classification grande variete de contenu, les valeurs peuvent souvent etre exprimees de plusieurs facons, le contenu n'est souvent pas dierctement interpretable src.orbital.periastron periastre d'une orbite on decrit les orbites en donnant les parametres de l'ellipse, mais il y a plusieurs facons de decrire une ellipse... il reste un travail a faire sur la facon de decrire les ellipses, qui n'est pas satisfaisante pour le moment. de plus, par ex, un demi-grand axe n'est pas forcement une orbite, il peut aussi etre un parametre de la description d'un objet etendu elliptique src.veloc: vitesse de la source (mouvement de la source) - stat statistiques essentiellement satistiques, moyenne, mediane, min, max, variance, ajustements (calcul de chi2) stat.error est un UCD non specialise, qui designe une erreur sans dire comment elle est obtenue dans les UCD1+, il permet d'exprimer une erreur sur une quantite quelconque, il est alors qualifie par la grandeur mesuree, phot, phys, time, ... (voir la discussion ci-dessus dans le paragraphe phys) dans les UCD1 il fallait creer un mot different pour l'erreur sur toutes les mesures stat.snr rapport signal sur bruit, peut etre un parametre d'un instrument - time le temps instants, durees, ages instants de debut ou de fin temps de relaxation echelle de temps d'un phenomene une colonne avec l'age des etoiles epoque ou on fait l'observation (date) time.epoch jour julien de l'observation, souvent utilise dans les listes d'observations (logs d'observations) age d'une etoile time.expo duree de l'exposition pour une observation Discussion __________ (voir aussi les Remarques - Rq - ci-dessus) - les UCD les plus frequents: phot, phys pos (?) - ebauche de familles: la proposition suivante a-t-elle un sens: Mesures phot phys pos (espace) temps em (?) Objets instr src obs(?) em (?) spect 'Quantites mathematiques' arith stat (le nom est peut-etre mal choisi parce que cette famille ne contient pas les expressions mathematiques) ou mettre meta? est-ce qu'objet et mesure sont differents? cela se retrouve par exemple quand on classe les informations et qu'on organise les outils de recherche dans une base de donnees qui decrit les sources astronomiques, on separe objets (ici sources) et mesures est-ce qu'em est dans mesure et spec dans objet? les personnes: auteurs, observateur: obs.observer meta.bib.author les quantites mathematiques ne s'applique-t-elles qu'a Mesure? definition de Mesure? Objet? on fait des mesures sur les objets on fait des mesures en utilisant les objets est ce que em et spec sont des sous-categories de phot? test possible: regarder les catagories qui sont souvent liees dans les UCD existants? quelle est la signification du ;? ontologie: est-ce qu'il y a un ordre d'importance ou de generalite? ou est-ce qu'il y a 12 concepts de base relations entre les concepts? exemple a mediter: les nombres N, Q R N dans Q dans R mais alors un entier est un reel l'autre sens de relation est aussi possible (extension) avec le meme probleme un vrai probleme de manipuler des nombres dans un langage de relations mesures = proprietes? objets = concepts? (en se souvenant que les proprietes sont aussi des concepts...) envoyer une vingtaine d'exemples avec des chemins associes et la maniere dont on les lit (sens de lecture) Y a-t-il un rapport avec la discussion sur l'etablissement d'un data model generique 'Quantity'? ne pas parier sur le succes de cette entreprise... - que peut-on esperer faire avec une ontologie? structuration des labels de colonnes avec des proprietes interroger l'ontologie: qu'est ce qu'on propose comme elements lies a mesure photometrique, ou se place la donnee dans l'ontologie elements qui peuvent etre utilises de facon syntactique mais aussi qui ont un sens par rapport au modele de relation on veut une structure qui a un sens il faut bien choisir les elements de l'ontologie parce qu'entre les elements il y a des relations pour le CDS: lever les ambiguites qui persistent, relations mathematiques: B et B-V donnent V ex de question: une source est un objet mais pratiquement tous les elements de src.* sont des mesures - exemple: personne=concept age=propriete l'age est un nombre domaine des valeurs de l'age est un concept age = nombre ou jeune, adulte, vieux - on part de l'arbre complet des UCD1+, on essaie d'avoir une premiere mouture d'ontologie pour septembre