Création de DOI pour Vizier
Beaucoup de blabla, le document explique brièvement le contexte
DataCite et les enjeux. Le document liste ensuite les méta-données
DataCite, et pose un certain nombre de questions.
Pour plus d'informations, on peut se reporter aux URL suivantes:
Le contexte
Les acteurs.
Les DOI sont contrôlés par IDF (International DOI foundation) disposant de 10 agences dont DataCite .
Datacite est une agence d'enregistrement des DOI (non lucratif), il propose les services suivant:
- (Metadata store) création DOI, identifiants uniques pour des ressources pérennes.
- (Metadata schema) propose un ensemble de méta-données qui sont exposés via le protocole OAI-PMH
- (Metadata search) moteur de recherches
L'Inist (CNRS) est l'agence francaise d'attribution DOI. Elle comprend les activités suivantes:
- assistance pour la création + conversion des fichiers de méta-données
- fournit un accès à la plate forme Metadata Store de DataCite
Note: la relation datacenter-Inist se fait par contrat (3ans reconductible) ~180euros/an
En résumé: CDS -> Inist ->
DataCite -> Fondation Internationale DOI
Pourquoi générer des DOI dans VizieR ?
Des DOI sont aujourd'hui générés par les publishers sur les articles. En quoi des DOI
VizieR seraient utiles?
- pour citer les données
- pour formatter les citations de manière standards (propose plusieurs styles de citations)
- permet de trouver les URL/repositories : un clique sur un DOI envoie automatiquement à la bonne URL
- dispose d'un moteur de recherche : https://www.datacite.org/services/format-your-citation.html
- permet d'obtenir des statistiques d'utilisations
Pour
VizieR, le DOI permet d'étendre la visibilité du couple service/ressources.
A voir?
Soit: DOI
VizieR = ressources (tables/catalogues/données associées) + les services d'accès (ftp, web pages, tap, hips ..)
Le DOI
VizieR inclurait aussi l'accès aux méta-données et les valeurs ajoutées
VizieR. De plus, dans le cas des tables, ce sont les tables
VizieR et non pas les tables originales qui seraient référencées par le DOI.
A voir ? En cela il est bien complémentaire aux DOI des publishers.
Note sur l'identification IVOA.
L'IVOA avec le registry permet une identification pérenne des ressources incluant les services associées à leur exploitation (ex: cone serach sur un catalogue VizieR).
Aujourd'hui, des personnes s'interrogent pour ajouter les DOI/ORCID dans le schémas des registries. Certains ont évoqué la possibilité d'un service VO pour la génération de ces DOI.
La proposition a été refusé.
Il est cependant intéressant de comprendre pourquoi.
- Les registries VO sont basés sur le même protocole OAI-PMH que le sont les DOI.
- Générer des DOI dans le cadre du VO signifie des citations sur les services VO et indirectement des ressources du VO (VizieR par exemple).
Cela permettrait une meilleure visibilité des services rendus par le VO.La génération de DOI dans le VO pourrait être considérée comme une évolution nécéssaire sur un service de registry quelquefois critiqué.
Cependant, il s'agit ici d'un organisme tiers qui créerait des DOI sans avoir la charge des ressources (maintenance, préservation, curation).
Le CDS (francoise notamment) est catégorique la dessus: c'est impossible! - quid, si des ressources VO devenaient inaccessible? et comment l'IVOA purrait s'assurer de la qualité des données ?
De plus, on peut s'interroger sur la réactivité d'un tel procédé pour la mise à jours de DOI existant.
Il semble donc préférable que l'on conserve l'accès et la gestion des DOI sur les services/ressources de
VizieR.
La granularité des DOI VizieR
Sur quoi peut on générer des DOI?
Il n'existe pas de limitations techniques ou budgétaires.
Possibilité d'attribution de DOI:
- sur les services : site web VizieR. Doit on aussi ajouter les services TAPVizieR, données associées , FTP, Hips?
- sur les catalogues : ?
- sur les tables : ?
- sur toutes les données associées : images, spectres.. ?
Note: il est possible de lier des DOI selon une notion de dépendances (ex: une table appartient à un catalogue). Dans ce cas, chaque DOI doit avoir un sens propre.
DOI sur les données associées
Vu la volumétrie (>1,000,000) cela ne semble pas envisageable. De plus, y a t'il un interret à citer une ressource type FITS déposée dans
VizieR?
DOI sur les tables
permettrait des citations sur une table
VizieR qui inclue valeur ajoutée + méta-données (et portant sur les tables
VizieR et non pas sur les tables originales).
Cela permettrait d'étendre les liens tels qu'il existent aujourd'hui dans les journaux A&A ou ADS.
Note: les noms des tables peuvent évoluer aujourd'hui (voir être modifiées: méta-données, valeurs-ajoutées, fusion..).
Peut on alors les identifier de manière pérennes? et comment?
Notes:
- (-) les tables peuvent etre transformées même après publication dans VizieR: ex: fusion
- (-) les mots clés sont propre aux catalogues et pas aux tables
- (-) Les noms de catalogues/tables peuvent changer de section: les catalogues B
- (+) a l'instar de l'IVOA , ou l'on regrette aujourd'hui la granularite "catalogue" au lieu de "table": les protocoles sont propres aux tables
- (+) possibilité d'attribuer desmots cles automatiquement a patir des UCD
Note: il est possible de modifier le contenu des méta-données d'un enregistrement DOI : à voir quels sont ces méta-données modifiable? Le nom de la table doit il intervenir dans l'identifiant ?
Note: il existe 3 possibilités pour les DOI portant sur des données fluctuantes:
- citer une partie relative à une période
- snapshot
- citer des données continuellement mis à jour: mais ajouter une date
Note:
conserver les date d'historisations??
DOI sur les catalogues.
Celui-ci est aussi à prendre en compte si l'on créé des DOI sur les tables: les données associées ne sont pas liés à une table mais souvent au catalogue.
Or le service données associées pourraient être contenu dans les méta-données DOI.
Responsabilité de l'usagé, créateur de DOI
- qualité/pertinence des données
- veiller à la conservation et accessibilité
- page descriptive (landing page accessible). Cette page contient :
- la citation
- les métadonnées descriptives
- les informations concernant l’accès à l’objet (URL, conditions d’obtention,restrictions, etc.)
- les informations pour lire l’objet (logiciels, contexte, autres informations nécessaires à l’interprétation.).
- éventuellement une information spécifiant l’indisponibilité des données
Informations nécessaires pour créer un centre de données:
- symbole de l’organisme: CDS
- nom développé de l’organisme: Centre de données de Strasbourg
- nom de la personne contact et son email: ? CDSquestion ?
- nom de domaine où sont stockées les données: unistra.fr ou .u-strasbg.fr ?
Méta-données DOI
Données nécessaires à la création d’un DOI
- Nom du DOI (format<votre préfixe>/<suffixe unique>)
- le préfixe est donné par DataCite
- le suffixe est donné par le CDS (ex: VizieR)
- Landing page: page de référence. Que choisir?
- Elément des méta-données obligatoires au format XML
Détail des méta-données (M: mandatory, R: recommended, O: optional)
voir :
http://schema.datacite.org/meta/kernel-3/doc/DataCite-MetadataKernel_v3.1.pdf
|
Paramètres |
|
Explications |
M |
IDENTIFIER |
(1) |
DOI (e: xxxx/VizieR/I/239) |
M |
CREATOR |
(1-n) |
auteurs [orcid] [affiliation] (Note: possibilité d'utiliser un autre id que orcid) |
M |
TITLE |
(1-n) |
catalogue title [subtitle/alternative title/translated title] |
M |
PUBLISHER |
(1) |
CDS |
M |
PUBLICATIONYEAR |
(1) |
année de publication de l'article |
R |
SUBJECT |
(0-n) |
keyword, classification, phrase -> possibilité d'ajouter le type de keyword et URL explicative |
R |
CONTRIBUTORS |
(0-n) |
co-auteurs [type] [orcid] [affiliation] type: existe une liste, ex: researchGroup, editor, manager, datacurator (voir doc) |
R |
DATE |
(0-n) |
date [dateType] dateType: created, available, updated... (voir doc) |
O |
LANGUAGE |
(0-1) |
|
R |
RESSOURCETYPE |
(0-1) |
text [type] text ex: Text, XML, VOTable, Abstract ... type: dataset, software, collection, service, image, model ... (voir doc) |
O |
ALTERNATEIDENTIFIER |
(0-n) |
(free)text /URL [(free) type] ex text: pour des (sous)ressources s'appliquant à la ressource principale: nom de la table, du catalogue, bibcode, hips... ex type: "internal ID" (vizier ID) ou "URL" |
R |
RELATEDIDENTIFIER |
(0-n) |
(free)text [type] [relationType] [uri] ex text: ressources liées : url eso, bibcode, DOI publisher type ex: DOI, URL, bibcode, arXiv... voir doc relationType ex: isCitedBy, isSupplementTo, isREferencedBy, isPartOf, isIdenticalTo, hasMetaDAta,isNewVersionOf, isDerivedFrom... (voir doc) |
O |
SIZE |
(0-n) |
|
O |
FORMAT |
(0-n) |
(free)text ex: PDF,HTML, XML, JPEG... |
O |
VERSION |
(0-1) |
|
O |
RIGHTS |
(0-n) |
(free)text [uri] |
O |
DESCRIPTIONS |
(0-n) |
(free)text [descriptionType] ex desciptionType: abstract, tableofcontents ... |
O |
GEOLOCALISATION |
(0-1) |
|
Quelques exemples
Exemple de Fichiers XML
Quelques questions
L'identifiant DOI
Comment on le construit?
Format identifiant DOI : préfixe_DataCite/suffixe_CDS
en cas de changement de nom VizieR: ex cat B --> cat II , VizieR cree des redirections et ajoute la mention "Obsolete"; est ce possible dans les DOI????
peut etre pas de DOI pour les B????
Pour le suffixe CDS, on met ce quon veut (
DataCite recommande que le suffixe soit opaque).
C'est à dire on peut utiliser comme suffixe l'identifiant catalogue/table (non opaque) ou bien générer un id unique indépendant du nom
(nous en avons: ex: II/246 -> 1246, J/A+A/540/A43 -> 35400043).
Ex: (cas d'un DOI sur une table - si l'on choisissait cette granularité) - table II/246/out (2MASS)
10.5072/VizieR.1246.1 # 1=METAtab.tabid, 1246=METAtab.catid
10.5072/VizieR.1246.out
10.5072/VizieR.II/246/out # note: vérifier si le '/' ou le '+' sont acceptes
10.5072/VizieR.II/246.1
Ex: catalogue J/A+A/540/A43 construit à partir du bibcode
10.5072/VizieR.2012A&A...540A..43B #Note: à vérifier si le caractère '&' est autorisé!
Contenu des méta-données: quelques questions (liste non exhaustive)
- ajout de l'ORCID: nécessite des modifications dans les méta-données (le DOI sera lui même ajouté dans METAcat ou METAtab)
- pour un DOI sur le service VizieR: créateur=Francois, et les contributeurs ???
- liste des références liées aux données:
- créateur des données (ex: agence ESO) ?
- journaux d'origines (DOI publisher) ?
- ADS ?
- A voir aussi comment "nommer" le lien avec les ressources (cf les possibilités de valeur pour l'attribut du fichier XML "relationType")
- liste des autres identifiants ?
- bibcode ?
- nom VizieR (ex:II/246)?
- IVOA identifiant?
- liste des service d'accès: ftp, TAP, IVOA, ...?
Il y a 2 possibilités:
- ajouter les URL d'accès dans les méa-données dans le fichier XML
ces URL seraient lisible dans une recherche DataCite: ex: http://data.datacite.org/10.5281/ZENODO.31721 ou par par la "landing page" du CDS (à construire)
- (ou) alors se limiter à une "landing page" indépendante listant l'ensemble des services disponibles
- les mots clés ? utilisation de ADC_keywords, ou + ?
- ajout systématique de mots clés définissant le contexte scientifique (exemple: "astronomy")
- ajout des mots clé VizieR ( cf. "Wavelength", "Mission", "Asronomy")
- ajout de l'abstract ?
- ...
Bilan des méta-données proposées
Liste identifiants:
- nom vizier
- bibcode (related) et DOI publisher (related)
- DOI sur centre de donnees ESO, ... s'il existe...: mais non automatique! (?????)
- ivoID
URL:
Note: ou mettre les URL: dans le fichier XML ou la landing page uniquement!
- VizieR
- donnees associees
- article journal (bibcode ou DOI)
- FTP, ReadMe ?? BOF!
- lien eventuel vers centre spacial/site exterieur
- [TAPVizieR]
Note: mise a jour plus complexe des URL si elles sont mis dans le fichier XML
Landing page:
- abstract
- auteur, co-auteurs
- identifiants
- date creation + modification
- titre
- mots cles
- liens vers VizieR, ReadMe???
- [coverage]
- [hips]
-- Main.GillesLandais - 2016-04-11