Tags:
create new tag
, view all tags
-- ChristianBonnin - 16 Sep 2009

Détection de mots-clefs dans la bibliographie des catalogues de VizieR

La bibliographie des catalogues est d'abord regroupée dans une liste de validation (fichiers ReadMe et documents PDF identifiés par leur bibcode).
La liste complète des catalogues a été obtenue avec findcat -s .

Cette liste pointe sur une arborescence de fichiers en local contenant :

  • les fichiers ReadMe décrivant les catalogues (7883 fichiers)
  • les fichiers PDF cités dans les références bibliographiques des catalogues (7870 fichiers nommés bibcode.pdf)
    • un fichier de même nom et d'extension .containstext si du texte peut être extrait du document PDF (5459 fichiers)
    • un fichier de même nom et d'extension .txt contenant le résultat du passage d'un OCR si le PDF ne contient que les images des pages (2394 fichiers)

Extrait de la liste des catalogues et documents :

...
I/203/;file:///data/vizier/cats/I/203/1994BICDS..44....9P.txt
I/203/;file:///data/vizier/cats/I/203/ReadMe
I/208/;file:///data/vizier/cats/I/208/1994A&AS..105..301R.txt
I/208/;file:///data/vizier/cats/I/208/ReadMe
I/294/;file:///data/vizier/cats/I/294/ReadMe
I/282/;file:///data/vizier/cats/I/282/2002A&A...395..347E.pdf
I/282/;file:///data/vizier/cats/I/282/ReadMe
...

Le programme DJIN est ensuite utilisé pour générer une liste de vecteurs correspondant aux occurrences des mots-clefs détectés dans ces documents.

Les nombres d'occurrences sont pondérés en fonction de la position dans le document (titre, abstract, mots-clefs, ...).
DJIN est capable de reconnaître les différences parties des fichiers ReadMe et d'en extraire les listes d'auteurs.

Lors de cette étape, DJIN génère les fichiers suivants :

  • list.txt.csv : liste de vecteurs donnant l'occurrence de chaque groupe de mots-clefs dans chaque catalogue
  • keys.txt : liste des mots-clefs issue du fichier liste
  • cat_authors.txt : liste des auteurs de chaque catalogue issue des ReadMe

Extrait de la liste des vecteurs :

Num/Occurences
I/261/ 3 66 184 194 195 211 218
OCCS: 53 0 4 1 6 2 2
I/251/ 3 6 9 18 22 24 30 33 36 164 165 177 194 195 197 207 211 214 220 249 254 264
OCCS: 3 2 6 1 29 7 2 8 2 1 7 15 1 3 1 3 1 0 1 1 12 105
...
Pour chaque catalogue la première ligne indique les numéros des groupes de mots-clefs détectés et la deuxième le nombre d'occurrences pour ces groupes de mots.

Moteur de recherche utilisant les mots détectés

Le programme cds.vizier.FindCatalog de l'archive Java objectname.jar effectue à partir de ces trois fichiers les actions suivantes :
  • recherche des mots-clefs dans la chaîne de recherche
  • "produit scalaire" entre les vecteurs de la chaîne et des catalogues
  • recherche des noms d'auteur dans la chaîne de recherche. chaque nom d'auteur trouvé augmente le score d'un nombre qui est fonction de la position dans la liste des auteurs.
  • recherche de noms de catalogues dans la chaîne de recherche
  • recherche de coordonnées dans la chaîne de recherche
  • affichage d'une liste de vecteurs en fonction de leur score

Premier prototype sur ma machine (lorsqu'elle est allumée).

Diagramme des différentes étapes

Contrôle des résultats :

A partir d'un nom de catalogue, le calcul de son score peut être effectué à nouveau pour repérer les mots-clefs et leurs positions dans les documents disponibles.

Les paramètres intervenant dans le calcul du score sont affichés à la fin des détails

Une liste des recherches effectuées sur un mois dans VizieR permet de comparer les résultats des différentes recherches pour les deux moteurs de recherche.

La liste des mots-clefs détectés dans les documents peut être consultée.

Un mode du programme FindCatalog permet d'effectuer une liste de recherches et de compter pour chacune le nombre de résultats retournés. Ce qui permet de détecter des recherches ne donnant aucun résultat.

Topic attachments
I Attachment Action Size Date Who Comment
PNGpng vizierSearchDiagram.png manage 45.4 K 2009-09-18 - 15:49 UnknownUser Vizier Search Diagram
Topic revision: r6 - 2009-09-22 - ChristianBonnin
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback