--
ChristianBonnin - 16 Sep 2009
Détection de mots-clefs dans la bibliographie des catalogues de VizieR
La bibliographie des catalogues est d'abord regroupée dans une liste de validation (fichiers ReadMe et documents PDF identifiés par leur bibcode).
La liste complète des catalogues a été obtenue avec
findcat -s .
Cette liste pointe sur une arborescence de fichiers en local contenant :
- les fichiers
ReadMe
décrivant les catalogues (7883 fichiers)
- les fichiers PDF cités dans les références bibliographiques des catalogues (7870 fichiers nommés bibcode.pdf)
- un fichier de même nom et d'extension
.containstext
si du texte peut être extrait du document PDF (5459 fichiers)
- un fichier de même nom et d'extension
.txt
contenant le résultat du passage d'un OCR si le PDF ne contient que les images des pages (2394 fichiers)
Extrait de la liste des catalogues et documents :
...
I/203/;file:///data/vizier/cats/I/203/1994BICDS..44....9P.txt
I/203/;file:///data/vizier/cats/I/203/ReadMe
I/208/;file:///data/vizier/cats/I/208/1994A&AS..105..301R.txt
I/208/;file:///data/vizier/cats/I/208/ReadMe
I/294/;file:///data/vizier/cats/I/294/ReadMe
I/282/;file:///data/vizier/cats/I/282/2002A&A...395..347E.pdf
I/282/;file:///data/vizier/cats/I/282/ReadMe
...
Le programme DJIN est ensuite utilisé pour générer une liste de vecteurs correspondant aux occurrences des mots-clefs détectés dans ces documents.
Les nombres d'occurrences sont pondérés en fonction de la position dans le document (titre, abstract, mots-clefs, ...).
DJIN est capable de reconnaître les différences parties des fichiers
ReadMe
et d'en extraire les listes d'auteurs.
Lors de cette étape, DJIN génère les fichiers suivants :
- list.txt.csv : liste de vecteurs donnant l'occurrence de chaque groupe de mots-clefs dans chaque catalogue
- keys.txt : liste des mots-clefs issue du fichier
liste
- cat_authors.txt : liste des auteurs de chaque catalogue issue des
ReadMe
Extrait de la liste des vecteurs :
Num/Occurences
I/261/ 3 66 184 194 195 211 218
OCCS: 53 0 4 1 6 2 2
I/251/ 3 6 9 18 22 24 30 33 36 164 165 177 194 195 197 207 211 214 220 249 254 264
OCCS: 3 2 6 1 29 7 2 8 2 1 7 15 1 3 1 3 1 0 1 1 12 105
...
Pour chaque catalogue la première ligne indique les numéros des groupes de mots-clefs détectés et la deuxième le nombre d'occurrences pour ces groupes de mots.
Moteur de recherche utilisant les mots détectés
Le programme
cds.vizier.FindCatalog
de l'archive Java
objectname.jar
effectue à partir de ces trois fichiers les actions suivantes :
- recherche des mots-clefs dans la chaîne de recherche
- "produit scalaire" entre les vecteurs de la chaîne et des catalogues
- recherche des noms d'auteur dans la chaîne de recherche. chaque nom d'auteur trouvé augmente le score d'un nombre qui est fonction de la position dans la liste des auteurs.
- recherche de noms de catalogues dans la chaîne de recherche
- recherche de coordonnées dans la chaîne de recherche
- affichage d'une liste de vecteurs en fonction de leur score
Premier prototype sur ma machine (lorsqu'elle est allumée).
Diagramme des différentes étapes
Contrôle des résultats :
A partir d'un nom de catalogue, le calcul de son score peut être effectué à nouveau pour repérer les mots-clefs et leurs positions dans les documents disponibles.
Les paramètres intervenant dans le calcul du score sont affichés à la fin des détails
Une
liste des recherches effectuées sur un mois dans
VizieR permet de comparer les résultats des différentes recherches pour les deux moteurs de recherche.
La
liste des mots-clefs détectés dans les documents peut être consultée.
Un mode du programme
FindCatalog
permet d'effectuer une liste de recherches et de compter pour chacune le nombre de résultats retournés. Ce qui permet de détecter des recherches ne donnant aucun résultat.