ObjNameMachineLearning < Projets

-- ChristianBonnin - 07 Aug 2007 ++ Intégration du module d'apprentissage Weka

Weka est un module d'exploration de données (data mining) contenant des algorithmes d'apprentissage.
Il est également utilisé par le projet VO-Tech AstroWeka.
A partir de données d'entrainement sur des noms d'objet corrects et incorrects un algorithme tente de déterminer si les nouveaux noms sont du bruit ou non.

Les informations disponibles pour chaque nom d'objet sont les suivantes :

Type de position (titre, résumé, sous-titre, texte, table, ...)
Nom d'occurences
Séparateur avant
Séparateur après
Longueur du nom
Longueur de l'acronyme
Première lettre (ou chiffre) de l'acronyme
Longueur du nom moins celle de l'acronyme
Existence de l'objet dans SIMBAD
La ligne commence-t-elle avec un chiffre
La ligne finit-elle avec un nombre entre parenthèses (comme les formules mathématiques)
Nombre de mots parmi ceux habituellement présents dans les adresses (Observatoire, Laboratoire, Institut, Université, cedex, ...)
Est-ce un nom d'auteur de la liste des références suivi d'une année (référence bibliographique)?
Nombre de caractères non reconnus ou en indice dans la ligne

Nombre de mots de la ligne faisant penser qu'il ne s'agit pas d'un nom d'objet (spectral, type, catalog, telescope, ...)
Nombre de mots de la ligne faisant penser qu'il s'agit bien d'un nom d'objet (globular, cluster, galaxy, ...), en corrélation avec le type SIMBAD de l'objet

+++ Description des fonctionnalités

La fonctionnalité de détection automatique du bruit doit être activée dans les préférences.
L'évaluation des noms d'objet est effectuée en dernier après leur recherche dans SIMBAD.
Les mauvais noms sont retirés de l'arborescence et placés dans la liste des noms rejetés.
Cette liste peut être affichée avec le menu Names, Display rejected names.
Les noms abusivement rejetés peuvent être remis dans l'arborescence.
Une option du programme permet d'enrichir le fichier des données d'entrainement à chaque fois que l'on ajoute tous les noms dans la liste des identificateurs.

Topic revision: r2 - 2007-10-04 - ChristianBonnin

Account
- Log In
- Register User

Centre de Données astronomiques de Strasbourg

Edit
Attach