Tags:
create new tag
, view all tags
-- ChristianBonnin - 07 Aug 2007 ++ Intégration du module d'apprentissage Weka

Weka est un module d'exploration de données (data mining) contenant des algorithmes d'apprentissage.
Il est également utilisé par le projet VO-Tech AstroWeka.
A partir de données d'entrainement sur des noms d'objet corrects et incorrects un algorithme tente de déterminer si les nouveaux noms sont du bruit ou non.

Les informations disponibles pour chaque nom d'objet sont les suivantes :

  • Type de position (titre, résumé, sous-titre, texte, table, ...)
  • Nom d'occurences
  • Séparateur avant
  • Séparateur après
  • Longueur du nom
  • Longueur de l'acronyme
  • Première lettre (ou chiffre) de l'acronyme
  • Longueur du nom moins celle de l'acronyme
  • Existence de l'objet dans SIMBAD
  • La ligne commence-t-elle avec un chiffre
  • La ligne finit-elle avec un nombre entre parenthèses (comme les formules mathématiques)
  • Nombre de mots parmi ceux habituellement présents dans les adresses (Observatoire, Laboratoire, Institut, Université, cedex, ...)
  • Est-ce un nom d'auteur de la liste des références suivi d'une année (référence bibliographique)?
  • Nombre de caractères non reconnus ou en indice dans la ligne

  • Nombre de mots de la ligne faisant penser qu'il ne s'agit pas d'un nom d'objet (spectral, type, catalog, telescope, ...)
  • Nombre de mots de la ligne faisant penser qu'il s'agit bien d'un nom d'objet (globular, cluster, galaxy, ...), en corrélation avec le type SIMBAD de l'objet

+++ Description des fonctionnalités

La fonctionnalité de détection automatique du bruit doit être activée dans les préférences.
L'évaluation des noms d'objet est effectuée en dernier après leur recherche dans SIMBAD.
Les mauvais noms sont retirés de l'arborescence et placés dans la liste des noms rejetés.
Cette liste peut être affichée avec le menu Names, Display rejected names.
Les noms abusivement rejetés peuvent être remis dans l'arborescence.
Une option du programme permet d'enrichir le fichier des données d'entrainement à chaque fois que l'on ajoute tous les noms dans la liste des identificateurs.

Topic revision: r2 - 2007-10-04 - ChristianBonnin
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback