Tags:
create new tag
, view all tags

Djin2 - Entraînement et Apprentissage

Pour détecter automatiquement des objets astronomiques dans un document, Djin2 utilise la librairie Grobid.

La détection est réalisée à partir d'un modèle probabiliste généré lors d'une phase d'apprentissage.

Comprendre les résultats d'évaluation

  • Token-level : Scores pour chaque token (mot) correct.
  • Field-level : Scores pour chaque entité (ensemble de mots) correcte.
  • Instance-level : Scores pour chaque paragraphe/document correct (moins intéressant d'après Patrice).

  • Precision : correspond au nombre d'objets corrects parmi ceux qui ont étés trouvés par Grobid.
  • Recall (ou couverture) : correspond au nombre d'objets corrects parmi tous ceux qui auraient du être trouvés.
  • F1 : Rapport precision/recall, indicateur de qualité
https://en.wikipedia.org/wiki/Precision_and_recall

Déplacer curseur faux négatifs/faux positifs

Les documentalistes sont prêts à avoir plus de bruit (plus de faux positifs), si en contre partie on réduit drastiquement les objets manqués (moins de faux négatifs).
Il serait donc utile de déplacer ce curseur, mais Grobid n'est pas adapté pour le faire dynamiquement.
Pour ce faire, il faut modifier les fichiers d'entraînement : en réduisant le nombre de paragraphes qui n'ont aucun objet.
Ainsi les statistiques seraient biaisées, et Grobid trouverait plus souvent des objets.

Topic revision: r2 - 2017-02-02 - VincentKaestle2
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback