Djin2 - Entraînement et Apprentissage
Pour détecter automatiquement des objets astronomiques dans un document, Djin2 utilise la librairie Grobid.
La détection est réalisée à partir d'un modèle probabiliste généré lors d'une phase d'apprentissage.
Comprendre les résultats d'évaluation
- Token-level : Scores pour chaque token (mot) correct.
- Field-level : Scores pour chaque entité (ensemble de mots) correcte.
- Instance-level : Scores pour chaque paragraphe/document correct (moins intéressant d'après Patrice).
- Precision : correspond au nombre d'objets corrects parmi ceux qui ont étés trouvés par Grobid.
- Recall (ou couverture) : correspond au nombre d'objets corrects parmi tous ceux qui auraient du être trouvés.
- F1 : Rapport precision/recall, indicateur de qualité
https://en.wikipedia.org/wiki/Precision_and_recall
Déplacer curseur faux négatifs/faux positifs
Les documentalistes sont prêts à avoir plus de bruit (plus de faux positifs), si en contre partie on réduit drastiquement les objets manqués (moins de faux négatifs).
Il serait donc utile de déplacer ce curseur, mais Grobid n'est pas adapté pour le faire dynamiquement.
Pour ce faire, il faut modifier les fichiers d'entraînement : en réduisant le nombre de paragraphes qui n'ont aucun objet.
Ainsi les statistiques seraient biaisées, et Grobid trouverait plus souvent des objets.