--
ChristianBonnin - 16 May 2006
Extraction du texte
La première étape est l'écriture d'un extracteur de texte à partir d'un document PDF avec les caractéristiques suivantes :
Fonctionnalité |
Réalisée |
Extraction dans l'ordre du texte sur plusieurs colonnes |
16/05/2006 |
Programme configurable facilement au moyen d'un fichier texte (au format XML) |
16/05/2006 |
Possibilité de configurer l'espacement minimum entre les mots (des mots séparés peuvent se retrouver collés dans le texte extrait) |
16/05/2006 |
Reconnaissance de caractères Unicode spéciaux (ex : ligatures ff, fl ou fi) |
17/05/2006 |
Reconnaissance des caractères Unicode de l'alphabet grec avec écriture en clair dans le texte extrait (alpha, beta, ...) |
17/05/2006 |
Reconnaissance des caractères Unicode des caractères spéciaux présents dans les noms d'objet : {}[]()-+* |
17/05/2006 |
Recollage des moitiés de mots séparées par une césure |
17/05/2006 |
Paramètres pour préciser l'éditeur et la date et choix de la configuration en conséquence |
18/05/2006 |
Suppression du texte présent dans les bas et hauts de pages (numéro de page, titre de l'article, nom de l'auteur, ...) |
18/05/2006 |
Suppression des caractères placés en exposant pour indiquer un renvoi en bas de page |
18/05/2006 |
Extraction à la fin des notes de bas de page |
22/05/2006 |
Extraction à la fin des tableaux avec leurs légendes |
22/05/2006 |
Extraction à la fin des légendes des illustrations |
23/05/2006 |
Interprétation correcte des polices incorporées |
graphique |
Reconnaissance des symboles présents dans un fichier image |
non |
Détection du paragraphe de description des auteurs (entre le titre et le résumé) et ne pas y chercher de noms |
21/06/2007 |
Résultats d'extraction
Interprétation des polices incorporées
Fonctionnalité |
Réalisée |
Utilisation de la bibliothèque jpedalSTD.jar pour extraire le dessin des caractères dans des fichiers image |
26/10/2006 |
Présentation des images à l'utilisateur pour lui permettre de leur donner une signification |
09/11/2006 |
Comparaison des images obtenues avec les images des symboles connus |
08/11/2006 |
Remplacement des symboles par leur signification dans le texte extrait |
06/11/2006 |
Comparaison d'images : nombre de points communs après les avoir ramenées à la même largeur |
14/11/2006 |
Utilitaire de comparaison de symboles avec visualisation des parties communes |
15/11/2006 |
Répertoire des symboles connus dépendant de l'éditeur |
15/01/2007 |