Fonctionnalité |
Réalisée |
Extraction dans l'ordre du texte sur plusieurs colonnes |
16/05/2006 |
Programme configurable facilement au moyen d'un fichier texte (au format XML) |
16/05/2006 |
Possibilité de configurer l'espacement minimum entre les mots (des mots séparés peuvent se retrouver collés dans le texte extrait) |
16/05/2006 |
Reconnaissance de caractères Unicode spéciaux (ex : ligatures ff, fl ou fi) |
17/05/2006 |
Reconnaissance des caractères Unicode de l'alphabet grec avec écriture en clair dans le texte extrait (alpha, beta, ...) |
17/05/2006 |
Reconnaissance des caractères Unicode des caractères spéciaux présents dans les noms d'objet : {}[]()-+* |
17/05/2006 |
Recollage des moitiés de mots séparées par une césure |
17/05/2006 |
Paramètres pour préciser l'éditeur et la date et choix de la configuration en conséquence |
18/05/2006 |
Suppression du texte présent dans les bas et hauts de pages (numéro de page, titre de l'article, nom de l'auteur, ...) |
18/05/2006 |
Suppression des caractères placés en exposant pour indiquer un renvoi en bas de page |
18/05/2006 |
Extraction à la fin des notes de bas de page |
22/05/2006 |
Extraction à la fin des tableaux avec leurs légendes |
22/05/2006 |
Extraction à la fin des légendes des illustrations |
23/05/2006 |
Interprétation correcte des polices incorporées |
graphique |