Difference: ProjectStatus (17 vs. 18)

Revision 182008-06-24 - ChristianBonnin

 
META TOPICPARENT name="AutomaticRecognitionObjectNames"
-- ChristianBonnin - 16 May 2006

Extraction du texte

La première étape est l'écriture d'un extracteur de texte à partir d'un document PDF avec les caractéristiques suivantes :

Fonctionnalité Réalisée
Extraction dans l'ordre du texte sur plusieurs colonnes 16/05/2006
Programme configurable facilement au moyen d'un fichier texte (au format XML) 16/05/2006
Possibilité de configurer l'espacement minimum entre les mots (des mots séparés peuvent se retrouver collés dans le texte extrait) 16/05/2006
Reconnaissance de caractères Unicode spéciaux (ex : ligatures ff, fl ou fi) 17/05/2006
Reconnaissance des caractères Unicode de l'alphabet grec avec écriture en clair dans le texte extrait (alpha, beta, ...) 17/05/2006
Reconnaissance des caractères Unicode des caractères spéciaux présents dans les noms d'objet : {}[]()-+* 17/05/2006
Recollage des moitiés de mots séparées par une césure 17/05/2006
Paramètres pour préciser l'éditeur et la date et choix de la configuration en conséquence 18/05/2006
Suppression du texte présent dans les bas et hauts de pages (numéro de page, titre de l'article, nom de l'auteur, ...) 18/05/2006
Suppression des caractères placés en exposant pour indiquer un renvoi en bas de page 18/05/2006
Extraction à la fin des notes de bas de page 22/05/2006
Extraction à la fin des tableaux avec leurs légendes 22/05/2006
Extraction à la fin des légendes des illustrations 23/05/2006
Interprétation correcte des polices incorporées graphique
Changed:
<
<
Reconnaissance des symboles présents dans un fichier image non
>
>
Reconnaissance des symboles présents dans un fichier image non
 
Détection du paragraphe de description des auteurs (entre le titre et le résumé) et ne pas y chercher de noms 21/06/2007

Résultats d'extraction

Document Date Résultat
Astrophysical Journal 10/2005 extraction ApJ
Astronomy & Astrophysics 03/2006 extraction A&A
MNRAS 05/2006 extraction MNRAS

Interprétation des polices incorporées

Fonctionnalité Réalisée
Utilisation de la bibliothèque jpedalSTD.jar pour extraire le dessin des caractères dans des fichiers image 26/10/2006
Présentation des images à l'utilisateur pour lui permettre de leur donner une signification 09/11/2006
Comparaison des images obtenues avec les images des symboles connus 08/11/2006
Remplacement des symboles par leur signification dans le texte extrait 06/11/2006
Comparaison d'images : nombre de points communs après les avoir ramenées à la même largeur 14/11/2006
Utilitaire de comparaison de symboles avec visualisation des parties communes 15/11/2006
Répertoire des symboles connus dépendant de l'éditeur 15/01/2007
META FILEATTACHMENT attr="" comment="Astrophysical Journal" date="1148373717" name="apj632.pdf" path="apj632.pdf" size="197696" user="ChristianBonnin" version="1.1"
META FILEATTACHMENT attr="" comment="Astronomy & Astrophysics" date="1148373958" name="aaalphaper.pdf" path="aaalphaper.pdf" size="1418112" user="ChristianBonnin" version="1.1"
META FILEATTACHMENT attr="" comment="MNRAS" date="1148374007" name="mnras10145.pdf" path="mnras10145.pdf" size="706286" user="ChristianBonnin" version="1.1"
META FILEATTACHMENT attr="" comment="extraction MNRAS" date="1148374061" name="ext.txt" path="ext.txt" size="113518" user="ChristianBonnin" version="1.1"
META FILEATTACHMENT attr="" comment="extraction A&A" date="1148374840" name="extAA.txt" path="extAA.txt" size="66921" user="ChristianBonnin" version="1.1"
META FILEATTACHMENT attr="" comment="extraction ApJ" date="1148374933" name="extApJ.txt" path="extApJ.txt" size="56135" user="ChristianBonnin" version="1.1"
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback