Tags:
create new tag
, view all tags
-- ChristianBonnin - 16 May 2006

Extraction du texte

La première étape est l'écriture d'un extracteur de texte à partir d'un document PDF avec les caractéristiques suivantes :

Fonctionnalité Réalisée
Extraction dans l'ordre du texte sur plusieurs colonnes 16/05/2006
Programme configurable facilement au moyen d'un fichier texte (au format XML) 16/05/2006
Possibilité de configurer l'espacement minimum entre les mots (des mots séparés peuvent se retrouver collés dans le texte extrait) 16/05/2006
Reconnaissance de caractères Unicode spéciaux (ex : ligatures ff, fl ou fi) 17/05/2006
Reconnaissance des caractères Unicode de l'alphabet grec avec écriture en clair dans le texte extrait (alpha, beta, ...) 17/05/2006
Reconnaissance des caractères Unicode des caractères spéciaux présents dans les noms d'objet : {}[]()-+* 17/05/2006
Recollage des moitiés de mots séparées par une césure 17/05/2006
Paramètres pour préciser l'éditeur et la date et choix de la configuration en conséquence 18/05/2006
Suppression du texte présent dans les bas et hauts de pages (numéro de page, titre de l'article, nom de l'auteur, ...) 18/05/2006
Suppression des caractères placés en exposant pour indiquer un renvoi en bas de page 18/05/2006
Extraction à la fin des notes de bas de page 22/05/2006
Extraction à la fin des tableaux avec leurs légendes 22/05/2006
Extraction à la fin des légendes des illustrations 23/05/2006
Interprétation correcte des polices incorporées graphique
Reconnaissance des symboles présents dans un fichier image non
Détection du paragraphe de description des auteurs (entre le titre et le résumé) et ne pas y chercher de noms 21/06/2007

Résultats d'extraction

Document Date Résultat
Astrophysical Journal 10/2005 extraction ApJ
Astronomy & Astrophysics 03/2006 extraction A&A
MNRAS 05/2006 extraction MNRAS

Interprétation des polices incorporées

Fonctionnalité Réalisée
Utilisation de la bibliothèque jpedalSTD.jar pour extraire le dessin des caractères dans des fichiers image 26/10/2006
Présentation des images à l'utilisateur pour lui permettre de leur donner une signification 09/11/2006
Comparaison des images obtenues avec les images des symboles connus 08/11/2006
Remplacement des symboles par leur signification dans le texte extrait 06/11/2006
Comparaison d'images : nombre de points communs après les avoir ramenées à la même largeur 14/11/2006
Utilitaire de comparaison de symboles avec visualisation des parties communes 15/11/2006
Répertoire des symboles connus dépendant de l'éditeur 15/01/2007
Topic attachments
I Attachment Action Size Date Who Comment
PDFpdf aaalphaper.pdf manage 1384.9 K 2006-05-23 - 08:45 UnknownUser Astronomy & Astrophysics
PDFpdf apj632.pdf manage 193.1 K 2006-05-23 - 08:41 UnknownUser Astrophysical Journal
Texttxt ext.txt manage 110.9 K 2006-05-23 - 08:47 UnknownUser extraction MNRAS
Texttxt extAA.txt manage 65.4 K 2006-05-23 - 09:00 UnknownUser extraction A&A
Texttxt extApJ.txt manage 54.8 K 2006-05-23 - 09:02 UnknownUser extraction ApJ
PDFpdf mnras10145.pdf manage 689.7 K 2006-05-23 - 08:46 UnknownUser MNRAS
Topic revision: r18 - 2008-06-24 - ChristianBonnin
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback