Tags:
create new tag
, view all tags

Stage de Yann Bisch - IUT Charlemagne Nancy - [8/04/13 au 14/06/13]

Important : cette page est réservée au suivi du stage, merci de ne pas la modifier

Informations générales pour les stagiaires

Pour toute information concernant ce stage :

Sujet

Documents de travail

Stage (avril - juin 2013)

Avril

  • 8, arrivée
  • 8,9,10,15, diverses présentations des services, du travail de documentaliste et du VO
  • Recherches des outils et tentative de compréhension de leur fonctionnement
  • Les plus populaires : Lucene, Solr, ElasticSearch (seront testés)
  • D'autres moins populaire (et manque de documentation) : Katta, Nutch (orienté web crawler), IndexTank
  • Tous basés sur Lucene sinon Hadoop (Lucene étant lui même basé sur Hadoop).
  • Test de la démonstration de Katta.
  • Réalisation de générateurs de JSON et XML à partir des parfiles (README), nécessaire à l'indexation de ces documents sous une forme plus structurée et maléable respectivement pour ElasticSearch et Solr.

Mai

  • "Get Started" Lucene, ElasticSearch et Solr
  • 7, réunion
  • Tests des démonstration d'ElasticSearch, Solr et Lucene.
  • Configuration et tests d'ElasticSearch et Solr sur les Readme.
  • Configuration avancée (schema.xml, solrconfig.xml...) de Solr pour une recherche plus pertinente et plus précise.
  • 22, réunion
  • Début de réalisation d'un prototype pour Solr : connexion au coeur configuré précédemment + début d'une interface graphique

Juin

  • Réalisation d'une interface graphique Java communiquant avec Solr
  • 11, Pré-soutenance
  • 20, Soutenance

Sauvegardes

  • Vous avez accès à un serveur SVN sauvegardé quotidiennement (identifiants donnés au début du stage)
  • svn://quiwi2.strasbg.fr/projets

Liens

Versions testables

Testé sur ...

Documentation

Informations/travaux divers

  • ...

Travail post stage éventuel

Liste des améliorations à envisager

  • Le filtre solr.PorterStemFilterFactory est très agressif : il transforme survey en survei, galactic en galact. Il en existe un moins agressif à tester : solr.KStemFilterFactory. Il existe également SnowBallFilterFactory (moins rapide que PorterStemFilter et beaucoup moins que KStemFilterFactory), HunSpellFilterFactory et peut-être d'autres... mais tous ne font pas exactement la même chose et/ou pas de la même manière (donc résultats différents).

Bugs connus

  • Tout d'abord, il faut savoir que toutes les documentations ne sont pas exhaustives, voir incomplètes. La documentation de Solr n'est pas entièrement terminée et il manque parfois des exemples (il faut donc chercher par soi-même, enfin Google pour être plus exacte ou autre moteur de recherche à votre goût). Ceci est dû au fait que Solr n'est pas terminé, ce qui implique que la version utilisée actuellement n'est peut-être plus à jour et révéler de nouvelles incompatibilités ou des problèmes de fonctionnement avec les nouvelles versions. Il faudra donc être vigilant.

  • Possibilité que les filtres (solr.PorterStemFilterFactory et solr.EnglishMinimalStemFilterFactory entre autres) ne fonctionnent pas lors de la modification de l'analyseur. Dans ce cas, vider l'index et réindexer les documents (sans oublier de recharger le coeur). Si ça ne marche pas, c'est peut-être à cause de filtres déclarés précédemment dans le même analyseur qui gênent ou alors la configuration (du requestHandler utilisé par exemple) dans le fichier "solrconfig.xml".

  • Le filtre solr.KeepWordFilterFactory peut empêcher le fonctionnement des facet fields (notamment pour le champ keywords). Dans ce cas, il vaut mieux utiliser le filtre solr.KeywordMarkerFilterFactory (avec le même fichier de mots protégés) qui permet de faire des requêtes telles que "x-ray" et d'avoir un résultat (normalement impossible avec l'autre filtre). Dans les facettes de champs (facet fields), il apparaîtra 'x' et "rai" comme deux facettes distinctes (résultat de base sans les filtres).

CDD du 1/07/2013 au 2/08/2013

  • Réunion de préparation du 27/06/2013 (Sébastien, Thomas, Gilles et André)
  • accès HTTP
  • transition page Web accès HTTP
  • automatisation de la mise à jour à partir des readme / parfile
  • interface Web basique pour tester
  • guide détaillant les étapes
  • documentation générale
  • un serveur est mis à dispostion pour les tests
Topic attachments
I Attachment Action Size Date Who Comment
PDFpdf Bisch_Yann_Rapport_Stage.pdf manage 2189.1 K 2013-06-27 - 10:04 AndreSchaaff  
Unknown file formatodt Test_Queries.odt manage 24.8 K 2013-05-17 - 14:37 UnknownUser Comparaison de différentes requêtes (Solr)
Topic revision: r21 - 2013-07-09 - YannBisch
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback