Tags:
create new tag
, view all tags

Stage de Alejandro Daniel Serna Flores - IUT Charlemagne Nancy - [7/04/14 au 27/06/14]

Important : cette page est réservée au suivi du stage, merci de ne pas la modifier

Informations générales pour les stagiaires

Pour toute information concernant ce stage : contacter André

Sujet

Documents de travail

  • ...

Stage (avril - juin 2014)

Avril

  • 7, accuei, instalation d'Apache Hadoop, java, VirtualBox
  • 8. Hadoop single node, instalation debian sous VirtualBox,
  • 9. Hadoop sous Ubuntu server 13.10, creation de plusieurs nodes (clones de VM), connection ssh entre eux et la machine phisique avec une conection host et NAT de VirtualBox, configuration de l'interface de reseaux (sous la machine phisique) pour connecter toutes les machines.
  • ... Configuration d'Hadoop (fichier core-site.xml, yarn-site.xml, mapred-site.xml, .bashrc) sous toutes les machines.
  • ... Demarrage et test d'un cluster avec un seul node avec succes, demarrage d'un cluster sous plusieurs machines avec certain problemes: pas de NodeManager sous tous les sclaves
  • 16, réunion (avec TB, GL, AS : il faut terminer si possible l'installation manuelle d'Hadoop puis refaire une installation avec un framework comme Hortonworks, tester les différents outils liés à Hadoop et être capable d'en expliquer le fonctionnement et de faire une petite démonstation (prévué le 25/4 lors de la 2ème réunion), prendre des données dans VizieR et les injecter dans Hadoop (comment le faire ? par la suite comment peut-on effectuer des requêtes, a-t-on la possibilité de choisir la répartition des données sur plusieurs noeuds, etc...))
  • Le but de cette première partie du stage est donc de comprendre le fonctionnement des différents éléments de Hadoop et d'être capable de manipuler et d'expliquer
  • 17 installation d'Hortonworks sous VirtualBox, un petit test de HCatalog, Pig et Hive avec un fichier tsv. Problemes avec pig, reinstallation de la machine virtuelle pour resoudre le probleme
  • 22. installation d'Hive sous le single cluster
  • 25, réunion (démonstration)
  • 30. test de different format de fichiers (.orc, txt, csv).

Mai

  • 14. Test de Elasticsearch, indexation d'un seul document de 10000 resultats, requete Http pour le recuperer (presque 1 seconde pour l'afficher), développement d'un petit programme java qui structure le fichier json et l'indexe sur Elasticsearch dans un seul document (3 secondes normalement pour l'afficher, le format a été plus grand), modification du programme pour indexer les données separément (10000 resultat), example, un requete 'http://localhost:9200/vizier/catalog/1' --
{"_index":"vizier","_type":"catalog","_id":"1","_version":1,"found":true, "_source" : {"2MASS":"03014943+1259257","ra":45.455983,"dec":12.990484,"errHalfMaj":0.33,"errHalfMin":0.31,"errPosAng":152.0,"Jmag":19.173,"Hmag":17.167,"Kmag":18.349,"e_Jmag":null,"e_Hmag":0.243,"e_Kmag":null,"Qflg":"UDU","Rflg":20,"Xflg":0,"date":2451861.8571,"gcntr":56463005,"l":165.356051,"b":-38.910914,"Jsig":null,"Hsig":0.243,"Ksig":null,"Jsnr":null,"Hsnr":4.05,"Ksnr":null,"USNO-A2.0":"","Dopt":null,"PAopt":null,"Bmag":null,"Rmag":null,"Nopt":0,"Bflg":10,"Cflg":"000","Aflg":0,"Ndet":600,"cat":0,"rel":"F"}}

Juin

  • 2. test d'un fichier .log avec hive et elasticsearch sous hortonworks, resultat: cela ne change pas la vitesse de recherche avec hive sauf pour créer detables a partir d'une autre qui a de donées indexés dans elasticsearch, mais à cause de que Hive travail sur map/reduce http://fr.wikipedia.org/wiki/MapReduce , les requetes sont assez lents puisque hive et fait pour analyser les données, les traiter, ne pas pour la recherche en temps réel. et ce n'est pas non plus une RDB

Sauvegardes

  • à définir au cas par cas suivant le sujet du stage

Liens

Versions testables

Testé sur ...

Documentation

  • ...

Informations/travaux divers

  • ...

Travail post stage éventuel

Liste des améliorations à envisager

Bugs connus

*

Topic attachments
I Attachment Action Size Date Who Comment
Unknown file formatgz JavaScript.tar.gz manage 2536.5 K 2014-06-27 - 16:17 UnknownUser  
Unknown file formatpptx Pre769sentation_finale.pptx manage 1180.0 K 2016-02-19 - 14:28 AndreSchaaff  
PDFpdf presentation.pdf manage 1072.1 K 2014-08-06 - 15:31 AndreSchaaff  
PDFpdf rapport_de_stage_SERNA_Alejandro.pdf manage 1452.9 K 2016-02-19 - 14:02 AndreSchaaff  
Topic revision: r19 - 2016-02-19 - AndreSchaaff
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback