Stage de Alejandro Daniel Serna Flores - IUT Charlemagne Nancy - [7/04/14 au 27/06/14]
Important : cette page est réservée au suivi du stage, merci de ne pas la modifier
Informations générales pour les stagiaires
Pour toute information concernant ce stage : contacter André
Sujet
Documents de travail
Stage (avril - juin 2014)
Avril
- 7, accuei, instalation d'Apache Hadoop, java, VirtualBox
- 8. Hadoop single node, instalation debian sous VirtualBox,
- 9. Hadoop sous Ubuntu server 13.10, creation de plusieurs nodes (clones de VM), connection ssh entre eux et la machine phisique avec une conection host et NAT de VirtualBox, configuration de l'interface de reseaux (sous la machine phisique) pour connecter toutes les machines.
- ... Configuration d'Hadoop (fichier core-site.xml, yarn-site.xml, mapred-site.xml, .bashrc) sous toutes les machines.
- ... Demarrage et test d'un cluster avec un seul node avec succes, demarrage d'un cluster sous plusieurs machines avec certain problemes: pas de NodeManager sous tous les sclaves
- 16, réunion (avec TB, GL, AS : il faut terminer si possible l'installation manuelle d'Hadoop puis refaire une installation avec un framework comme Hortonworks, tester les différents outils liés à Hadoop et être capable d'en expliquer le fonctionnement et de faire une petite démonstation (prévué le 25/4 lors de la 2ème réunion), prendre des données dans VizieR et les injecter dans Hadoop (comment le faire ? par la suite comment peut-on effectuer des requêtes, a-t-on la possibilité de choisir la répartition des données sur plusieurs noeuds, etc...))
- Le but de cette première partie du stage est donc de comprendre le fonctionnement des différents éléments de Hadoop et d'être capable de manipuler et d'expliquer
- 17 installation d'Hortonworks sous VirtualBox, un petit test de HCatalog, Pig et Hive avec un fichier tsv. Problemes avec pig, reinstallation de la machine virtuelle pour resoudre le probleme
- 22. installation d'Hive sous le single cluster
- 25, réunion (démonstration)
- 30. test de different format de fichiers (.orc, txt, csv).
Mai
- 14. Test de Elasticsearch, indexation d'un seul document de 10000 resultats, requete Http pour le recuperer (presque 1 seconde pour l'afficher), développement d'un petit programme java qui structure le fichier json et l'indexe sur Elasticsearch dans un seul document (3 secondes normalement pour l'afficher, le format a été plus grand), modification du programme pour indexer les données separément (10000 resultat), example, un requete 'http://localhost:9200/vizier/catalog/1' --
{"_index":"vizier","_type":"catalog","_id":"1","_version":1,"found":true, "_source" : {"2MASS":"03014943+1259257","ra":45.455983,"dec":12.990484,"errHalfMaj":0.33,"errHalfMin":0.31,"errPosAng":152.0,"Jmag":19.173,"Hmag":17.167,"Kmag":18.349,"e_Jmag":null,"e_Hmag":0.243,"e_Kmag":null,"Qflg":"UDU","Rflg":20,"Xflg":0,"date":2451861.8571,"gcntr":56463005,"l":165.356051,"b":-38.910914,"Jsig":null,"Hsig":0.243,"Ksig":null,"Jsnr":null,"Hsnr":4.05,"Ksnr":null,"USNO-A2.0":"","Dopt":null,"PAopt":null,"Bmag":null,"Rmag":null,"Nopt":0,"Bflg":10,"Cflg":"000","Aflg":0,"Ndet":600,"cat":0,"rel":"F"}}
Juin
- 2. test d'un fichier .log avec hive et elasticsearch sous hortonworks, resultat: cela ne change pas la vitesse de recherche avec hive sauf pour créer detables a partir d'une autre qui a de donées indexés dans elasticsearch, mais à cause de que Hive travail sur map/reduce http://fr.wikipedia.org/wiki/MapReduce , les requetes sont assez lents puisque hive et fait pour analyser les données, les traiter, ne pas pour la recherche en temps réel. et ce n'est pas non plus une RDB
Sauvegardes
- à définir au cas par cas suivant le sujet du stage
Liens
Versions testables
Testé sur ...
Documentation
Informations/travaux divers
Travail post stage éventuel
Liste des améliorations à envisager
Bugs connus
*