AlejandroDanielSernaFlores < Stages

Tags: , view all tags

Stage de Alejandro Daniel Serna Flores - IUT Charlemagne Nancy - [7/04/14 au 27/06/14]

Important : cette page est réservée au suivi du stage, merci de ne pas la modifier

Informations générales pour les stagiaires

Pour toute information concernant ce stage : contacter André

Stage de Alejandro Daniel Serna Flores - IUT Charlemagne Nancy - [7/04/14 au 27/06/14]
Sauvegardes
Travail post stage éventuel
- - Liste des améliorations à envisager
  - Bugs connus

Sujet

Proposition de stage

Documents de travail

Stage (avril - juin 2014)

Avril

7, accuei, instalation d'Apache Hadoop, java, VirtualBox
8. Hadoop single node, instalation debian sous VirtualBox,
9. Hadoop sous Ubuntu server 13.10, creation de plusieurs nodes (clones de VM), connection ssh entre eux et la machine phisique avec une conection host et NAT de VirtualBox, configuration de l'interface de reseaux (sous la machine phisique) pour connecter toutes les machines.
... Configuration d'Hadoop (fichier core-site.xml, yarn-site.xml, mapred-site.xml, .bashrc) sous toutes les machines.
... Demarrage et test d'un cluster avec un seul node avec succes, demarrage d'un cluster sous plusieurs machines avec certain problemes: pas de NodeManager sous tous les sclaves
16, réunion (avec TB, GL, AS : il faut terminer si possible l'installation manuelle d'Hadoop puis refaire une installation avec un framework comme Hortonworks, tester les différents outils liés à Hadoop et être capable d'en expliquer le fonctionnement et de faire une petite démonstation (prévué le 25/4 lors de la 2ème réunion), prendre des données dans VizieR et les injecter dans Hadoop (comment le faire ? par la suite comment peut-on effectuer des requêtes, a-t-on la possibilité de choisir la répartition des données sur plusieurs noeuds, etc...))
Le but de cette première partie du stage est donc de comprendre le fonctionnement des différents éléments de Hadoop et d'être capable de manipuler et d'expliquer
17 installation d'Hortonworks sous VirtualBox, un petit test de HCatalog, Pig et Hive avec un fichier tsv. Problemes avec pig, reinstallation de la machine virtuelle pour resoudre le probleme
22. installation d'Hive sous le single cluster
25, réunion (démonstration)
30. test de different format de fichiers (.orc, txt, csv).

Mai

14. Test de Elasticsearch, indexation d'un seul document de 10000 resultats, requete Http pour le recuperer (presque 1 seconde pour l'afficher), développement d'un petit programme java qui structure le fichier json et l'indexe sur Elasticsearch dans un seul document (3 secondes normalement pour l'afficher, le format a été plus grand), modification du programme pour indexer les données separément (10000 resultat), example, un requete 'http://localhost:9200/vizier/catalog/1' --

{"_index":"vizier","_type":"catalog","_id":"1","_version":1,"found":true, "_source" : {"2MASS":"03014943+1259257","ra":45.455983,"dec":12.990484,"errHalfMaj":0.33,"errHalfMin":0.31,"errPosAng":152.0,"Jmag":19.173,"Hmag":17.167,"Kmag":18.349,"e_Jmag":null,"e_Hmag":0.243,"e_Kmag":null,"Qflg":"UDU","Rflg":20,"Xflg":0,"date":2451861.8571,"gcntr":56463005,"l":165.356051,"b":-38.910914,"Jsig":null,"Hsig":0.243,"Ksig":null,"Jsnr":null,"Hsnr":4.05,"Ksnr":null,"USNO-A2.0":"","Dopt":null,"PAopt":null,"Bmag":null,"Rmag":null,"Nopt":0,"Bflg":10,"Cflg":"000","Aflg":0,"Ndet":600,"cat":0,"rel":"F"}}

Queries avec elasticsearch apartir de requetes GET. example http://localhost:9200/vizier/catalog3/_search?source={"query":{"match":{"2MASS":"03014147+1259070"}}}
18 - 21 Requetes elasticseatch, filters
22 Essai d'ajouter fonctions personalisés sous elasticsearch, essai de faire un ensemble de machines (2 nodes) avec la machine virtuelle, problemes de communication entre les machines
23 Lire comment ajouter elasticsearch à hadoop, (problémes avec Hive pour lire les données),
26. installation java 7, elasticsearch sous hortonworks hadoop, https://github.com/hortonworks/hadoop-tutorials/blob/master/Community/T07_Elasticsearch_Hadoop_Integration.md problemes pour inserter les donnes,

Juin

2. test d'un fichier .log avec hive et elasticsearch sous hortonworks, resultat: cela ne change pas la vitesse de recherche avec hive sauf pour créer detables a partir d'une autre qui a de donées indexés dans elasticsearch, mais à cause de que Hive travail sur map/reduce http://fr.wikipedia.org/wiki/MapReduce , les requetes sont assez lents puisque hive et fait pour analyser les données, les traiter, ne pas pour la recherche en temps réel. et ce n'est pas non plus une RDB

Sauvegardes

à définir au cas par cas suivant le sujet du stage

Liens

Liens trouvés pour installer hadoop - http://milinda.pathirage.org/hadoop/yarn/2013/09/29/how-to-setup-multi-node-hadoop-20xyarn-cluster.html
tutoriel d'Hortonworks depuis le debut, avec Hive, HCatalog, Pig: http://hortonworks.com/hadoop-tutorial/hello-world-an-introduction-to-hadoop-hcatalog-hive-and-pig/ ,
quelques solutions hadoop pour base de doneés: Presto (facebook) http://prestodb.io/ Hive http://hive.apache.org/ Impala (Cloudera) http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html
http://www.elasticsearch.org/videos/querying-24-billion-records-in-900ms/
http://hortonworks.com/blog/fast-search-and-analytics-on-hadoop-with-elasticsearch-and-hdp/
http://hortonworks.com/blog/configure-elastic-search-hadoop-hdp-2-0/

Versions testables

Testé sur ...

Documentation

Informations/travaux divers

Travail post stage éventuel

Liste des améliorations à envisager

Bugs connus

presentation.pdf: presentation.pdf

rapport_de_stage_SERNA_Alejandro.pdf: rapport_de_stage_SERNA_Alejandro.pdf

Pre769sentation_finale.pptx: Pre769sentation_finale.pptx

Attachments

Topic attachments
I	Attachment	Action	Size	Date	Who
gz	JavaScript.tar.gz	manage	2536.5 K	2014-06-27 - 16:17	UnknownUser
pptx	Pre769sentation_finale.pptx	manage	1180.0 K	2016-02-19 - 14:28	AndreSchaaff
pdf	presentation.pdf	manage	1072.1 K	2014-08-06 - 15:31	AndreSchaaff
pdf	rapport_de_stage_SERNA_Alejandro.pdf	manage	1452.9 K	2016-02-19 - 14:02	AndreSchaaff

Topic revision: r19 - 2016-02-19 - AndreSchaaff

Account
- Log In
- Register User

Centre de Données astronomiques de Strasbourg

Edit
Attach