24 Octobre 2016

Solution localisation données YARN ? La présentation date peut-être n’est-ce plus d’actualité

Utilisation de Spark avec YARN

Démarer application Spark sur YARN

./bin/spark-submit --class org.apache.spark.examples.SparkPi \
    --master yarn \
    --deploy-mode cluster \
    --num-executors 6 \
    ./examples/jars/spark-examples_2.11-2.0.1.jar \
    48
    

Cette commande se connecte au ressourcemanager indiqué dans la configuration et lui demande de réserver 6 executeurs (c’est à dire tous dans notre cas, chaque exécuteur représentant une machine)

Le fichier jar est uploadé sur hdfs dans un dossier temporaire. Chaque executeur doit donc avoir accès au cluster hdfs (La prochaine étape sera d’avoir les executeur et les datanode dans les mêmes containers afin de pouvoir utiliser la fonction de localisation des données)

Exemple

/app/spark-2.0.1/bin/spark-submit \
    --class PreProcess \
    --master yarn \
    --deploy-mode cluster \
    --num-executors 6 \
    /mnt/jar/xmatch.scala-1.0.jar \
    hdfs://hdfs-namenode:8020/sdss9.l2.i0.csv RAdeg DEdeg 4096 24 hdfs://hdfs-namenode:8020/sdss9.parquet
    
    
/app/spark-2.0.1/bin/spark-submit \
    --class PreProcess \
    --master yarn \
    --deploy-mode cluster \
    --num-executors 6 \
    /mnt/jar/xmatch.scala-1.0.jar \
    hdfs://hdfs-namenode:8020/tmass.l2.i0.csv RAJ2000 DEJ2000 4096 24 hdfs://hdfs-namenode:8020/tmass.parquet
    
    
/app/spark-2.0.1/bin/spark-submit \
     --master yarn \
     --deploy-mode cluster \
     --num-executors 6 \
     --class CrossMatch \
     /mnt/jar/xmatch.scala-1.0.jar \
     hdfs://hdfs-namenode:8020/sdss9.parquet RAdeg DEdeg \
     hdfs://hdfs-namenode:8020/tmass.parquet RAJ2000 DEJ2000 \
     4096 5 \
     hdfs://hdfs-namenode:8020/xmatchResPARQUET.txt
     
     
/app/spark-2.0.1/bin/spark-submit \
    --class PreProcess \
    --master yarn \
    --deploy-mode cluster \
    --num-executors 6 \
    --executor-memory 7g \
    /mnt/jar/xmatch.scala-1.0.jar \
    hdfs://hdfs-namenode:8020/spm4.csv RAdeg DEdeg 4096 240 hdfs://hdfs-namenode:8020/spm4.parquet
    
    
/app/spark-2.0.1/bin/spark-submit \
    --class PreProcess \
    --master yarn \
    --deploy-mode cluster \
    --num-executors 6 \
    /mnt/jar/xmatch.scala-1.0.jar \
    hdfs://hdfs-namenode:8020/ucac4.csv RAJ2000 DEJ2000 4096 240 hdfs://hdfs-namenode:8020/ucac4.parquet