Test Spark version 2.1.0

Un certain nombre de bug ont été corrigés dans cette version il est donc possible que les problèmes rencontrés dans les versions précédentes ne se posent plus.

Installation

La méthode d’installation reste la même et les fichiers de configuration restent valides.

Test

La commande à utiliser ne change pas :

spark-submit --master spark://spark-master:7077 \
            --class PreProcess \
            --name CDS_XMatch \
            --executor-memory=10g \
            --conf spark.local.dir=/tmp/spark \
            --driver-memory 2G --driver-java-options "-ea" \
            ./xmatch.scala-1.0.jar \
            hdfs://hdfs-namenode:8020/spm4.csv RAdeg DEdeg 4096 240 hdfs://hdfs-namenode:8020/spm4.parquet
            
spark-submit --master spark://spark-master:7077 \
            --class PreProcess \
            --name CDS_XMatch \
            --executor-memory=8g \
            --conf spark.local.dir=/tmp/spark \
            --driver-memory 2G --driver-java-options "-ea" \
            ./xmatch.scala-1.0.jar \
            hdfs://hdfs-namenode:8020/ucac4.csv RAJ2000 DEJ2000 4096 240 hdfs://hdfs-namenode:8020/ucac4.parquet

Cependant on obtient le même type de problème qu’avec la version précédente, une fois la mémoire utilisée à 100% Spark commence à renvoyer des erreurs jusqu’à ce que le programme plante.

Lost task 95.0 in stage 2.0 (TID 97, 10.0.0.12, executor 2): org.apache.hadoop.fs.ChecksumException: Checksum error: /spm4.csv at 49848320 exp: 583354349 got: -1753572649

La suite

Un cluster plus puissant que ce que j’ai à ma disposition actuellement nous sera prèté par l’IN2P3 dans les jours (semaine ?) à venir ce qui nous permettra de ne plus dépendre de la mémoire