20 Septembre 2016

Documents intéressants

Git hooks - lancer des scripts sur le serveur git à chaque commit

Collone dupliquées dans un DataSet

Utilisation du nouveau programme Spark

spark-submit --master spark://spark-master:7077 \
            --class cds.xmatch.spark.PreprocessData \
            --name CDS_XMatch \
            --executor-memory=13g \
            --conf spark.local.dir=/tmp/spark \
            --conf spark.storage.memoryFraction=0 \
            --conf spark.serializer=org.apache.spark.serializer.KryoSerialize \
            --driver-memory 2G --driver-java-options "-ea" \
            cds.xmatch.spark.jar hdfs://hdfs-namenode:8020/tmass.l2.i0.csv \
            RAJ2000 DEJ2000 2 4096 10 hdfs://hdfs-namenode:8020/tmass.parquet


spark-submit --master spark://spark-master:7077 \
            --class cds.xmatch.spark.PreprocessData \
            --name CDS_XMatch \
            --executor-memory=13g \
            --conf spark.local.dir=/tmp/spark \
            --conf spark.storage.memoryFraction=0 \
            --conf spark.serializer=org.apache.spark.serializer.KryoSerialize \
            --driver-memory 2G --driver-java-options "-ea" \
            cds.xmatch.spark.jar hdfs://hdfs-namenode:8020/sdss9.l2.i0.csv \
            RAdeg DEdeg 2 4096 10 hdfs://hdfs-namenode:8020/sdss9.parquet
            

Notez qu’il faut maintenant fournir le nom des colonnes et non plus l’indice car les colonnes sont nommées dans un dataset. Il est aussi possible de réduire le nombre d’arguments en éliminant ceux qui sont inutilisés.

spark-submit --master spark://spark-master:7077 \
    --class cds.xmatch.spark.CrossMatch \
    --name CDS_XMatch \
    --executor-memory=13g \
    --conf spark.local.dir=/tmp/spark \
    --conf spark.storage.memoryFraction=0 \
    --conf spark.serializer=org.apache.spark.serializer.KryoSerialize \
    --driver-memory 2G --driver-java-options "-ea" \
    cds.xmatch.spark.jar hdfs://hdfs-namenode:8020/sdss9.parquet \
    hdfs://hdfs-namenode:8020/tmass.parquet 4096 5 RAdeg DEdeg RAJ2000 DEJ2000 \
    hdfs://hdfs-namenode:8020/xmatchRes.csv