23 Septembre 2016

Documents interessants

Tutoriel Scala débutants
Sécurité multi-users avec Spark
Notebook Spark
Tests GlusterFS vs Ceph vs HDFS

Benchmark GlusterFS vs HDFS

Les deux systèmes de fichier ont une réplication de chaque fichier de 2

Copie de gros fichiers cluster –> HDD

GlusterFS : 1m34.78s HDFS : 1m37.951s

Comme on pouvais se l’imaginer les deux protocoles utilise au maximum la bande passante et sont au même niveau de performance pour la lecture d’un fichier entier.

Benchmark avec un crossmatch

Voyons si on peut observer une différence de performance pour la lecture du fichier à travers le cluster Spark.

Crossmatch :

GlusterFS : HDFS : 2m9.896s

GlusterFS n’est au final pas facilement intégrable dans Spark

Alluxio - promet une interface entre spark et GlusterFS si ce programme fonctionne ça peut-être interessant

Installation de Zepplin dans Docker

docker service create --name apache-zeppelin -e MASTER="spark://spark-master:7077" -p 9090:8080 --network spark-net dylanmei/zeppelin