Tutoriel Scala débutants
Sécurité multi-users avec Spark
Notebook Spark
Tests GlusterFS vs Ceph vs HDFS
Les deux systèmes de fichier ont une réplication de chaque fichier de 2
GlusterFS : 1m34.78s HDFS : 1m37.951s
Comme on pouvais se l’imaginer les deux protocoles utilise au maximum la bande passante et sont au même niveau de performance pour la lecture d’un fichier entier.
Voyons si on peut observer une différence de performance pour la lecture du fichier à travers le cluster Spark.
GlusterFS : HDFS : 2m9.896s
GlusterFS n’est au final pas facilement intégrable dans Spark
Alluxio - promet une interface entre spark et GlusterFS si ce programme fonctionne ça peut-être interessant
docker service create --name apache-zeppelin -e MASTER="spark://spark-master:7077" -p 9090:8080 --network spark-net dylanmei/zeppelin