--
CorentinSanchez - 2017-10-25
Hadoop Distributed File System (HDFS)
C'est le système de fichier distribué de hadoop. Il fonctionne grâce à un ou des Namenodes qui gèrent le cluster et des Datanodes qui stockent les données sous la forme de blocks. Le namenode gère l'organisation en arborescence des fichiers ainsi que leur réplication. Ce file system est assez transparent permettant de présenter une arborescence et des informations sur les fichiers très proche d'Unix, et en faisant abstraction totale du stockage effectif des données.
Apache Spark
Apache Hive
C'est une surcouche de HDFS permettant d'acceder aux données via un langague proche de SQL, le
HiveQL
Apache Pig
Apache Parquet
Apache HBase
Apache Phoenix
Apache Zookeeper
Apache Mesos
Apache Hadoop Yarn