Tags:
create new tag
, view all tags
-- CorentinSanchez - 2017-10-25

Hadoop Distributed File System (HDFS)

C'est le système de fichier distribué de hadoop. Il fonctionne grâce à un ou des Namenodes qui gèrent le cluster et des Datanodes qui stockent les données sous la forme de blocks. Le namenode gère l'organisation en arborescence des fichiers ainsi que leur réplication. Ce file system est assez transparent permettant de présenter une arborescence et des informations sur les fichiers très proche d'Unix, et en faisant abstraction totale du stockage effectif des données.

Apache Spark

Apache Hive

C'est une surcouche de HDFS permettant d'acceder aux données via un langague proche de SQL, le HiveQL


Apache Pig

Apache Parquet

Apache HBase

Apache Phoenix

Apache Zookeeper

Apache Mesos

Apache Hadoop Yarn

Topic revision: r3 - 2017-10-30 - CorentinSanchez
 
This site is powered by the TWiki collaboration platform Powered by PerlCopyright © 2008-2024 by the contributing authors. All material on this collaboration platform is the property of the contributing authors.
Ideas, requests, problems regarding TWiki? Send feedback