Apache Hadoop

Apache Hadoop — это коллекция (или экосистема) свободных программ (утилиты, библиотеки и фреймворк), интегрированных либо сопрягаемых друг с другом в рамках крупных кластеров для хранения и обработки огромных массивов данных. Hadoop в узком смысле (как программы, входящие с базовый дистрибутив Hadoop) состоит из Hadoop Common, HDFS, Yarn и MapReduce. Однако для целей настоящего исследования такая минимальная конфигурация интереса не представляет, поэтому рассматривается Hadoop в широком смысле — с СУБД HBase и иными компонентами экосистемы Hadoop, распространяемыми отдельно от базового дистрибутива Apache Hadoop В России западные вендоры, в том числе Cloudera, услуг не предоставляют. Компетенциями по Hadoop в России обладает компания Arenadata (принимающая участие в разработке Apache Hadoop), она выпускает документацию на русском языке и распространяет собственный дистрибутив Arenadata Hadoop, состоящий из свободных продуктов экосистемы Hadoop, и осуществляет его техническую поддержку.

Архитектура системы

В простейшем случае Hadoop-система состоит из хранилища на HDFS и MapReduce

В состав экосистемы Hadoop входит множество программ: Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache Spark, Apache ZooKeeper, Apache Impala, Apache Flume, Apache Sqoop, Apache Oozie, Apache Storm и другие

Распределенная NoSQL СУБД Apache HBase работает поверх HDFS. Apache Phoenix обеспечивает поддержку SQL и JDBC-драйвер для HBase. Hive также реализует функционал СУБД с ограниченным подмножеством SQL под названием HiveQL.

Apache Hadoop

Архитектура системы

Заказать отчет