Etiquetas

, , , , ,

Hive es un sistema de almacenamiento de datos de Hadoop que facilita el resumen de datos fácil, consultas ad-hoc, y el análisis de grandes conjuntos de datos almacenados en los sistemas de archivos compatibles Hadoop. Hive proporciona un mecanismo para la estructura de proyectar en estos datos y consultar los datos utilizando un lenguaje similar a SQL llamado HiveQL. Al mismo tiempo este lenguaje también permite mapa / reducir los programadores tradicional para enchufar en sus mapeadores y reductores personalizados cuando es inconveniente o ineficientes para expresar esta lógica en HiveQL.Hive

Arquitectura de Hive

Arquitectura Hive

Flujo de datos a través de Hive

Hive flujo de datos

El Modelo de datos de Hive se soporta sobre:

  • Tablas
  • Particiones en base a rangos
  • Buckets. Particiones Hash dentro de los rangos

Los tipos de datos soportados son:

Tipos primitivos::

  • Tinyint, smallint, int, bigint, float, boolean, double, string, binary y timestamp

Y los tipos complejos:

  • Array < primitive-type >, Map < primitive-type, data-type >, Struct < col-name : data-type, … > y UnionType

Metastore

Es el almacen que contiene definiciones de tablas y otros metadatos. Por defecto se  almacena de forma local en el equipo cliente en una base de datos Derby pero se puede configurar para que utilizar MySQL o cualquier otro servidor de base de datos relacional

Anuncios