Big Data Discovery, su papel en proyectos con volúmenes grandes de datos

Oracle Big Data Discoverycon sus respectivas vinculaciones a Hadoop, Oracle Big Data SQL 1.1 y Oracle NoSQL Database 3.2.5, es una de las herramientas que ha introducido Oracle en el mercado, para el fortalecimiento y reestructuración de los grandes almacenes de datos en las empresas. Gracias a ella, se puede ver y entender rápidamente el potencial de los datos en bruto desde Hadoop  y convertir los datos en conocimiento en cuestión de minutos.

Sin una gran dificultad de aprendizaje, y mediante un diseño gráfico muy intuitivo, se puede compartir y obtener datos realmente interesantes.

1

Funciona de forma nativa con Hadoop, transformando datos rápidamente y procesando el conocimiento del negocio en cinco fases. Cualquiera puede encontrar, explorar, transformar y analizar datos para obtener nuevas perspectivas, las cuales pueden ser compartidas en proyectos de gran interés para el negocio.

Coherencia de la analítica Big Data

Oracle Big Data Discovery ofrece tremenda velocidad a escala masiva, permitiendo dedicar un 20% al desarrollo y un 80% al análisis.

Big Data Discovery está compuesto por los siguientes tres componentes básicos y es posible su interacción con otras herramientas:

2

  • Discovery Studio, es una interfaz de usuario intuitiva y visual para encontrar y explorar grandes volúmenes de datos, de tal forma que cualquier persona pueda rápidamente transformar, descubrir y compartir el valor del conocimiento del negocio a gran escala.
  • DGraph, es la tecnología líder en la industria Oracle Big Data; (Endeca Server); que simplifica la complejidad de organización y búsqueda de datos para su análisis.
  • Capa de Procesamiento de Datos, utiliza el componente Spark de Hadoop para realizar perfiles de datos a alta velocidad, transformación y enriquecimiento de la información.
  • Diseñado para trabajar junto a:
  • ODI 12c y GoldenGate: una vez que haya definido sus flujos de datos principales de transformación.
  • Oracle Big Data SQL: acceso BI de la aplicación a la totalidad del “Almacén de datos” (DWH + Hadoop).

La mejor manera de pensar en Big Data Discovery es “Endeca Hadoop”

La herramienta web Discovery Studio es una versión de Endeca Server para:

  1. Analizar y visualizar conjuntos de muestras de datos desde el clúster Hadoop, el cual ejecuta sus elementos sobre DGraph (Servidor Endeca) en uno o más nodos.
  2. Leer datos desde Hadoop mediante Hive y luego escribir de nuevo las transformaciones planificadas (utilizando Apache Spark para recuperar datos de Hadoop).
  3. Transformar esos datos de forma que sea más adecuado para su análisis con Big Data Discovery.

3

Los datos:

  1. Se cargan en el servidor Endeca y se almacenan en una base de datos NoSQL (clave-valor, indexada, analizada y enriquecida).
  2. Se planifican con Oozie, se realizan mediante la base de Hadoop Distributed File System (HDFS), de la que es responsable el agente HDFS Dgraph.
  3. Sus análisis se basan en la obtención de datos en DGraph (Endeca Server), mediante la Interfaz web Studio. Esto implica dos pasos la mayoría de las veces:

1) Tendremos que seleccionar un  determinado conjunto de datos en Hadoopcargarlos en DGraph, pudiendo realizar pequeñas transformaciones y conversiones de datos.

2) Vamos a necesitar algún sistema de transformación de los datos en algunas ocasiones según la complejidad. Por ejemplo ODI 12c o Pig para poder trabajar fácilmente con Big Data SQL.

1. Se cargan:

4

Para que los datos sean elegibles para ser cargados en Big Bata Discovery, tienen que estar registrados en Hive Metastore y los metadatos disponibles para su uso por herramientas externas, utilizando el servicio HCatalog.

Para subir y crear grandes cantidades de datos y metadatos en Hadoop,  principalmente se pueden utilizar:

• PowerShell y sus cmd-lets, desde Azure
• API de .NET
• Instrucciones de línea de comando de Oracle 12c y Hadoop
• Interface web Hue (Hadoop User Experience)

Una vez configurado la estructura fuente de carga, utilizaremos el cliente de Hive que permite ejecutar sentencias con HiveQL. Lo primero que haremos será cargar un archivo de datos al sistema de ficheros que utiliza Hadoop. Luego creamos la tabla Hive, que hemos decidido usar para interpretar los datos de Hadoop desde Hive. En nuestro caso usamos RegEx SerDe, donde el DDL tendría este aspecto:

CREATE  EXTERNAL  TABLE  prueba_log   (

 host  STRING ,

 identity  STRING ,

 user  STRING ,

 time  STRING ,

 request  STRING ,

 status  STRING ,

 size  STRING ,

 referer  STRING ,

 agent  STRING )

 ROW  FORMAT  SERDE   ‘org.apache.hadoop.hive.contrib.serde2.RegexSerDe’

 WITH  SERDEPROPERTIES   (

 “input.regex”   =   “([^ ]*) ([^ ]*) ([^ ]*) (-|\[[^\]]*\])

 ([^ “]*|”[^”]*”) (-|[0-9]*) (-|[0-9]*)(?: ([^ “]*|”

 [^”]*”) ([^ “]*|”[^”]*”))?” ,

 “output.format.string”   =   “%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s”

 )

 STORED  AS   TEXTFILE

 LOCATION   ‘ 8020/user/hive/warehouse/moviedemo’;

Desde este punto, si la tabla Hive ya está creada, se puede configurar su nombre a una lista blanca o limitar otros determinados objetos Hive a una lista negra si es necesario, o bien, se  puede activar manualmente la carga de procesamiento de datos en el nodo de BDD, así:

  [oracle @ bddnode1 ~] $ cd /home/oracle/Middleware/BDD1.0/dataprocessing/edp_cli

  [oracle @ bddnode1 edp_cli] $ ./data_processing_CLI -t prueba_logs;

El resultado es un conjunto de datos en el catálogo de Discovery Studio, que detallaremos en el apartado de análisis del post. Previamente tenemos que haber configurado script CLI (Hadoop Command Line Interface), para que encuentre automáticamente los objetos creados en Hive, ponga en marcha el proceso de flujos de trabajo y los almacene automáticamente en Dgraph, para que podamos conectar directamente a los datos y analizarlos con Discovery Studio.

2. Se planifican con Oozie:

Oozie programa las acciones a ejecutar cuando se han cumplido las dependencias necesarias. Distinguimos 2 pasos:

5

Apache Hive:

Previamente mediante Hive, con las 3º herramientas mencionadas, transformamos el contenido planificando los flujos necesarios, (podemos usar Pig  y mapping ODI 12c para realizar transformaciones complejas).

Apache Spark:

Podemos ver los porcentajes de estadísticas en cada paso, y los resultados desde la interface HUE (pestaña Job Browser):

Profiling, este proceso examina los datos entrantes, ayudando a BDD a determinar el tipo de datos de cada columna de la tabla de Hive, cargando los registros de uno en uno, con gran rapidez y fluidez.

Enrichment, identifica palabras, frases clave y otros hechos léxicos mediante claves, sobre el conjunto de datos. Un concepto clave aquí es que todos los datos que se analizan tienen que encajar dentro del espacio de memoria de DGraph. Ahora hay que cargar por separado los datos en DGraph (que pueden funcionar en el clúster en cada nodo de BDD) y analizarse desde allí.

3. Se analizan con Big Data Discovery Studio:

6

Componentes:

7

  • Un catálogo interactivo que puede ver todos los datos desde Hadoop.
  • La utilidad de búsqueda por palabra clave y navegación guiada.
  • Proyectos que agrupan grandes datasets personalizados y colectivos de acceso común.
  • Suministro de datos personales a través de Hadoop o conjuntos de datos adicionales, ya sean creados manualmente o desde fuera de la BDD.

8

    • Refrescamos y seleccionamos  “Data Set” (para conectar y encontrar nuestros objetos recién creados en Hive):

9

  • Tres opciones de menú que permiten realizar un análisis de los datos fácilmente:

10

Explorar:

11

  • Se visualiza la forma y calidad de los nuevos datos.
  • Se analizan el conjunto de datos, para ver inicialmente los patrones y valores deseados.
  • Combinaciones de atributos y descubrimiento de relaciones interesantes.
  • Proyectos a velocidades interactivas.
  • Lo que nos permite saber si un conjunto de datos es digno de una mayor inversión de tiempo.
  • Para añadir nuevos proyectos y nuevas vistas.

12

  • Las tablas creadas en Hive, pueden ser unidas a la base de datos principal, relacionándolas; mediante una interfaz de tabla-join.

13

Transformar:

14

  • Visión de datos de usuario.
  • Optimización de los datos con una amplia biblioteca de transformaciones de gran alcance, con elementos de menú, un editor de script, incluyendo HTML y condiciones de caracteres de formato de texto.
  • Mejoras de los datos con las herramientas que facilitan la ubicación, la traducción del lenguaje y los ajustes de texto.
  • Cambios de datos a gran escala, utilizando Apache Spark, donde los conjuntos de datos se cargan en “proyectos” y cada proyecto puede tener su propia visión transformada de los datos en bruto, con copias del conjunto de datos, que se guardan en DGraph para representar una vista específica de los datos.

15

  • Utilizando el lenguaje de Endeca EQL para definir diferentes puntos de vista, utilizando un lenguaje de tipo SQL, y después poder definir las columnas que representan atributos, métricas (medidas) y agregaciones.
  • Añadir rápidamente y directamente nuevos atributos de carga, que podemos conectar con ODI 12c si fuera necesario, para posibles modificaciones complejas.

16

  • Verificamos y validamos, una vez que se haya terminado de transformar y enriquecer el conjunto de datos, mediante un estudio previo de validación. Posteriormente se pueden guardar (commit) los cambios en DGraph.

17

Detectar (Combina, analiza y comparte la información):

18

  • Se pueden componer rápidamente grandes páginas de proyectos de datos seleccionando, arrastrando y soltando.
  • Realiza búsquedas de gran alcance con una navegación intuitiva.
  • Permite visualizar Cuadros de mandos interactivos que revelan nuevos patrones.
  • Y realizar exportaciones e importaciones de gran volumen de datos

19

  • Podrá compartir proyectos, marcadores, y snapshots con los demás usuarios de la organización

20

  • Construir galerías visuales y contadores históricos de Big Data.
  • Publicar datos mezclados en HDFS para su uso con otras herramientas.
  • Crear sus propios paneles de información:

21

  • Podrá añadir una o más páginas al panel visual:

22

  • Agregar componentes seleccionando y arrastrando, incluyendo mapas temáticos, varios gráficos de barras, líneas y burbujas:

23

  • Los componentes visuales están unidos entre sí, para una “visión particular”, con lo que podemos ver un conjunto de datos bastante completo, desde el cluster Hadoop almacenado en DGraph.

Conclusión y comparativa “ORACLE BIG DATA DISCOVER”:

  • NO” es un sustituto de una herramienta de BI como OBIEE, que es ideal en conjunto con Oracle Exalytics para la gestión de metadatos y datos. Más allá de los gráficos simples y visualizaciones, su funcionamiento lógico para crear indicadores complejos, navegaciones por jerarquías, subtotales, etc., que ya aporta OBIEE.
  • Interactúa con herramientas de transformación por ejemplo ODI 12c para trabajar con Big Data SQL.
  • Estará implementado próximamente en la Nube.
  • Fácil uso para:
  • Encontrar y explorar en un gran volumen de datos,  para entender el potencial de esos datos fácilmente, que existen en bruto en Hadoop.
  • Usuarios no técnicos, que pueden visualizar los datos (informes y variedad de gráficos) sin tener que entender la lógica interna de la herramienta.
Twitter
LinkedIn
Evolución, innovación y transformación
37 Service Expertise avalados por Oracle 
Nuestra propuesta de valor
Posts 100% Oracle
Sigue nuestro día a día