Razones para utilizar Big Data SQL v 3.1

Siguiendo la línea de lo comentado en anteriores posts de Oracle Big Data Appliance (BDA) sobre características y evolución, aprovecharemos para hablar de las nuevas características de Oracle Big Data SQL 3.1. Dicho software está disponible con Oracle Database 12C en combinación con el sistema Oracle Exadata Engineered y el sistema de ingeniería de dispositivos Oracle Big Data.

El uso del sistema Oracle Engineered tiene mucho sentido ya que es capaz de utilizar InfiniBand, con conexiones entre dos sistemas para eliminar el cuello de botella de la red, y así poder obtener distintas partes de información desde una consulta SQL. Además, permite acceder en línea al sistema de base de datos con el funcionamiento del Exadata, permitiendo un almacenamiento de la información y un procesamiento de cálculo realizado en gran parte en los nodos de almacenamiento. Esto asegura que más ciclos de CPU están disponibles para otras tareas, clasificación, filtrado y capacidad de almacenamiento.

Cuando ciertas partes de los datos residen en una base de datos NoSQL y otras en un clúster HDFS, surgen problemas de tiempos de respuesta además de abundante codificación adicional que permite obtener un resultado de cruce de datos necesario y posible.

Por eso Oracle anuncióOracle Big Data SQL“, mejorando su v 3.1 y asegurando “consultas SQL rápidas y seguras en todos sus datos” sobre el lenguaje SQL estándar que conocemos, el cual permite consultar datos no sólo en la base de datos Oracle sino también con datos que residen desde “otros puntos”.  Dichos puntos son los clústers Hadoop HDFS y las bases de datos NoSQL, lo cual nos permite extender el diccionario de datos de Oracle y almacenar información de los datos en los clústers NoSQL o Hadoop HDFS, permitiendo que la Base de datos Oracle pueda hacer uso de esas fuentes en combinación con los datos almacenados.

Oracle Big Data Appliance, es un sistema abierto, multiusos para Hadoop y de procesamiento NoSQL. También está diseñado para ejecutar diversas cargas de Hadoop y consultas SQL interactivas mediante Oracle Big Data SQL. Estas capacidades están disponibles en la instalación, así como en el servicio de Oracle Big Data Cloud Service que ofrece nuevas características de mejora en su última versión.

Big Data SQL v3.1 ahora soporta:

  • Exadata a Big Data Appliance.
  • Exadata a clúster hadoop de commodities (CDH & HDP).
  • Oracle Database 12c a Big Data Appliance.
  • Oracle Database 12c a los clústers hadoop de productos básicos.
  • Oracle SuperCluster a Big Data Appliance (aún no certificado).

Instalación puede ser desde dos sistemas diferentes:

Big Data SQL requiere la instalación tanto en Oracle Database como en el Clúster Hadoop, para ello previamente revisaremos la matriz de compatibilidad y los requisitos de Oracle Database 12c:

  • Parche del paquete: 12.1.0.2.161018 – Oct 2016.
  • Big Data SQL 1-off Parche de base de datos al parche anterior.
  • Paquete de software Big Data SQL 3.1 (disponible en edelivery).
  • Documentación.

Funcionalidades

  • Análisis de gráficos, procesamiento del lenguaje y detección de fraude.
  • Combinación de datos de Oracle Database, Hadoop y NoSQL en una sola consulta SQL.
  • Consultar y analizar datos en Hadoop y NoSQL.
  • Integrar análisis de datos en aplicaciones y arquitecturas existentes.
  • Extender políticas de seguridad y acceso desde Oracle Database a datos en Hadoop y NoSQL.
  • Maximizar el rendimiento de las consultas en todos los datos mediante Smart Scan (Oracle Big Data SQL simplifica radicalmente la integración y la operación).

Acceso al dominio

Utilizando nuevos tipos de tablas externas y con la funcionalidad de explorar en Hadoop tendremos permiso para exponer los datos de Hadoop y NoSQL a Oracle. Dentro del esquema de Base de datos estas tablas, una vez definidas, detectan automáticamente los metadatos de Hive (se necesita la conexión con Hive, para leer los metadatos, y así saber cuáles son los ficheros y donde están ubicados los datos) y los requisitos de análisis de datos. Esto permite que las consultas SQL accedan a los datos en su formato existente con dos tipos de conectores:

  • ORACLE_HIVE: Permite crear tablas externas de Oracle sobre orígenes de datos de Apache Hive. Se utiliza este controlador de acceso cuando ya hay definido unas tablas Hive para su uso como fuentes de datos HDFS.  También permite acceder a los datos almacenados en otras ubicaciones, como HBase que tienen tablas Hive definidas para ello.
  • ORACLE_HDFS: Permite crear tablas externas de Oracle directamente sobre archivos almacenados en HDFS. Este controlador de acceso utiliza la sintaxis de Hive para describir una fuente de datos, la asignación de nombres de columna por defecto de COL_1, COL_2.

Aprovechando construcciones de análisis nativo

La capacidad única de Smart Scan de Oracle aporta innovaciones probadas en el procesamiento de almacenamiento por niveles:

  • Análisis de datos locales. Los datos de Hadoop se leen utilizando operadores nativos locales al nodo.
  • Proyección de columna. Sólo las columnas relevantes se devuelven desde el origen hasta el procesamiento en el motor de base de datos.
  • Evaluación. Sólo se devuelven filas relevantes de la fuente y se aprovechan los formatos de almacenamiento subyacentes (selectividad en las consultas).
  • Índices de almacenamiento. Evitan la E/S para las exploraciones de Hadoop que generan una mayor velocidad de consulta
  • Evaluación de funciones complejas. Operadores SQL en tipos JSON y XML, son aplicados en el origen, modelo de puntuación y operadores analíticos evaluados en la fuente
  • Cambios. Cualquier cambio desde Hadoop se mantiene en línea con la sesión abierta por Oracle Big data SQL.
  • Oracle Big Data Spatial y Graph proporciona capacidades avanzadas de análisis espacial y de Base de datos de gráficos en Oracle Big Data Appliance. Este componente de gráfico de propiedades proporciona a los usuarios una base de datos de gráficos escalable en memoria de análisis. Incluye 35 análisis de gráficos pre-construidos que permiten al usuario, descubrir fácilmente las relaciones, la comunicación de los datos, lo influyente y otros patrones gráficos. Las Bases de datos de gráficos está alojada en Apache HBase o Oracle NoSQL Database y soporta lenguajes de scripting como Python, Groovy y el código abierto Tinkerpop.

Uso de instrucciones que facilitan el acceso

  • Parttions is runing: para enviar las consultas sólo a los nodos que tenga los datos.
  • Storage index: podemos indicar a que discos ir.
  • Smart Scan: ejecuta el filtrado de filas y la proyección de columnas.
  • Bloom filtering: búsqueda de listas de lo que quiero buscar.
  • Incorpora en la cláusula “where” el uso de obtener una información incorporada, convertir los datos y aplicar las transformaciones antes de dárselo al motor de BBDD.

Conectores

Big Data Appliance, conjuntamente con Big Data SQL y la plataforma de software completa de Cloudera, utiliza Oracle Big Data Connectors para simplificar la integración de datos y su analítica. Proporciona acceso de alta velocidad a datos en Hadoop desde Oracle Exadata y Oracle Database con transferencia de datos de orden de 15 TB / hora. Los conectores de datos también permiten análisis integrados y altamente escalables, proporcionando acceso nativo a datos de Hadoop y procesamiento paralelo usando Oracle R Distribución.

Por último, Oracle XQuery para Hadoop facilita las operaciones estándar de XQuery para procesar y transformar documentos en varios formatos (JSON, XML y otros).

Seguridad Integral

Asegurar los datos es fundamental para las soluciones de Big Data en la empresa, proporcionan autenticación, autorización y auditoría de datos en Hadoop.

La autenticación se proporciona mediante Kerberos. Esto asegura que todos los usuarios Big Data Appliance aprovechen la opción de Apache Sentry (sistema para aplicar una autorización basada en roles, un proyecto en desarrollo con código abierto por desarrolladores de Oracle) para autorizar el acceso SQL a través de herramientas como Hive e Impala.

Razones para utilizar Big data SQL

  • Evitamos que los datos sean un cuello de botella. Podemos hacer operaciones que en las bases de datos relacionales tradicionales no se pueden.
  • Gran almacenamiento de grandes volúmenes de datos que a menudo tienen poca o ninguna estructura.
  • Se aprovecha al máximo el cloud computing y el almacenamiento.
  • Desarrollo rápido, no requiere aprendizaje, conociendo el SQL estándar.
  • Creación de acceso mediante tablas externas. No se puede hacer insert ni update ni delete, sólo select, pero si volcar la información a una tabla Oracle. Se puede volcar de dos maneras: conectando Hive y recuperando los metadatos o con Oracle HDFS e indicando los parámetros internos de acceso a Hadoop; esto permite que HDFS sólo ejecute el Big data SQL sobre la partición indicada y con unos tiempos de respuesta muy buenos (sólo se realiza la primera vez la consulta, que es la que más tardará, luego será cacheada).
  • Optimación. Todo lo que leo lo convierto en ficheros Hadoop en bloques Oracle. Permite sacar un rendimiento adicional, acceso a Hadoop por datos SQL por celda en bloques dentro del motor Oracle y contar con optimaciones propias incorporadas para acelerar las consulta contra Hadoop.
  • Se pueden añadir políticas de seguridad.
  • Puedo diseñar particiones y agregaciones mejorando el rendimiento. Permite llevar a Hadoop toda la información histórica para acceder desde BIG DATA SQL.
  • Impala no funciona bien con concurrencia, mientras que Big data SQL no tiene problemas cuando acceden varios usuarios.

Estas opciones mencionadas de Oracle Big Data SQL tienen muchas ventajas para nuestros clientes, tanto a nivel técnico (podremos bajar la carga de CPU en la instancia de base de datos), como arquitectónico y de integración (soluciones NoSQL y Hadoop HDFS). Todo ello ayuda a los clientes a obtener un sistema de archivos en bucle de retorno (LOFS) mucho más rápido y seguro.

Twitter
LinkedIn
Evolución, innovación y transformación
37 Service Expertise avalados por Oracle 
Our value proposition
100% Oracle posts
Follow our day-to-day activities