Oracle Big Data Appliance: introducción y características

Big Data ApplianceSiguiendo el hilo del post publicado en este mismo blog hace unos días, sobre los Oracle Engineered System en su versión X5-2, vamos a aprovechar para entrar un poco más en detalle en el Oracle Big Data Appliance (BDA), diseñado para ofrecer un óptimo rendimiento en proyectos Big Data.

Big Data Appliance es un sistema abierto pero con el soporte empresarial de Oracle, que puede ser ampliado con software de terceros que añadan nuevas funcionalidades (con el soporte específico de sus respectivos fabricantes). Orientado al proceso de datos con Hadoop y NoSQL, es capaz de realizar diversos tipos de trabajo, desde los típicos procesos Hadoop (MapReduce 2, Spark, Hive etc.) hasta consultas interactivas SQL con Oracle Big Data SQL. Big Data Appliance es multitenant, es decir, puede ser configurado como un cluster único, o como varios clusters, ofreciendo la flexibilidad necesaria para por ejemplo, disponer de entornos de desarrollo, test y producción.

Desde el punto de vista de mantenimiento del sistema, éste ha sido simplificado incorporando la utilidad (de línea de comandos) para la instalación, actualización, parcheado y expansión Mammoth, que permite desplegar rápidamente las frecuentes actualizaciones del sistema Hadoop sin incurrir en interrupciones de servicio significativas además de crear y/o extender clusters en un rack o entre racks diferentes.

El hardware se ofrece con un mínimo de 6 nodos (starter pack) ampliable de 6 en 6 (in-rack expansion) hasta un máximo de 18 (full rack). Cada nodo ofrece notables capacidades tanto de cálculo como de almacenamiento, siendo sus principales características:

  • 2 Procesadores x 18 Cores Intel ® Xeon ® E5-2699 V3 a 2.3 GHz
  • 128 GB de RAM (4 * 16 DDR4) ampliables a 768 GB por nodo
  • Controlador de disco HBA con 512MB cache de escritura (respaldada con batería)
  • 12 discos SAS de alta capacidad (4TB)  a 7,200 RPM
  • 2 Puertos Infiniband QDR (40Gb/s)
  • 4 Puertos Ethernet a  10 Gb
  • 1 Puerto ILOM Ethernet

con lo que un full rack podría alcanzar unas prestaciones de hasta

  • 288 Cores
  • 2.304 Gb de RAM (o 13.824 con todos los nodos ampliados a 768 Gb de RAM)
  • 864 Tb de disco

Además, los racks de Big Data appliance pueden conectarse entre ellos hasta un total de 18 sin necesidad de switches infiniband adicionales.

Big Data Appliance cuenta a nivel de plataforma con Oracle Linux 6.4 con kernel Unbreakable Enterprise y JDK 7, y a nivel de software, dispone de:

  • Cloudera Enterprise Data Hub (CDH) Edition ver. 5. La distribución de Apache Hadoop más completa, popular y testeada. 100% open-source bajo licencia Apache, es la única solución Hadoop que ofrece procesamiento batch unificado, SQL interactivo y control de acceso basado en roles.
    • La distribución Cloudera incluye Apache Hadoop  con soporte para YARN, MR2 y Apache Spark.
    • Cloudera Impala
    • HBase (con soporte para Accumulo)
    • Cloudera Search
  • Cloudera Manager con:
    • Cloudera Back-up y Disaster Recovery (BDR)
    • Cloudera Navigator
  • Oracle R
  • Oracle NoSQL Database Community Edition (aunque sin soporte, que puede licenciarse a parte)
  • Plug-In para Enterprise Manager

Opcionalmente es posible licenciar los siguientes componentes adicionales orientados a ampliar su funcionalidad:

  • Oracle Big Data SQL. Una innovación de Oracle sólo disponible en Oracle Big Data Appliancebig-data-sql-boxshotSe trata de una nueva arquitectura  de SQL sobre Hadoop que integra de manera transparente los datos almacenados en Hadoop y/o NoSQL con los datos contenidos en bases de datos Oracle, permitiendo a las organizaciones combinar en una única consulta datos estructurados con información almacenada en Hadoop y NoSQL. Además de permitir consultar y analizar la información en Hadoop y NoSQL Big Data SQL da respuesta a uno de los principales retos de los proyectos Big Data: integrar la información en los sistemas big data con las aplicaciones y arquitecturas existentes en la organización para su análisis conjunto, poniendo al alcance de las organizaciones la consecución del objetivo de la cuarta “V” del big data: el valor del análisis conjunto.

Además, Big Data Sql aporta también mejoras en seguridad en el entorno big data ya que extiende las políticas de acceso a los datos de las BD Oracle Database a Hadoop y NoSQL y introduce nuevas características para simplificar la integración con big data. Expandiendo las funcionalidades de las External Tables para exponer los datos en Hadoop y NoSQL a los usuarios de Oracle, de manera que una vez definidas, descubren automáticamente los metadatos de Hive incluyendo ubicación de los datos y requisitos para su análisis, permitiendo el acceso vía SQL. La nueva funcionalidad Smart Scan sobre Hadoop que, aprovechando la tecnología Smart Scan de Exadata, procesa las consultas SQL en el nivel de almacenamiento de Hadoop donde se encuentran los datos, para devolver únicamente la información relevante al usuario final (mediante proyección de columnas y evaluación de predicados para descartar filas no necesarias), mejorando el rendimiento al reducir el volumen de datos a mover. Smart Scan no requiere realizar modificaciones a Hadoop, manteniendose alineado con la filosofía de sistema abierto.

  • Oracle Data Integrator. La herramienta ELT en conjunción con los Big Data Connectors permite integrar la información obtenida en el Big Data Appliance con la información estructurada de la organización, aumentando el valor de ambas fuentes de datos.
  • Los Oracle Big Data Connectors proporcionan acceso a los datos en Hadoop desde Oracle Exadata y BD Oracle con tasas de transferencia del orden aproximado de 15 TB/h
    • Oracle SQL Connector para Hadoop (proporciona acceso nativo a Hadoop)
    • Oracle Loader para Hadoop
    • Oracle XQuery para Hadoop (permite realizar operaciones XQuery estandard y la transformación de documentos en varios formatos como JSON, XML y Avro entre otros, ejecutándose en paralelo a través del cluster Hadoop)
    • Oracle R Advanced Analytics para Hadoop (soportando también procesamiento paralelo)
    • Oracle Data Integrator Application Adapter para Hadoop

Oracle Big Data Connectors

  • Oracle Audit Vault (agente preinstalado en el sistema, que registra y audita el acceso a los datos almacenados en Hadoop) y Database Firewall (detecta y bloquea accesos no autorizados a los datos, contenidos o no en una BD Oracle) permitiendo auditar de manera consolidada el acceso a los diferentes tipos de datos.
  • Oracle NoSQL Database Enterprise Edition. Es la versión requerida para la integración con BD Oracle a través de external tables (característica no disponible en la CE), y permite también la integración con otros productos Oracle, como por ejemplo Coherence.

Acabaremos con una necesaria reflexión: ¿Puede ayudar el Oracle Big Data Apliance a reducir el Coste de Propiedad (TCO)?

Como appliance, incluye todo el hardware necesario (servidores, high-speed networking, suministro eléctrico y periféricos), soporte de SO y costes de suscripción del software Cloudera bajo una misma tarifa y con el software instalado, configurado y optimizado, reduciendo drásticamente el tiempo, esfuerzo y conocimiento necesario que debería dedicar  la organización para lograr un resultado similar … pero con un riesgo menor ya que como engineered-system de Oracle, todos los componentes han sido seleccionados e integrados para asegurar un óptimo rendimiento.

Entonces: si nuestra organización dispone de la capacidad técnica para lograr una integración comparable en poco tiempo, quizá sea capaz de realizar una implementación con un TCO menor; o, si nuestras necesidades van más allá de la potencia que un full rack puede ofrecer (o de los 18 conectables!), puede ser que nos resulte más conveniente diseñar y ensamblar nuestro propio hardware. En cualquier otro caso, es una buena opción que probablemente sí nos ofrezca un TCO menor que una implementación propia.

Twitter
LinkedIn
Evolución, innovación y transformación
37 Service Expertise avalados por Oracle 
Nuestra propuesta de valor
Posts 100% Oracle
Sigue nuestro día a día