Big Data Analytics se encuentra con Big Memory con Intel Optane PMem

Cuando apareció por primera vez la memoria persistente Intel® Optane™ (PMem), sabíamos que cambiaría radicalmente la forma en que se hacen negocios en el centro de datos, pero no podíamos predecir completamente la cantidad de formas en que haría. Como ocurre con todas las nuevas tecnologías, conocíamos los casos de uso iniciales de la memoria persistente, pero también comprendimos que aparecerían casos de uso adicionales una vez que estuvieran ampliamente disponibles.

Cuando apareció por primera vez la memoria persistente Intel® Optane™ (PMem), sabíamos que cambiaría radicalmente la forma en que se hacen negocios en el centro de datos, pero no podíamos predecir completamente la cantidad de formas en que lo haría. Como ocurre con todas las nuevas tecnologías, conocíamos los casos de uso iniciales de la memoria persistente, pero también comprendimos que aparecerían casos de uso adicionales una vez que estuvieran ampliamente disponibles.

En nuestras conversaciones con las empresas, sabíamos que necesitaban las ganancias de rendimiento que proporcionaban los sistemas en memoria para seguir siendo competitivas. El uso de DRAM para esto tenía limitaciones de costo y tamaño que dificultaban considerar el tamaño de los datos que querían almacenar en la memoria. En este documento, veremos cómo Hazelcast y MemVerge aprovechan Intel Optane PMem para superar las limitaciones de DRAM y crear una construcción de infraestructura que admita aplicaciones rápidas en tiempo real que utilizan grandes conjuntos de datos.

Unimos fuerzas con MemVerge, Hazelcast, Intel y Dell Technologies para demostrar cómo se puede implementar la infraestructura para permitir el análisis en tiempo real. Específicamente, configuramos un entorno que tenía un flujo de entrada rápido de datos en tiempo real que se incorporaron y transformaron antes de almacenarse en un data mart en memoria. El objetivo clave era mostrar cómo Intel Optane PMem es fundamental para habilitar sistemas en tiempo real a gran escala y que se necesita software adicional para permitir que Intel Optane PMem alcance todo su potencial.

Antes de destacar las pruebas que hicimos, aquí hay una breve actualización de Intel Optane PMem, Hazelcast, y MemVerge.

Intel Optane PMem

La memoria persistente, como concepto, ha existido desde mediados de la década de 1980, pero solo se convirtió en un producto utilizable real para centros de datos comerciales en 2018 cuando Intel comenzó a lanzar su Intel Módulos de memoria persistente Optane (PMM). Intel Optane PMem es un cambio de juego para la industria, ya que es un poco más lento que DRAM pero es considerablemente más rápido que las unidades de estado sólido (SSD).

Aunque es más lento que la DRAM, Intel Optane PMem tiene algunas ventajas distintivas sobre él, ya que es considerablemente más económico, tiene una capacidad de memoria más grande que la DRAM tradicional; y, como sugiere el nombre, cuando está habilitado el modo directo en la aplicación, es persistente, lo que significa que los datos almacenados en él sobrevivirán a un corte de energía o reinicio del dispositivo en el que reside.

Uno de los secretos de la baja latencia de Intel Optane PMem es que reside en el bus de memoria, lo que le permite tener un acceso a los datos similar al de DRAM.

Si bien DDR4 tiene una capacidad máxima teórica por módulo de 128 GB, las capacidades más utilizadas son de 4 GB a 64 GB (pero incluso los módulos de 64 GB, si bien están disponibles, no se usan con frecuencia).

Intel actualmente distribuye Intel Optane PMem en módulos de 128 GB, 256 GB y 512 GB. Esto proporciona hasta 16 veces la capacidad de DRAM.

Sobre la base del costo por GB, Intel Optane PMem es aproximadamente la mitad que DRAM. Debido a su mayor capacidad y menor precio, un servidor puede tener más datos de baja latencia disponibles para aplicaciones a un costo menor que un servidor con solo DRAM. Y, como puede ver en nuestras pruebas, para muchas aplicaciones, la diferencia de latencia entre DRAM y PMem en el uso real es insignificante.

Aunque el nombre de la tecnología incluye la palabra "persistencia", la persistencia de los datos que viven en Intel Optane PMem a menudo se pasa por alto y en el pasado no se ha explotado por completo. Sin embargo, MemVerge ha ideado formas de aprovechar la persistencia de los datos para ofrecer servicios adicionales a las empresas.

MemVerge

La gran potencia que proporciona Intel Optane PMem conlleva la responsabilidad de utilizarla de forma inteligente, y aquí es donde entra en juego MemVerge. Mientras que la mayoría de las herramientas de gestión y supervisión de servidores analizan el hardware heredado, como Métricas de CPU, disco y red, MemVerge® Memory Machine™ se enfoca con precisión en el monitoreo, la administración y la utilización de DRAM e Intel Optane PMem.

Uno de los primeros desafíos de Intel Optane PMem fue determinar cómo permitir que las aplicaciones lo usaran. Sin MemVerge Memory Machine, puede usar Intel Optane PMem como alternativa a la DRAM, pero no como un reemplazo directo, ya que Intel Optane PMem usa una API especializada. MemVerge abstrae esa API para que Intel Optane PMem parezca DRAM para todas las aplicaciones. Usando Memory Machine, Intel Optane PMem se presenta a las aplicaciones de la misma manera que DRAM a las aplicaciones. Al hacer esto, las aplicaciones existentes pueden usar Intel Optane PMem sin tener que volver a diseñar, lo que le ahorra a la empresa el costo de reprogramar aplicaciones y, lo que es más importante, el tiempo que llevaría hacerlo. A través de su tecnología patentada, Memory Machine crea un grupo de memoria y luego organiza en niveles Intel Optane PMem y DRAM para maximizar su impacto en las aplicaciones moviendo datos entre los dos según sea necesario para optimizar el rendimiento de la aplicación.

El innovador ZeroIO de Memory Machine permite instantáneas de memoria a memoria (es decir, instantáneas de los datos contenidos en DRAM a Intel Optane PMem), lo que en efecto hace que la DRAM sea persistente.

En el pasado, nos veíamos obligados a almacenar instantáneas en memoria en el almacenamiento tradicional, un proceso que podía demorar hasta una hora. Sin embargo, con ZeroIO, la misma operación puede tener lugar, sin interrupciones, en cuestión de segundos.

MemVerge aprovecha ZeroIO para proporcionar otros servicios de datos de memoria. Time Travel permite que una aplicación vuelva a las instantáneas tomadas anteriormente, y junto con esta característica está AutoSave, que automáticamente toma instantáneas en intervalos basados en el tiempo. En los casos en que los datos almacenados en la memoria deben trasladarse a otro servidor físico, se puede trasladar una instantánea de ZeroIO.

La supervisión de la memoria, así como la facilitación de los servicios anteriores, se realiza a través del Centro de gestión de máquinas de memoria MemVerge (M3C).

Aunque hemos mencionado que Memory Machine se usa con bases de datos, también es compatible con una amplia gama de aplicaciones: desde Maya 3D de Autodesk para animación y renderizado hasta TensorFlow (un marco de aprendizaje automático), además de otras aplicaciones, incluido Hazelcast, un producto que destacaremos en este artículo.

Hazelcast

Hazelcast es un innovador clave y líder en el creciente campo de las plataformas informáticas en memoria. Su plataforma es utilizada por organizaciones financieras, de comercio electrónico y de otro tipo donde la información en tiempo real es crítica; por ejemplo, para la detección de fraudes y para ayudar a tomar decisiones comerciales.

Hazelcast admite aplicaciones rápidas en dos niveles. En primer lugar, ofrece un almacenamiento en memoria que distribuye datos entre varios servidores en un clúster para habilitar un grupo virtual escalable de memoria rápida. El proceso de agregar más datos simplemente implica agregar otro servidor al clúster. En segundo lugar, Hazelcast incluye un motor de cómputo que maneja la lógica de la aplicación que se divide en subtareas que luego se distribuyen entre todas las CPU en un grupo de servidores. Esto no solo aprovecha el poder de cómputo colectivo del clúster, sino que también permite el procesamiento paralelo de datos de manera eficiente y de alta velocidad (esto incluye transformación, enriquecimiento, agregación y análisis). Dado que Hazelcast puede procesar datos inmediatamente después de su creación a través de sus capacidades de transmisión de datos, es útil para construir la próxima generación de aplicaciones en tiempo real.

Análisis de datos en tiempo real

Los sistemas en tiempo real están impulsados principalmente por dos características principales: velocidad y escala. Mientras que la velocidad garantiza que pueda mantenerse al día con los datos que se crean, la escala garantiza que puede manejar el volumen de esos datos. Para complicar aún más las cosas, los datos pueden provenir de muchas fuentes diferentes. Por supuesto, las velocidades más altas y la escala más alta equivalen a un costo más alto, a menos que se utilicen medios innovadores, como reemplazar la costosa DRAM con Intel Optane PMem más asequible.

Big Data Analytics se encuentra con Big Memory con Intel Optane PMem

Las capacidades de análisis de datos en tiempo real brindan una visión inmediata de una variedad de situaciones que las empresas y organizaciones pueden enfrentar y les brindan la información que necesitan para responder a ellas. Por ejemplo, el cumplimiento de iniciativas como Basilea III, donde se requiere que los bancos mantengan una mayor liquidez que antes, significa que tienen menos dinero para apalancar para generar ingresos. Al mismo tiempo, deben demostrar que conocen sus riesgos diarios para no ser sancionados por auditores y supervisores con requerimientos de liquidez aún mayores. Al tener sistemas en tiempo real para la gestión de riesgos y el cumplimiento, los bancos pueden tener vistas instantáneas de sus posiciones comerciales para comprender e informar de manera más efectiva su exposición al riesgo.

Para destacar otro ejemplo, los sistemas de análisis de operaciones bursátiles realizan un seguimiento de las operaciones y las presentan en forma analizable en tiempo real. Estos sistemas pueden justificar su alto costo debido al claro retorno de la inversión (ROI) a través de los ingresos obtenidos del comercio de acciones.

Escenario de prueba

La aplicación que elegimos usar para investigar estas tecnologías se basa en un código base de monitoreo comercial creado por Hazelcast para mostrar cuán rentable es el "análisis a pedido" adecuado. alternativa a los sistemas de tiempo real de alto costo.

Como se trataba de un proyecto de investigación a pequeña escala, hicimos algunas compensaciones que hicieron que nuestro entorno de prueba no reflejara completamente un entorno de producción típico. Por ejemplo, la potencia de cómputo de los servidores Dell EMC que usamos era mucho más potente de lo que necesitaba nuestra fuente de datos disponible, por lo que no aprovechamos al máximo la potencia de CPU disponible en ellos. Además, en aras de la simplicidad, no optimizamos el sistema de entrega de datos externos. En un sistema de producción, todos los componentes se habrían optimizado y ajustado para mejorar el rendimiento y la rentabilidad de esta configuración.

Objetivos de las pruebas

El aspecto más crítico de nuestras pruebas fue determinar si Intel Optane PMem podía mantener una fuente de datos en tiempo real.

Desviamos la prueba de las velocidades de acceso de los datos agregados/indexados en un data mart en memoria que era compatible con Intel Optane PMem; en pruebas anteriores realizadas por MemVerge y Hazelcast, los puntos de referencia han demostrado que las velocidades de acceso a los datos han sido muy similares a las de DRAM (en muchos casos, se demostraron velocidades idénticas tanto para lecturas como para escrituras) y, por lo tanto, mucho más rápidas que los datos basados en disco o SSD. accesos Dado que sabíamos que las velocidades de acceso a los datos brindaban una ventaja sobre otras configuraciones arquitectónicas, enfocamos nuestras pruebas solo en el lado de la ingesta.

Para nuestras pruebas, generamos datos ficticios en el servidor de origen de datos. Cada elemento de datos en la fuente de datos entrante representaba una operación bursátil. El símbolo bursátil, la cantidad, el precio y el tiempo fueron los valores más críticos. Cada símbolo bursátil se usó varias veces en el conjunto de datos generado para simular múltiples transacciones en un día para una acción determinada. Esas transacciones separadas luego se agregaron para dar un total acumulado de transacciones para un símbolo bursátil determinado.

Los datos generados se almacenaron en Apache Kafka debido a su capacidad para capturar un flujo rápido de datos. Cada registro de Kafka requería 210 bytes, incluidos todos los metadatos en la carga útil. Kafka se configuró para ejecutar tres intermediarios separados, todos en una sola máquina de fuente de datos y con cuatro particiones en cada intermediario. Esta configuración, por supuesto, no se usaría en un entorno de producción, ya que no es realista tener una máquina de una sola fuente para una tecnología distribuida; sin embargo, fue adecuado para los propósitos de nuestras pruebas.

Entorno de prueba

Utilizamos tres servidores Dell EMC PowerEdge R750 y un servidor Dell EMC PowerEdge R74xd para nuestras pruebas; tres ejecutaron las aplicaciones de análisis utilizando MemVerge Memory Machine y Hazelcast, mientras que el cuarto creó y almacenó los datos de prueba.

Servidores de análisis

ModeloDell EMC PowerEdge R750CPUProcesadores duales Intel® Xeon® Gold 6330 a 2 GHz (Ice Lake)

28 núcleos cada uno (56 en total, 112 con tecnología Intel® Hyper-Threading)

DRAM16 DIMM de 64GB DRAM DDR4

1 TB por servidor

Intel Optane PMem16 DIMM de 128 GB Interfaz Intel Optane PMem DDR-T

2 TB por servidor

Interfaz de red10 GbESoftwareMemVerge Memory Machine 1.2

Plataforma Hazelcast 5.0

Servidor de fuente de datos

Modelo	Dell EMC PowerEdge R740xd
CPU	Procesadores duales Intel® Xeon® Gold 6140 a 2,3 GHz (Skylake) 18 núcleos cada uno ( 36 en total; 72 con tecnología Intel® Hyper-Threading)
DRAM	12 DIMM de 32 GB DRAM DDR4 (384 GB) 2 DIMM de 16 GB NVDIMM DDR4 (32 GB)
Intel Optane PMem	No necesario
Interfaz de red	10 GbE
Software	Apache Kafka 2.8 Herramienta de generación de datos suministrada por Hazelcast

Durante nuestras pruebas, descubrimos que la cantidad de DRAM en los servidores analíticos podría haber sido significativamente menor; mientras que el sistema operativo utilizó principalmente DRAM, la aplicación utilizó principalmente Intel Optane PMem con solo una pequeña cantidad de DRAM. Para optimizar el ahorro de costos, un mínimo absoluto de DRAM en el servidor sería una configuración razonable.

Resultados de la prueba

Creamos aproximadamente 5 mil millones de registros que se almacenaron en Kafka para crear la fuente de datos. Luego, las aplicaciones de ingesta que se ejecutan en los tres servidores de aplicaciones comenzaron a recopilar los datos en las tres instancias de Hazelcast (un servidor de Hazelcast por servidor de Dell Technologies).

Probamos la aplicación cuando solo usamos DRAM y la comparamos con el uso de Intel Optane PMem con MemVerge. Los resultados de nuestras pruebas mostraron que, para las cargas de trabajo que eran predominantemente de escritura, observamos una penalización del rendimiento del 32 % al usar solo Intel Optane PMem en comparación con DRAM pura (242 000 frente a 357 000). Pero cuando usamos la configuración Intel Optane PMem + DRAM, vimos solo una penalización del 9%. Esto podría haberse reducido aún más al tener una mayor cantidad de servidores en el clúster para distribuir las escrituras aún más. El costo adicional de los servidores adicionales podría compensarse mediante la adquisición de CPU de menor potencia, ya que la carga de trabajo dada no necesariamente explotaría toda la potencia de la CPU de esta configuración de hardware probada.

< td>325 000

Configuración	Rendimiento (Registros por segundo)
Solo DRAM	357 000
Intel Optane PMem asistido con 50 GB de DRAM + Memory Machine
Intel Optane PMem + Memory Machine solamente	242 000

Consideramos fijar el precio de cada una de las configuraciones que probamos, pero nos negamos a hacerlo dadas las posibles fluctuaciones en el costo y otros factores que podrían hacer que estas estimaciones queden obsoletas pronto. Sin embargo, independientemente de los costos establecidos, Intel Optane PMem asistido con DRAM será significativamente menor que un servidor basado solo en DRAM.

Interpretación de la prueba

La conclusión clave de nuestras pruebas fue que un clúster de servidores habilitados para Intel Optane PMem podría funcionar casi a la misma velocidad que un clúster que solo usa DRAM, pero a un costo significativamente menor. .

Otra conclusión importante para nosotros fue que se podían capturar y almacenar semanas o meses de datos mediante el uso de Intel Optane PMem, que brinda a las empresas la capacidad no solo de analizar datos en tiempo real, sino también de tener datos disponibles para alta velocidad. análisis de datos históricos. Esto abre oportunidades para analizar tendencias y patrones que podrían revelar información adicional utilizando herramientas de análisis avanzadas como el aprendizaje automático (ML).

En otras palabras, las empresas pueden implementar un entorno de análisis en tiempo real que cubra un amplio rango de tiempo y explorar nuevas formas de análisis, sin las compensaciones de costo o velocidad al implementar almacenes de datos o lagos de datos.

Otras pruebas

Si bien teníamos el entorno configurado, también queríamos probar algunas de las otras capacidades de MemVerge Memory Machine, en particular, sus funciones de instantáneas y recuperación. Afortunadamente, Memory Machine tiene integración con el clúster Hazelcast, por lo que las instantáneas y la recuperación de instantáneas se pueden administrar directamente en M3C.

Las instantáneas se pueden tomar en cualquier momento a pedido o en un horario establecido, y probamos ambos métodos durante el pico de operaciones de nuestro clúster. Las instantáneas se completaron en segundos sin ningún problema ni afectaron el rendimiento de los análisis. Si algo le hubiera sucedido al clúster de Hazelcast, como un corte de energía, los datos podrían haberse recuperado usando una de nuestras instantáneas.

La función de instantánea no solo es útil para la protección, sino que también se puede utilizar para aumentar la tasa de utilización de los servidores. En las instituciones financieras, los servidores se utilizan mucho durante el horario comercial habitual, pero están relativamente inactivos fuera del horario laboral. Mediante el uso de un esquema de inicio en caliente, la tasa de utilización de los servidores se puede mejorar drásticamente. Por ejemplo, al final del día de negociación, se puede tomar una instantánea de la base de datos de negociación. Luego, cuando la base de datos comercial se cierra, los servidores se pueden configurar para otras tareas de procesamiento de datos, como la extracción de datos. Al comienzo de un día de negociación, la base de datos de negociación se puede restaurar rápidamente y las operaciones de negociación se pueden reanudar.

Conclusión

Intel Optane PMem es una tecnología emocionante y transformadora que está comenzando a remodelar el centro de datos, pero como con todas las demás tecnologías, afortunadamente no existe en el vacío. Las empresas líderes con visión de futuro como Dell Technologies, Intel, MemVerge y Hazelcast están encontrando sinergias y comenzando a explotar esta nueva tecnología para encontrar su verdadero potencial en el centro de datos: los módulos Intel Optane PMem se ofrecen a aproximadamente la mitad del costo de DRAM; Dell Technologies tiene servidores que admiten las enormes cantidades de capacidad de memoria de baja latencia que proporciona Intel Optane PMem; Hazelcast permite que las aplicaciones aprovechen estas tecnologías a gran escala; y MemVerge proporciona los servicios de monitoreo, administración y datos para Intel Optane PMem y, al abstraer la API de DRAM, hace que Intel Optane PMem aparezca como DRAM para las aplicaciones existentes, lo que les permite ejecutarse sin ser modificadas o rediseñadas.

Si todo lo demás es igual, las empresas optarían por actividades en tiempo real en lugar de actividades por lotes. Pero como no todo es igual, el procesamiento por lotes suele ser el patrón elegido para evitar los costos asociados con el procesamiento en tiempo real. Sin embargo, a medida que las expectativas de los clientes siguen aumentando en un mundo cada vez más orientado al tiempo real, las empresas necesitan encontrar nuevas formas de crear una ventaja competitiva. Al aprovechar las velocidades en tiempo real sin sufrir los costos tradicionales de la computación en memoria, las empresas líderes pueden dar el salto con tecnologías como Intel Optane PMem, MemVerge y Hazelcast para crear soluciones que les ayuden a responder a sus demandas y las de sus clientes. , más rápido que nunca.

Hazelcast

MemVerge

Este informe está patrocinado por MemVerge. Todos los puntos de vista y opiniones expresados en este informe se basan en nuestra visión imparcial de los productos bajo consideración. Intel, el logotipo de Intel e Intel Optane son marcas comerciales de Intel Corporation o sus subsidiarias.

Interactuar con StorageReview