L'analytique du Big Data rencontre la grande mémoire avec Intel Optane PMem

Lorsque la mémoire persistante Intel® Optane™ (PMem) est sortie pour la première fois, nous savions qu'elle modifierait radicalement la façon dont les affaires se déroulent dans le centre de données, mais nous ne pouvions pas entièrement prédire le nombre de façons dont elle serait. Comme c'est le cas avec toutes les nouvelles technologies, nous connaissions les cas d'utilisation initiaux de la mémoire persistante, mais nous avons également compris que des cas d'utilisation supplémentaires apparaîtraient une fois qu'ils seraient largement disponibles.

Lorsque la mémoire persistante Intel® Optane™ (PMem) est sortie pour la première fois, nous savions qu'elle modifierait radicalement la façon dont les affaires se déroulent dans le centre de données, mais nous ne pouvions pas prévoir exactement le nombre de façons dont cela se produirait. Comme c'est le cas avec toutes les nouvelles technologies, nous connaissions les cas d'utilisation initiaux de la mémoire persistante, mais nous avons également compris que des cas d'utilisation supplémentaires apparaîtraient une fois qu'ils seraient largement disponibles.

Lors de nos discussions avec les entreprises, nous savions qu'elles avaient besoin des gains de performances fournis par les systèmes en mémoire pour rester compétitives. L'utilisation de DRAM pour cela avait des limites de coût et de taille qui rendaient difficile compte tenu de la taille des données qu'ils voulaient stocker en mémoire. Dans cet article, nous examinerons comment Hazelcast et MemVerge exploitent Intel Optane PMem pour surmonter les limites de la DRAM afin de créer une structure d'infrastructure prenant en charge des applications rapides en temps réel qui utilisent de grands ensembles de données.

Nous avons uni nos forces avec MemVerge, Hazelcast, Intel et Dell Technologies pour démontrer comment l'infrastructure peut être déployée pour permettre l'analyse en temps réel. Plus précisément, nous avons mis en place un environnement doté d'un flux entrant rapide de données en temps réel qui ont été ingérées et transformées avant d'être stockées dans un magasin de données en mémoire. L'objectif principal était de montrer comment Intel Optane PMem est essentiel pour activer des systèmes en temps réel à grande échelle et qu'un logiciel supplémentaire est nécessaire pour permettre à Intel Optane PMem de réaliser son plein potentiel.

Avant de souligner les tests que nous avons effectués, voici un bref rappel sur Intel Optane PMem, Hazelcast, et MemVerge.

Intel Optane PMem

La mémoire persistante, en tant que concept, existe depuis le milieu des années 1980, mais elle n'est devenue un produit réellement utilisable pour les centres de données commerciaux qu'en 2018, lorsqu'Intel a commencé à sortir son Intel Modules de mémoire persistante Optane (PMM). Intel Optane PMem change la donne pour l'industrie car il est légèrement plus lent que la DRAM mais est considérablement plus rapide que les disques à semi-conducteurs (SSD).

Bien qu'il soit plus lent que la DRAM, Intel Optane PMem présente certains avantages distincts, car il est considérablement moins cher et offre des capacités de mémoire plus grandes que la DRAM traditionnelle ; et, comme son nom l'indique, lorsqu'il est activé en mode direct dans l'application, il est persistant, ce qui signifie que les données qui y sont stockées survivront à une panne de courant ou au redémarrage de l'appareil sur lequel il réside.

L'un des secrets de la faible latence d'Intel Optane PMem est qu'il réside sur le bus mémoire, ce qui lui permet d'avoir un accès aux données de type DRAM.

Bien que la DDR4 ait une capacité maximale théorique par module de 128 Go, les capacités les plus couramment utilisées sont comprises entre 4 Go et 64 Go (mais même les modules de 64 Go, bien qu'ils soient disponibles, ne sont pas couramment utilisés).

Intel propose actuellement Intel Optane PMem en modules de 128 Go, 256 Go et 512 Go. Cela fournit jusqu'à 16 fois la capacité de la DRAM.

Sur la base du coût par Go, Intel Optane PMem représente environ la moitié de celui de la DRAM. En raison de sa plus grande capacité et de son prix inférieur, un serveur peut avoir plus de données à faible latence disponibles pour les applications à un coût inférieur à celui d'un serveur avec juste DRAM. Et, comme vous le voyez dans nos tests, pour de nombreuses applications, la différence de latence entre DRAM et PMem dans l'utilisation réelle est négligeable.

Bien que le nom de la technologie inclue le mot "persistance", la persistance des données qui réside dans Intel Optane PMem est souvent négligée et n'a pas été pleinement exploitée dans le passé. MemVerge, cependant, a imaginé des moyens de tirer parti de la persistance des données pour offrir des services supplémentaires aux entreprises.

MemVerge

La grande puissance fournie par Intel Optane PMem implique la responsabilité de l'utiliser judicieusement, et c'est là que MemVerge entre en jeu. Alors que la plupart des outils de surveillance et de gestion de serveur examinent le matériel hérité tel que CPU, disque et métriques de réseau, MemVerge® Memory Machine™ se concentre sur la surveillance, la gestion et l'utilisation de DRAM et d'Intel Optane PMem.

L'un des premiers défis d'Intel Optane PMem consistait à déterminer comment autoriser les applications à l'utiliser. Sans MemVerge Memory Machine, vous pouvez utiliser Intel Optane PMem comme alternative à la DRAM, mais pas comme un remplacement direct car Intel Optane PMem utilise une API spécialisée. MemVerge supprime cette API afin qu'Intel Optane PMem ressemble à la DRAM pour toutes les applications. À l'aide de Memory Machine, Intel Optane PMem est présenté aux applications de la même manière que la DRAM aux applications. Ce faisant, les applications existantes peuvent utiliser Intel Optane PMem sans avoir à être repensées, ce qui permet à une entreprise d'économiser le coût de la reprogrammation des applications et, plus important encore, le temps nécessaire pour le faire. Grâce à sa technologie brevetée, Memory Machine crée un pool de mémoire, puis hiérarchise Intel Optane PMem et DRAM pour maximiser son impact sur les applications en déplaçant les données entre les deux selon les besoins pour optimiser les performances des applications.

Le ZeroIO innovant de Memory Machine permet des instantanés de mémoire à mémoire (c'est-à-dire des instantanés des données contenues sur la DRAM vers Intel Optane PMem), ce qui rend la DRAM persistante.

Auparavant, nous étions obligés de stocker des instantanés en mémoire sur un stockage traditionnel, un processus qui pouvait prendre jusqu'à une heure. En utilisant ZeroIO, cependant, la même opération peut avoir lieu, sans interruption, en quelques secondes.

MemVerge exploite ZeroIO pour fournir d'autres services de données de mémoire. Time Travel permet à une application de revenir aux instantanés précédemment pris, et étroitement couplé à cette fonctionnalité est AutoSave qui prend automatiquement des instantanés à des intervalles basés sur le temps. Dans les cas où les données stockées en mémoire doivent être déplacées vers un autre serveur physique, un instantané ZeroIO peut y être déplacé.

La surveillance de la mémoire, ainsi que la facilitation des services ci-dessus, sont effectuées via le MemVerge Memory Machine Management Center (M3C).

Bien que nous ayons mentionné que Memory Machine est utilisé avec des bases de données, il prend également en charge un large éventail d'applications : de Maya 3D d'Autodesk pour l'animation et le rendu à TensorFlow (un cadre d'apprentissage automatique) ainsi que d'autres applications, y compris Hazelcast, un produit que nous mettrons en évidence dans cet article.

Hazelcast

Hazelcast est un innovateur clé et un leader dans le domaine en plein essor des plates-formes informatiques en mémoire. Leur plate-forme est utilisée par des organisations financières, de commerce électronique et d'autres types d'organisations où les informations en temps réel sont essentielles ; par exemple, pour la détection des fraudes et pour aider à prendre des décisions commerciales.

Hazelcast prend en charge les applications rapides à deux niveaux. Premièrement, il offre un magasin en mémoire qui distribue les données sur plusieurs serveurs dans un cluster pour permettre un pool virtuel évolutif de mémoire rapide. Le processus d'ajout de données supplémentaires implique simplement l'ajout d'un autre serveur au cluster. Deuxièmement, Hazelcast inclut un moteur de calcul qui gère la logique d'application qui est divisée en sous-tâches qui sont ensuite réparties sur tous les processeurs d'un cluster de serveurs. Non seulement cela tire parti de la puissance de calcul collective du cluster, mais cela permet également le traitement parallèle des données de manière efficace et rapide (cela inclut la transformation, l'enrichissement, l'agrégation et l'analyse). Étant donné que Hazelcast peut traiter les données immédiatement après leur création via ses capacités de diffusion de données, il est utile pour créer la prochaine génération d'applications en temps réel.

Analyse des données en temps réel

Les systèmes en temps réel sont principalement pilotés par deux caractéristiques principales : la vitesse et l'échelle. Alors que la vitesse vous permet de suivre le rythme des données en cours de création, l'évolutivité garantit que vous pouvez gérer le volume de ces données. Pour compliquer davantage les choses, les données peuvent provenir de nombreuses sources différentes. Bien sûr, des vitesses plus élevées et une échelle plus élevée équivaut à un coût plus élevé, à moins que des moyens innovants ne soient utilisés, tels que le remplacement de DRAM coûteuse par Intel Optane PMem plus abordable.

Le Big Data Analytics rencontre le Big Memory avec Intel Optane PMem

Les capacités d'analyse de données en temps réel fournissent un aperçu immédiat d'une variété de situations auxquelles les entreprises et les organisations peuvent être confrontées et leur fournissent les informations dont elles ont besoin pour y répondre. Par exemple, la conformité avec des initiatives comme Bâle III, où les banques sont tenues de maintenir une liquidité plus élevée qu'auparavant, signifie qu'elles ont moins d'argent à mobiliser pour générer des revenus. Dans le même temps, ils doivent prouver que leurs risques quotidiens sont compris afin de ne pas être pénalisés par des auditeurs et des superviseurs avec des exigences de liquidité encore plus élevées. En disposant de systèmes en temps réel pour la gestion des risques et la conformité, les banques peuvent avoir une vue instantanée de leurs positions de trading afin de mieux comprendre et signaler leur exposition au risque.

Pour mettre en évidence un autre exemple, les systèmes d'analyse des transactions boursières suivent les transactions et les présentent sous une forme analysable en temps réel. Ces systèmes peuvent justifier leurs dépenses élevées en raison du retour sur investissement (ROI) clair via les revenus générés par les transactions boursières.

Scénario de test

L'application que nous avons choisie d'utiliser pour étudier ces technologies est basée sur une base de code de surveillance commerciale créée par Hazelcast pour montrer à quel point les "analyses à la demande" sont rentables. alternative aux systèmes coûteux en temps réel.

Comme il s'agissait d'un projet de recherche à petite échelle, nous avons fait quelques compromis qui ont fait que notre environnement de test ne reflétait pas entièrement un environnement de production typique. Par exemple, la puissance de calcul des serveurs Dell EMC que nous avons utilisés était bien plus puissante que ce dont notre source de données disponible avait besoin, nous n'avons donc pas pleinement profité de la puissance CPU disponible. De plus, par souci de simplicité, nous n'avons pas optimisé le système de livraison de données externes. Dans un système de production, tous les composants auraient été optimisés et réglés pour améliorer les performances et la rentabilité de cette configuration.

Objectifs des tests

L'aspect le plus critique de nos tests était de vérifier si Intel Optane PMem pouvait supporter un flux de données en temps réel.

Nous avons dévié en testant les vitesses d'accès des données agrégées/indexées dans un magasin de données en mémoire pris en charge par Intel Optane PMem ; dans les tests précédents de MemVerge et Hazelcast, les benchmarks ont montré que les vitesses d'accès aux données étaient très proches de celles de la DRAM (dans de nombreux cas, des vitesses identiques pour les lectures et les écritures ont été démontrées), et donc beaucoup plus rapides que les données sur disque ou SSD accède. Comme nous savions que les vitesses d'accès aux données offraient un avantage par rapport aux autres configurations architecturales, nous avons concentré nos tests uniquement sur le côté ingestion.

Pour nos tests, nous avons généré des données fictives sur le serveur de source de données. Chaque élément de données dans le flux de données entrant représentait une transaction boursière. Le symbole boursier, la quantité, le prix et l'heure étaient les valeurs les plus critiques. Chaque symbole boursier a été utilisé plusieurs fois dans l'ensemble de données généré pour simuler plusieurs transactions en une journée pour une action donnée. Ces transactions distinctes ont ensuite été agrégées pour donner un total cumulé de transactions pour un symbole boursier donné.

Les données générées ont été stockées dans Apache Kafka en raison de sa capacité à capturer un flux rapide de données. Chaque enregistrement de Kafka nécessitait 210 octets, y compris toutes les métadonnées de la charge utile. Kafka a été configuré pour exécuter trois courtiers distincts, tous sur une seule machine source de données et avec quatre partitions sur chaque courtier. Cette configuration, bien sûr, ne serait pas utilisée dans un environnement de production car il est irréaliste d'avoir une machine source unique pour une technologie distribuée ; cependant, il convenait aux fins de nos tests.

Environnement de test

Nous avons utilisé trois serveurs Dell EMC PowerEdge R750 et un serveur Dell EMC PowerEdge R74xd pour nos tests ; trois ont exécuté les applications d'analyse à l'aide de MemVerge Memory Machine et Hazelcast, tandis que le quatrième a créé et stocké les données de test.

Serveurs analytiques

Modèle	Dell EMC PowerEdge R750
CPU	Deux processeurs Intel® Xeon® Gold 6330 à 2 GHz (Ice Lake) 28 cœurs chacun (56 au total, 112 avec la technologie Intel® Hyper-Threading)
DRAM	16 DIMM de 64 Go de DRAM DDR4 1 To par serveur
Intel Optane PMem	16 DIMM de 128 Go d'interface Intel Optane PMem DDR-T 2 To par serveur
Interface réseau	10 GbE
Logiciel	MemVerge Memory Machine 1.2 Plateforme Hazelcast 5.0

Serveur de source de données

Modèle	Dell EMC PowerEdge R740xd
CPU	Deux processeurs Intel® Xeon® Gold 6140 à 2,3 GHz (Skylake) 18 cœurs chacun ( 36 au total ; 72 avec la technologie Intel® Hyper-Threading)
DRAM	12 DIMM de 32 Go DRAM DDR4 (384 Go) 2 DIMM de 16 Go NVDIMM DDR4 (32 Go)
Intel Optane PMem	Non nécessaire
Interface réseau	10 GbE
Logiciel	Apache Kafka 2.8 Outil de génération de données fourni par Hazelcast

Au cours de nos tests, nous avons constaté que la quantité de DRAM dans les serveurs analytiques aurait pu être nettement inférieure ; alors que la DRAM était principalement utilisée par le système d'exploitation, l'application utilisait principalement Intel Optane PMem avec seulement une petite quantité de DRAM. Pour optimiser les économies de coûts, un minimum absolu de DRAM sur le serveur serait une configuration raisonnable.

Résultats des tests

Nous avons créé environ 5 milliards d'enregistrements qui ont été stockés dans Kafka pour créer la source de données. Les applications d'ingestion exécutées sur les trois serveurs d'applications ont ensuite démarré pour ingérer les données sur les trois instances Hazelcast (un serveur Hazelcast par serveur Dell Technologies).

Nous avons testé l'application en utilisant uniquement la DRAM et l'avons comparée à l'utilisation d'Intel Optane PMem avec MemVerge. Les résultats de nos tests ont montré que pour les charges de travail qui étaient principalement des écritures, nous avons constaté une baisse des performances de 32 % en utilisant uniquement Intel Optane PMem par rapport à la DRAM pure (242 K contre 357 K). Mais lors de l'utilisation de la configuration Intel Optane PMem + DRAM, nous n'avons constaté qu'une pénalité de 9 %. Cela aurait pu être encore réduit en ayant un nombre accru de serveurs dans le cluster pour répartir encore plus les écritures. Le coût supplémentaire des serveurs supplémentaires pourrait être compensé en achetant des processeurs moins puissants, car la charge de travail donnée n'exploiterait pas nécessairement toute la puissance du processeur de cette configuration matérielle testée.

< td>325 000

Configuration	Performances (enregistrements par seconde)
DRAM uniquement	357 000
Intel Optane PMem assisté avec 50 Go de DRAM + Memory Machine
Intel Optane PMem + Memory Machine uniquement	242 000

Nous avons envisagé d'établir un prix pour chacune des configurations que nous avons testées, mais nous avons refusé de le faire en raison des fluctuations potentielles des coûts et d'autres facteurs susceptibles de rendre ces estimations rapidement obsolètes. Indépendamment des coûts fixés, cependant, Intel Optane PMem assisté par DRAM sera nettement inférieur à celui d'un serveur basé uniquement sur DRAM.

Interprétation des tests

La principale conclusion de nos tests était qu'un cluster de serveurs équipés d'Intel Optane PMem pouvait fonctionner à peu près à la même vitesse qu'un cluster qui n'utilisait que de la DRAM, mais à un coût nettement inférieur .

Un autre point important pour nous était que des semaines ou des mois de données pouvaient être capturées et stockées à l'aide d'Intel Optane PMem, qui offre aux entreprises la possibilité non seulement d'analyser les données en temps réel, mais également d'avoir des données disponibles pour le haut débit. analyse des données historiques. Cela ouvre des opportunités d'analyse des tendances et des modèles qui pourraient révéler des informations supplémentaires à l'aide d'outils d'analyse avancés tels que l'apprentissage automatique (ML).

En d'autres termes, les entreprises peuvent déployer un environnement d'analyse en temps réel couvrant une large plage de temps et explorer de nouvelles formes d'analyse, sans les compromis de coût ou de vitesse lors du déploiement d'entrepôts de données ou de lacs de données.

Autres tests

Bien que nous ayons configuré l'environnement, nous voulions également tester certaines des autres fonctionnalités de MemVerge Memory Machine, en particulier ses fonctionnalités d'instantané et de récupération. Heureusement, Memory Machine est intégré au cluster Hazelcast afin que les instantanés et la récupération d'instantanés puissent être gérés directement dans M3C.

Les instantanés peuvent être pris à tout moment à la demande ou selon un calendrier défini, et nous avons testé les deux méthodes pendant les pics d'activité de notre cluster. Les instantanés ont été réalisés en quelques secondes sans aucun problème ni impact sur les performances des analyses. Si quelque chose était arrivé au cluster Hazelcast, comme une panne de courant, les données auraient pu être récupérées à l'aide de l'un de nos instantanés.

La fonction d'instantané n'est pas seulement utile pour la protection mais elle peut également être utilisée pour augmenter le taux d'utilisation des serveurs. Dans les institutions financières, les serveurs sont fortement utilisés pendant les heures de négociation habituelles, mais sont relativement inactifs pendant les heures creuses. En utilisant un schéma de démarrage à chaud, le taux d'utilisation des serveurs peut être considérablement amélioré. Par exemple, à la fin de la journée de trading, un instantané de la base de données de trading peut être pris. Ensuite, lorsque la base de données de trading est fermée, les serveurs peuvent être configurés pour d'autres tâches de traitement de données telles que l'exploration de données. Au début d'une journée de trading, la base de données de trading peut être rapidement restaurée et les opérations de trading peuvent reprendre.

Conclusion

Intel Optane PMem est une technologie passionnante et transformatrice qui commence à remodeler le centre de données, mais comme pour toutes les autres technologies, elle n'existe heureusement pas dans le vide. Des entreprises leaders et avant-gardistes telles que Dell Technologies, Intel, MemVerge et Hazelcast trouvent des synergies et commencent à exploiter cette nouvelle technologie pour trouver son véritable potentiel dans le datacenter : les modules Intel Optane PMem sont proposés à environ la moitié du coût de la DRAM ; Dell Technologies dispose de serveurs qui prennent en charge les quantités massives de capacité de mémoire à faible latence fournies par Intel Optane PMem ; Hazelcast permet aux applications de tirer parti de ces technologies à grande échelle ; et MemVerge fournit les services de surveillance, de gestion et de données pour Intel Optane PMem et, en faisant abstraction de l'API DRAM, il fait apparaître Intel Optane PMem comme DRAM pour les applications existantes, leur permettant ainsi de s'exécuter sans être modifiées ou repensées.

Toutes choses étant égales par ailleurs, les entreprises opteraient pour des activités en temps réel plutôt que pour des activités par lots. Mais comme tout n'est pas égal, le traitement par lots est souvent le modèle choisi pour éviter les coûts associés au traitement en temps réel. Cependant, alors que les attentes des clients continuent d'augmenter dans un monde de plus en plus axé sur le temps réel, les entreprises doivent trouver de nouvelles façons de créer un avantage concurrentiel. En tirant parti des vitesses en temps réel sans subir les coûts traditionnels de l'informatique en mémoire, les grandes entreprises peuvent faire le saut avec des technologies comme Intel Optane PMem, MemVerge et Hazelcast pour créer des solutions qui les aident à répondre à leurs demandes et à celles de leurs clients. , plus rapide que jamais.

Hazelcast

MemVerge

Ce rapport est sponsorisé par MemVerge. Tous les points de vue et opinions exprimés dans ce rapport sont basés sur notre vision impartiale du ou des produits à l'étude. Intel, le logo Intel et Intel Optane sont des marques commerciales d'Intel Corporation ou de ses filiales.

Engagez-vous avec StorageReview

L'analytique du Big Data rencontre la grande mémoire avec Intel Optane PMem

Intel Optane PMem

MemVerge

Hazelcast

Analyse des données en temps réel

Scénario de test

Objectifs des tests

Environnement de test

Serveurs analytiques

Serveur de source de données

Résultats des tests

Interprétation des tests

Autres tests

Conclusion

Guide ultime pour l’achat d’un smartphone

What Happens When Blood Samples Become Hemolyzed?

CYP Inhibition Assays: Methods and Key Considerations