• технология
  • Електрическо оборудване
  • Материална индустрия
  • Дигитален живот
  • Политика за поверителност
  • О име
Location: Home / технология / Анализът на големи данни се среща с голямата памет с Intel Optane PMem

Анализът на големи данни се среща с голямата памет с Intel Optane PMem

techserving |
1762

Когато постоянната памет Intel® Optane™ (PMem) се появи за първи път, ние знаехме, че тя радикално ще промени начина, по който се извършва бизнес в центъра за данни, но не можахме да предвидим напълно броя на начините, по които би се. Както при всички нови технологии, знаехме първоначалните случаи на използване на постоянната памет, но също така разбрахме, че ще се появят допълнителни случаи на употреба, след като станат широко достъпни.

Когато постоянната памет Intel® Optane™ (PMem) се появи за първи път, ние знаехме, че тя радикално ще промени начина, по който се извършва бизнес в центъра за данни, но не можахме напълно да предвидим броя на начините, по които това ще стане. Както при всички нови технологии, знаехме първоначалните случаи на използване на постоянната памет, но също така разбрахме, че ще се появят допълнителни случаи на употреба, след като станат широко достъпни.

В нашите дискусии с предприятия знаехме, че те се нуждаят от подобренията в производителността, които осигуряват системите в паметта, за да останат конкурентоспособни. Използването на DRAM за това имаше ограничения в цената и размера, които затрудняваха предвид размера на данните, които те искаха да съхраняват в паметта. В тази статия ще разгледаме как Intel Optane PMem се използва от Hazelcast и MemVerge, за да се преодолеят ограниченията на DRAM за създаване на инфраструктурна конструкция, която поддържа бързи приложения в реално време, които използват големи набори от данни.

Обединихме сили с MemVerge, Hazelcast, Intel и Dell Technologies, за да демонстрираме как може да се внедри инфраструктура, за да се даде възможност за анализ в реално време. По-конкретно, създадохме среда, която имаше бърз входящ поток от данни в реално време, които бяха погълнати и трансформирани преди да бъдат съхранени в витрина за данни в паметта. Основната цел беше да се покаже как Intel Optane PMem е от решаващо значение за активирането на широкомащабни системи в реално време и че е необходим допълнителен софтуер, който да позволи на Intel Optane PMem да реализира пълния си потенциал.

Преди да подчертаем тестовете, които направихме, ето кратко опресняване на Intel Optane PMem, Hazelcast, и MemVerge.

Intel Optane PMem

Постоянната памет като концепция съществува от средата на 80-те години на миналия век, но се превърна в действително използваем продукт за търговски центрове за данни едва през 2018 г., когато Intel започна да пуска своя Intel Модули с постоянна памет Optane (PMM). Intel Optane PMem променя играта за индустрията, тъй като е малко по-бавен от DRAM, но е значително по-бърз от твърдотелните дискове (SSD).

Въпреки че е по-бавен от DRAM, Intel Optane PMem има някои явни предимства пред него, тъй като е значително по-евтин, предлага се в размери с по-голям капацитет на паметта от традиционната DRAM; и, както подсказва името, когато е активиран директен режим в приложението, е постоянен – което означава, че данните, съхранени в него, ще оцелеят при прекъсване на захранването или рестартиране на устройството, на което се намира.

Една от тайните на ниската латентност на Intel Optane PMem е, че той се намира на шината на паметта, което му позволява да има подобен на DRAM достъп до данни.

Докато DDR4 има теоретичен максимален капацитет на модул от 128 GB, най-често използваните капацитети са между 4 GB и 64 GB (но дори модулите от 64 GB, макар и налични, не се използват често).

В момента Intel доставя Intel Optane PMem в модули от 128GB, 256GB и 512GB. Това осигурява до 16 пъти по-голям капацитет от DRAM.

На база цена на GB, Intel Optane PMem е около половината от DRAM. Поради по-големия си капацитет и по-ниската цена, сървърът може да разполага с повече данни с ниска латентност за приложения на по-ниска цена от тази на сървър само с DRAM. И както виждате от нашите тестове, за много приложения разликата в латентността между DRAM и PMem при използване в реалния живот е незначителна.

Въпреки че името на технологията включва думата „постоянство“, постоянството на данните, които живеят в Intel Optane PMem, често се пренебрегва и в миналото не е било напълно използвано. MemVerge обаче е измислил начини да се възползва от устойчивостта на данните, за да предложи допълнителни услуги на предприятията.

MemVerge

С голямата мощност, която Intel Optane PMem предоставя, идва отговорността да го използвате разумно и тук се намесва MemVerge. Докато повечето инструменти за наблюдение и управление на сървъри разглеждат наследен хардуер, като напр. CPU, диск и мрежови показатели, MemVerge® Memory Machine™ е лазерно фокусирана върху наблюдението, управлението и използването на DRAM и Intel Optane PMem.

Едно от първите предизвикателства на Intel Optane PMem беше определянето как да се позволи на приложенията да го използват. Без MemVerge Memory Machine можете да използвате Intel Optane PMem като алтернатива на DRAM, но не и като заместител, тъй като Intel Optane PMem използва специализиран API. MemVerge абстрахира този API, така че Intel Optane PMem изглежда точно като DRAM за всички приложения. Използвайки Memory Machine, Intel Optane PMem се представя на приложения по същия начин, както DRAM на приложения. Правейки това, съществуващите приложения могат да използват Intel Optane PMem, без да се налага да бъдат преархитектирани, като по този начин спестяват на компанията разходите за препрограмиране на приложения и, което е по-важно, времето, необходимо за това. Чрез патентованата си технология Memory Machine създава пул от памет и след това подрежда Intel Optane PMem и DRAM, за да увеличи максимално въздействието си върху приложенията, като премества данни между двете, ако е необходимо, за да оптимизира производителността на приложенията.

Иновативният ZeroIO на Memory Machine позволява моментни снимки от памет към памет (т.е. моментни снимки на данните, съдържащи се в DRAM към Intel Optane PMem), което на практика прави DRAM устойчива.

В миналото бяхме принудени да съхраняваме моментни снимки в паметта в традиционно хранилище, процес, който можеше да отнеме до час. Използвайки ZeroIO обаче, същата операция може да се извърши без прекъсване за няколко секунди.

MemVerge използва ZeroIO, за да предостави други услуги за данни в паметта. Пътуването във времето позволява на приложението да се върне към предишни моментни снимки и тясно свързана с тази функция е AutoSave, която автоматично прави моментни снимки на интервали, базирани на време. В случаите, когато данните, съхранени в паметта, трябва да бъдат преместени на друг физически сървър, моментна снимка ZeroIO може да бъде преместена към него.

Наблюдението на паметта, както и улесняването на горепосочените услуги, се извършва чрез MemVerge Memory Machine Management Center (M3C).

Въпреки че споменахме, че Memory Machine се използва с бази данни, тя също така поддържа широк набор от приложения: от Maya 3D на Autodesk за анимация и рендиране до TensorFlow (рамка за машинно обучение), както и други приложения, включително Hazelcast, продукт, който ще подчертаем в тази статия.

Hazelcast

Hazelcast е ключов новатор и лидер в разрастващото се поле на изчислителните платформи в паметта. Тяхната платформа се използва от финансови организации, организации за електронна търговия и други видове организации, където информацията в реално време е критична; например за откриване на измами и за подпомагане при вземане на търговски решения.

Hazelcast поддържа бързи приложения на две нива. Първо, той предлага хранилище в паметта, което разпределя данни между множество сървъри в клъстер, за да активира мащабируем виртуален пул от бърза памет. Процесът на добавяне на повече данни просто включва добавяне на друг сървър към клъстера. Второ, Hazelcast включва изчислителна машина, която обработва логиката на приложението, която е разделена на подзадачи, които след това се разпределят между всички процесори в клъстер от сървъри. Това не само използва колективната изчислителна мощност на клъстера, но също така позволява паралелната обработка на данни по ефективен и високоскоростен начин (това включва трансформация, обогатяване, агрегиране и анализ). Тъй като Hazelcast може да обработва данни веднага след създаването им чрез своите възможности за поточно предаване на данни, това е полезно за изграждане на следващото поколение приложения в реално време.

Анализиране на данни в реално време

Системите в реално време се управляват основно от две основни характеристики: скорост и мащаб. Докато скоростта гарантира, че можете да сте в крак с данните, които се създават, мащабът гарантира, че можете да се справите с обема на тези данни. За да се усложнят допълнително нещата, данните могат да идват от много различни източници. Разбира се, по-високите скорости и по-високият мащаб се равняват на по-висока цена, освен ако не се използват иновативни средства, като например замяна на скъпата DRAM с по-достъпна Intel Optane PMem.

Анализ на големи данни среща голяма памет с Intel Optane PMem

Възможностите за анализ на данни в реално време осигуряват незабавна представа за различни ситуации, пред които могат да се изправят фирмите и организациите, и им предоставят информацията, от която се нуждаят, за да отговорят на тях. Например спазването на инициативи като Базел III, където от банките се изисква да поддържат по-висока ликвидност от преди, означава, че те имат по-малко пари, които да използват, за да генерират приходи. В същото време те трябва да докажат, че ежедневните им рискове са разбрани, така че да не бъдат наказани от одитори и надзорни органи с още по-високи изисквания за ликвидност. Като разполагат със системи в реално време за управление на риска и съответствие, банките могат да имат незабавен преглед на търговските си позиции, за да разберат по-ефективно и да докладват своята рискова експозиция.

За да подчертая още един пример, системите за анализ на борсова търговия проследяват сделките и ги представят в анализируема форма в реално време. Тези системи могат да оправдаят високите си разходи поради ясната възвръщаемост на инвестициите (ROI) чрез спечелените приходи от търговия с акции.

Сценарий за тестване

Приложението, което избрахме да използваме, за да проучим тези технологии, се основава на кодова база за наблюдение на търговията, създадена от Hazelcast, за да покаже колко рентабилен „анализ при поискване“ е подходящ алтернатива на скъпите системи в реално време.

Тъй като това беше изследователски проект в малък мащаб, направихме някои компромиси, които направиха нашата тестова среда да не отразява напълно типичната производствена среда. Например, изчислителната мощност на сървърите на Dell EMC, които използвахме, беше много по-мощна от необходимия ни наличен източник на данни, така че не се възползвахме напълно от наличната мощност на процесора в тях. Също така, в името на простотата, ние не оптимизирахме външната система за доставка на данни. В производствена система всички компоненти биха били оптимизирани и настроени, за да подобрят производителността и рентабилността на тази настройка.

Цели на тестването

Най-критичният аспект на нашето тестване беше да установим дали Intel Optane PMem може да поддържа подаване на данни в реално време.

Отклонихме тестването на скоростите на достъп на агрегираните/индексираните данни в база данни в паметта, която се поддържаше от Intel Optane PMem; в предишни тестове от MemVerge и Hazelcast, бенчмарковете показаха, че скоростите на достъп до данни са много близки до тези на DRAM (в много случаи бяха демонстрирани идентични скорости както за четене, така и за запис) и следователно много по-бързи от данните, базирани на диск или SSD достъпи. Тъй като знаехме, че скоростите на достъп до данни осигуряват предимство пред други архитектурни конфигурации, ние съсредоточихме нашите тестове само върху страната на приемане.

За нашето тестване генерирахме фиктивни данни на сървъра източник на данни. Всеки елемент от данни във входящата емисия с данни представлява борсова търговия. Символът на борсата, количеството, цената и времето бяха най-критичните стойности. Всеки борсов символ беше използван многократно в генерирания набор от данни, за да се симулират множество сделки на ден за дадена акция. След това тези отделни сделки бяха обобщени, за да се получи текущ общ брой сделки за даден борсов символ.

Генерираните данни бяха съхранени в Apache Kafka поради способността му да улавя бърз поток от данни. Всеки запис от Kafka изискваше 210 байта, включително всички метаданни в полезния товар. Kafka беше конфигуриран да изпълнява три отделни брокера, всички на една машина с източник на данни и с четири дяла на всеки брокер. Тази конфигурация, разбира се, няма да се използва в производствена среда, тъй като е нереалистично да има машина с един източник за разпределена технология; въпреки това беше подходящо за целите на нашето тестване.

Тестова среда

Използвахме три сървъра Dell EMC PowerEdge R750 и един сървър Dell EMC PowerEdge R74xd за нашите тестове; три стартираха приложенията за анализ, използвайки MemVerge Memory Machine и Hazelcast, докато четвъртият създаде и съхрани тестовите данни.

Сървъри за анализ

МоделDell EMC PowerEdge R750
ЦПДва процесора Intel® Xeon® Gold 6330 @ 2GHz (Ice Lake)

28 ядра всеки (общо 56, 112 с технологията Intel® Hyper-Threading)

DRAM16 DIMM от 64GB DRAM DDR4

1 TB на сървър

Intel Optane PMem16 DIMM модула от 128GB Intel Optane PMem DDR-T интерфейс

2 TB на сървър

Мрежов интерфейс10 GbE
СофтуерMemVerge Memory Machine 1.2

Платформа Hazelcast 5.0

Сървър за източник на данни

Модел Dell EMC PowerEdge R740xd
ЦПДва процесора Intel® Xeon® Gold 6140 @ 2,3 GHz (Skylake)

18 ядра всеки ( общо 36; 72 с технология Intel® Hyper-Threading)

DRAM12 DIMM модула от 32GB DRAM DDR4 (384GB)

2 DIMM модула от 16GB NVDIMM DDR4 (32GB)

Intel Optane PMemНе е необходим
Мрежов интерфейс10 GbE
СофтуерApache Kafka 2.8

Инструмент за генериране на данни, предоставен от Hazelcast

По време на нашето тестване установихме, че количеството DRAM в аналитичните сървъри можеше да бъде значително по-малко; докато DRAM се използва предимно от операционната система, приложението използва предимно Intel Optane PMem само с малко количество DRAM. За оптимизиране на спестяването на разходи, абсолютният минимум DRAM на сървъра би бил разумна конфигурация.

Резултати от теста

Създадохме приблизително 5 милиарда записа, които бяха съхранени в Kafka, за да създадем източника на данни. Приложенията за поглъщане, работещи на трите сървъра на приложения, след това бяха стартирани да поглъщат данните в трите Hazelcast екземпляра (един Hazelcast сървър на сървър на Dell Technologies).

Тествахме приложението, когато използвахме само DRAM и го сравнихме с използването на Intel Optane PMem с MemVerge. Резултатите от нашето тестване показаха, че за работни натоварвания, които са били предимно записи, видяхме 32% наказание за производителност при използване само на Intel Optane PMem спрямо чиста DRAM (242K срещу 357K). Но когато използвахме конфигурацията Intel Optane PMem + DRAM, видяхме само 9% наказание. Това можеше да бъде допълнително стеснено чрез увеличаване на броя на сървърите в клъстера, за да се разпределят записите още повече. Допълнителните разходи за допълнителни сървъри могат да бъдат компенсирани чрез закупуване на процесори с по-ниска мощност, тъй като даденото работно натоварване не би използвало непременно цялата мощност на процесора на тази тествана хардуерна конфигурация.

< td>325 000
КонфигурацияЕфективност (записи в секунда)
Само DRAM357 000
Intel Optane PMem, подпомаган с 50GB DRAM + машина с памет
Само Intel Optane PMem + Memory Machine242 000

Обмисляхме да определим цената на всяка от конфигурациите, които тествахме, но отказахме да го направим предвид потенциални колебания в цената и други фактори, които биха могли да направят тези прогнози скоро остарели. Независимо от зададените разходи обаче, Intel Optane PMem, подпомаган с DRAM, ще бъде значително по-малък от сървър, базиран само на DRAM.

Тълкуване на теста

Нашият основен извод от нашето тестване беше, че клъстер от Intel Optane PMem сървъри може да работи с почти същата скорост като клъстер, който просто използва DRAM – но на значително по-ниска цена .

Друг важен извод за нас беше, че седмици или месеци данни могат да бъдат заснети и съхранени с помощта на Intel Optane PMem, което предоставя на бизнеса възможността не само да анализира данни в реално време, но и да разполага с данни за висока скорост анализ на исторически данни. Това отваря възможности за анализиране на тенденции и модели, които могат да разкрият допълнителни прозрения с помощта на усъвършенствани инструменти за анализ, като например машинно обучение (ML).

С други думи, фирмите могат да внедрят среда за анализ в реално време, покриваща широк времеви диапазон, и да изследват нови форми на анализ, без компромиси в разходите или скоростта при внедряване на хранилища за данни или езера от данни.

Други тестове

Докато бяхме настроили средата, искахме да тестваме и някои от другите възможности на MemVerge Memory Machine, по-специално нейните функции за моментна снимка и възстановяване. За щастие, Memory Machine има интеграция с клъстер Hazelcast, така че моментните снимки и възстановяването на моментни снимки могат да се управляват директно в M3C.

Моментните снимки могат да се правят по всяко време при поискване или по зададен график и тествахме и двата метода по време на пиковите операции на нашия клъстер. Моментните снимки бяха завършени за секунди без никакви проблеми или засягане на ефективността на анализа. Ако нещо се беше случило с клъстера Hazelcast, като например прекъсване на захранването, данните можеха да бъдат възстановени с помощта на една от нашите моментни снимки.

Функцията за моментна снимка е полезна не само за защита, но може да се използва и за увеличаване на степента на използване на сървърите. Във финансовите институции сървърите са силно използвани по време на обичайните часове за търговия, но са относително неактивни в извънработно време. Чрез използването на схема за горещ старт степента на използване на сървърите може да бъде значително подобрена. Например в края на деня за търговия може да се направи моментна снимка на базата данни за търговия. След това, когато търговската база данни бъде изключена, сървърите могат да бъдат настроени на други задачи за обработка на данни, като например извличане на данни. В началото на търговския ден базата данни за търговия може бързо да бъде възстановена и търговските операции могат да бъдат възобновени.

Заключение

Intel Optane PMem е вълнуваща и трансформираща технология, която започва да прекроява центъра за данни, но както при всички други технологии, тя за щастие не съществува във вакуум. Водещи, далновидни компании като Dell Technologies, Intel, MemVerge и Hazelcast намират синергии и започват да експлоатират тази нова технология, за да открият истинския й потенциал в центъра за данни: модулите Intel Optane PMem се предлагат на около половината от цената на DRAM; Dell Technologies разполага със сървъри, които поддържат огромните количества памет с ниска латентност, които Intel Optane PMem предоставя; Hazelcast позволява на приложенията да се възползват от тези технологии в голям мащаб; и MemVerge предоставя услуги за наблюдение, управление и данни за Intel Optane PMem и чрез абстрахиране на DRAM API прави Intel Optane PMem да изглежда като DRAM за съществуващи приложения, като по този начин им позволява да работят без да бъдат модифицирани или преархитектирани.

Ако всичко друго е еднакво, фирмите биха избрали дейности в реално време срещу групирани дейности. Но тъй като не всичко е еднакво, груповата обработка често е избраният модел, за да се избегнат разходите, свързани с обработката в реално време. Въпреки това, тъй като очакванията на клиентите продължават да нарастват в свят, който е все по-ориентиран към реално време, фирмите трябва да намерят нови начини за създаване на конкурентно предимство. Чрез използване на скорости в реално време, без да страдат от традиционните разходи за изчисления в паметта, водещите бизнеси могат да направят скок с технологии като Intel Optane PMem, MemVerge и Hazelcast, за да изградят решения, които им помагат да отговорят на техните изисквания и тези на техните клиенти , по-бързо от всякога.

Хейзълкаст

MemVerge

Този отчет е спонсориран от MemVerge. Всички възгледи и мнения, изразени в този доклад, се основават на нашата безпристрастна представа за разглеждания продукт(и). Intel, логото на Intel и Intel Optane са търговски марки на Intel Corporation или нейните филиали.

Ангажирайте се със StorageReview

Бюлетин | YouTube | Подкаст iTunes/Spotify | Instagram | Twitter | Facebook | TikTok | RSS емисия