Valmis testattavaksi: Aikojen ensimmäinen supertietokone, joka toimii Intelin jokerimerkkiä käyttävillä AI-siruilla

San Diego Supercomputer Center (SDSC) sanoo olevansa valmis testaamaan kokeellista Voyager AI -järjestelmää, joka näyttää olevan ensimmäinen Intel Habana -pohjainen supertietokone.

Supertietokone rakennettiin yhteistyössä Intelin Habana Labsin ja Supermicron kanssa osana viisivuotista 11,25 miljoonan dollarin apurahaa Amerikan kansalliselta tiedesäätiöltä. Ja vaikka Voyager on voimakas, se ei yritä voittaa vertailuennätyksiä – sen ei pitäisi voittaa.

Voyager on tarkoitettu koealustaksi AI/ML-laskennan tutkimukselle ja kehitykselle erikoislaitteistoilla – tässä tapauksessa Habanan Goya- ja Gaudin prosessoreilla – Voyagerin päätutkija Amit Majumdar kertoi The Registerille.

Vuonna 2019 esitelty Habana Labin Goya suunniteltiin nopeuttamaan tekoälyn päättelytyökuormia kahdeksalla tensoriprosessoriytimellä, jotka tukevat sekatarkkuutta FP32:sta UINT8:aan. Sillä välin Gaudi, joka esiteltiin muutamaa kuukautta myöhemmin, oli 350 W:n siru, joka oli suunniteltu ML-harjoittelua ajatellen. Siinä oli 32 Gt sisäistä muistia, joka toimi 1 Tt/s kaistanleveydellä.

Intel osti piirisuunnittelijan loppuvuodesta 2019 luoputtuaan huonoonnisesta Nervana-yhteistyöstään Metan (silloin Facebookin) kanssa. Sellainen kolmannen kerran onnekas Intelille tekoälyjärjestelmissä.

Habana AI -kiihdyttimiä on käytössä 42 Supermicro X12 -verkossa, jotka muodostavat Voyagerin. Jokainen X12-järjestelmä on varustettu Intelin kolmannen sukupolven Xeon Scalable -prosessorilla ja kahdeksalla Habana Gaudi AI -prosessorilla. Klusteri käyttää myös paria OEM:n SuperServer 4029GP-T -järjestelmiä, joissa on kahdeksan Goya HL-100 PCIe -korttia tekoälyn päättelyyn.

Koska järjestelmä on suunniteltu tukemaan erittäin suuria tekoälymalleja, jokainen palvelin on verkotettu kuudella 400 Gbit/s-portilla, jotka toimivat RDMA-over-converged-Ethernet-protokollan kautta suureen Aristan estävään kytkimeen.

Valmis, aseta, testaa

Kun Voyager-järjestelmä on toiminnassa, SDSC on siirtynyt projektin testialustaan.

Valmiina testaukseen: Ensimmäinen supertietokone, joka toimii Intelin jokerimerkki-AI-siruilla

Tänä aikana superlaskentakeskuksella on kolme vuotta aikaa työskennellä suoraan tutkijoiden kanssa selvittääkseen järjestelmän suorituskyvyn, laitteiston omituisuudet ja ohjelmistojen yhteensopivuusvaatimukset, Majumdar selitti.

Tutkimuksessa tutkitaan myös Habanan sirujen käyttötapauksia, jotka ovat perinteisesti kohdistuneet tietokonenäköön, luonnollisen kielen käsittelyyn ja syvään oppimiseen, Habana Labsin ohjelmistotuotehallinnan johtaja Sree Ganeson kertoi The Registerille. .

"Tämä tiedemiesten ja tutkijoiden yhteisö aikoo tuoda eri luokan ongelmia ja yrittää soveltaa niitä liian syvälliseen oppimiseen", hän sanoi. "Ne voivat tuoda mukanaan erilaisia malleja, joten se tulee olemaan oppimisprosessi."

Tämän testauksen tulokset jaetaan muutaman seuraavan vuoden aikana puolivuosittain järjestettävissä työpajoissa ja käyttäjäfoorumeilla.

Kaikki eivät kuitenkaan pääse työskentelemään järjestelmän parissa. Ulkopuolisen neuvottelukunnan avustuksella määritetyt tutkimusryhmät ja kerättyä tietoa käytetään parhaiden käytäntöjen ja allokointipolitiikan kehittämiseen. Tämä eroaa luokan yksi järjestelmistä, jotka avataan vertaisarvioiduille tutkimusprojekteille pian verkkoon tulon jälkeen, Majumdar sanoi.

Kun kolme vuotta on kulunut, projekti siirtyy kahden vuoden jakovaiheeseen, jonka aikana SDSC-tiimi vetäytyy ja antaa riippumattomille tutkijoille mahdollisuuden tehdä tutkimusta järjestelmästä.

Vaikka Voyager on vasta tullut verkkoon, Majumdar väittää, että varhainen testaus on ollut lupaavaa, sillä suorituskyky on "ennustettua parempi" ja työmäärät siirtyvät suhteellisen kivuttomasti toimimaan Gaudilla ja Goyalla. "Ohjelmistopino, siirtäminen ja koneella ajo on ollut todella sujuvaa", hän sanoi.

Entä Gaudi2 ja Greco?

Voyager tulee verkkoon vain viikkoja sen jälkeen, kun Intelin Habana Labs julkisti toisen sukupolven tekoälyn koulutus- ja päättelyprosessorit: Gaudi2 ja Greco.

Intel väittää, että sirut parantavat huomattavasti suorituskykyä edelliseen sukupolveen verrattuna ja niiden väitetään olevan parempia kuin Nvidian A100 GPU:t sisäisissä vertailuissaan.

600 W Gaudi2 tarjoaa 24 tensoriydintä, jotka perustuvat 7 nm:n valmistusprosessiin, ja 96 Gt:n HBM2e-suurkaistamuistia, joka toimii nopeudella 2,45 Tt/s. Greco puolestaan tarjoaa 16 Gt – saman kuin Goya – uudempaa LPDDR5:tä pienemmässä yksipaikkaisessa, puolikorkeassa ja puolipitässä PCIe-kortissa, joka kuluttaa alle puolet tehosta.

"Gaudi2 on monin tavoin suurempi, sillä siinä on enemmän tensoriprosessoriytimiä, enemmän HBM2e:tä ja enemmän skaalattavia portteja, joten mitä tahansa [Voyagerista] opimme, sen pitäisi skaalautua vielä paremmin Gaudi2:ssa", Ganeson sanoi. "Tämä yhteisö tekee huipputyötä. Saamme siis oppia ja kehittyä sitä varten, mitä tulevaisuudessa on tuotannossa." ®

Hanki tekniset resurssit