Nors Nvidia GPU dominavimas dirbtinio intelekto mokymuose išlieka neabejotinas, galime pastebėti ankstyvus požymius, kad, remiantis AI išvadomis, technologijų milžinas vis labiau konkuruoja, ypač energijos vartojimo efektyvumo požiūriu. Vis dėlto gali būti sunku įveikti puikų naujojo Nvidia Blackwell lusto našumą.
Šį rytą „ML Commons“ paskelbė naujausio AI išvadų konkurso „ML Perf Inference v4.1“ rezultatus. Į šį etapą pirmą kartą pateikė komandos, naudojančios AMD Instinct greitintuvus, naujausius „Google Trillium“ greitintuvus, Toronte įsikūrusio startuolio „UntetherAI“ lustus, taip pat pirmąjį „Nvidia“ naujojo „Blackwell“ lusto bandymą. Kitos dvi bendrovės, Cerebras ir FuriosaAI, paskelbė apie naujus išvadų lustus, bet nepateikė MLPerf.
Panašiai kaip olimpinėje sporto šakoje, „MLPerf“ turi daug kategorijų ir subkategorijų. Daugiausia pateiktų duomenų buvo kategorija „uždarytas duomenų centras“. Uždaroji kategorija (o ne atvira) reikalauja, kad pateikėjai padarytų išvadą apie tam tikrą modelį, koks yra, be didelių programinės įrangos pakeitimų. Duomenų centro kategorija tikrina pateikėjus masiškai apdorojant užklausas, o ne kraštinėje kategorijoje, kur pagrindinis dėmesys skiriamas delsos mažinimui.
Kiekvienoje kategorijoje yra 9 skirtingi etalonai, skirti įvairių tipų AI užduotims. Tai apima populiarius naudojimo atvejus, tokius kaip vaizdų generavimas (pagalvokite apie Midjourney) ir LLM Q&A (pagalvokite apie „ChatGPT“), taip pat ne mažiau svarbias, bet mažiau skelbiamas užduotis, tokias kaip vaizdų klasifikavimas, objektų aptikimas ir rekomendacijų varikliai.
Į šį konkurso etapą buvo įtrauktas naujas etalonas, pavadintas „Ekspertų mišinys“. Tai auganti LLM diegimo tendencija, kai kalbos modelis suskaidomas į kelis mažesnius, nepriklausomus kalbos modelius, kurių kiekvienas yra tiksliai sureguliuotas tam tikrai užduočiai, pvz., įprastam pokalbiui, matematikos problemų sprendimui ir pagalbai koduojant. Modelis gali nukreipti kiekvieną užklausą į atitinkamą mažesnių modelių pogrupį arba „ekspertus“. Šis metodas leidžia naudoti mažiau išteklių vienai užklausai, todėl mažesnės išlaidos ir didesnis pralaidumas, sako Miroslavas Hodakas, MLPerf Inference Workgroup pirmininkas ir vyresnysis AMD techninio personalo narys.
Nugalėtojai pagal kiekvieną etaloną, esantį populiariame duomenų centre uždarytame etalone, vis tiek buvo pateikti, pagrįsti Nvidia H200 GPU ir GH200 superlustais, kurie tame pačiame pakete sujungia GPU ir CPU. Tačiau atidžiau pažvelgus į veiklos rezultatus susidaro sudėtingesnis vaizdas. Kai kurie pateikėjai naudojo daug greitintuvo lustų, o kiti – tik vieną. Jei normalizuosime užklausų per sekundę skaičių, kurį kiekvienas pateikėjas galėjo apdoroti pagal naudojamų greitintuvų skaičių, ir pasiliksime tik našiausius kiekvieno tipo greitintuvo pateikimus, atsiras įdomių detalių. (Svarbu pažymėti, kad šis metodas nepaiso procesorių ir jungčių vaidmens.)
Kalbant apie greitintuvą, „Nvidia“ „Blackwell“ 2,5 karto lenkia visas ankstesnes lustų iteracijas atliekant LLM klausimų ir atsakymų užduotį – vienintelį etaloną, kuriam jis buvo pateiktas. „Untether AI“ „speedAI240 Preview“ lustas, atlikdamas vienintelę pateikimo užduotį – vaizdo atpažinimą, veikė beveik neprilygstamai H200. „Google“ „Trillium“ vaizdų generavimo našumas buvo šiek tiek didesnis nei H100 ir H200, o „AMD Instinct“ LLM klausimų ir atsakymų užduotį atliko beveik lygiai kaip H100.
Blackwell galia
Viena iš „Nvidia Blackwell“ sėkmės priežasčių yra jos gebėjimas paleisti LLM naudojant 4 bitų slankiojo kablelio tikslumą. „Nvidia“ ir jos konkurentai sumažino bitų, naudojamų duomenims pateikti transformatorių modelių, tokių kaip „ChatGPT“, skaičių, kad būtų paspartintas skaičiavimas. „Nvidia“ pristatė 8 bitų matematiką su H100, o šis pateikimas yra pirmasis 4 bitų matematikos MLPerf etalonų demonstravimas.
Didžiausias iššūkis naudojant tokius mažo tikslumo skaičius yra tikslumo palaikymas, sako Nvidia produktų rinkodaros direktorius Dave’as Salvator. Jis sako, kad norint išlaikyti aukštą tikslumą, reikalingą MLPerf pateikimui, „Nvidia“ komanda turėjo daug diegti programinės įrangos naujovių.
Kitas svarbus indėlis į Blackwell sėkmę yra beveik dvigubai didesnis atminties pralaidumas – 8 terabaitai per sekundę, palyginti su H200 4,8 terabaito per sekundę.
Nvidia GB2800 Grace Blackwell SuperchipNvidia
„Nvidia“ „Blackwell“ pateiktame dokumente buvo naudojamas vienas lustas, tačiau „Salvator“ teigia, kad jis sukurtas taip, kad būtų prijungtas prie tinklo ir mastelio, ir geriausiai veiks, kai bus derinamas su „Nvidia“ NVLink jungtimis. Blackwell GPU palaiko iki 18 NVLink 100 gigabaitų per sekundę jungčių, kurių bendras pralaidumas yra 1,8 terabaito per sekundę, maždaug dvigubai daugiau nei H100s.
Salvatore teigia, kad didėjant didelių kalbų modelių dydžiui, net norint padaryti išvadas, reikės kelių GPU platformų, kad neatsiliktų nuo paklausos, o „Blackwell“ yra sukurtas šiam atvejui. „Blackwell yra platforma“, – sako Salvator.
„Nvidia“ pateikė savo „Blackwell“ lustu pagrįstą sistemą peržiūros subkategorijoje, o tai reiškia, kad ji dar nėra parduodama, tačiau tikimasi, kad ji bus prieinama iki kito „MLPerf“ leidimo, po šešių mėnesių.
„Untether AI“ šviečia naudojant energiją ir kraštuose
Kiekvienam etalonui MLPerf taip pat yra energijos matavimo atitikmuo, kuris sistemingai tikrina sieninio kištuko galią, kurią kiekviena sistema naudoja atlikdama užduotį. Pagrindinis įvykis (uždarų duomenų centrų energijos kategorija) šį turą pateikė tik du pateikėjus: „Nvidia“ ir „Untether AI“. Nors „Nvidia“ varžėsi visuose etalonuose, „Untether“ pateikė tik vaizdo atpažinimą.
Pateikėjas |
Greitintuvas |
Greitintuvų skaičius |
Užklausos per sekundę |
Vatai |
Užklausos per sekundę už vatą |
NVIDIA |
NVIDIA H200-SXM-141GB |
8 |
480 131,00 |
5 013,79 |
95,76 |
UntetherAI |
UntetherAI speedAI240 Slim |
6 |
309 752,00 |
985,52 |
314.30 |
Startuolis sugebėjo pasiekti šį įspūdingą efektyvumą sukūręs lustus taikydamas metodą, kurį jis vadina atminties skaičiavimu. „UntetherAI“ lustai yra sukurti kaip atminties elementų tinklelis su mažais procesoriais, esančiais tiesiai šalia jų. Procesoriai yra lygiagretinami, kiekvienas veikia tuo pačiu metu su netoliese esančiuose atminties blokuose esančiais duomenimis, todėl labai sumažėja laiko ir energijos kiekis, sugaištas modelio duomenims perstumti tarp atminties ir skaičiavimo branduolių.
„Matėme, kad 90 procentų energijos, reikalingos dirbtinio intelekto darbui atlikti, yra tiesiog duomenų perkėlimas iš DRAM į talpyklą į apdorojimo elementą“, – sako Untether AI produkto viceprezidentas Robertas Beachleris. „Taigi „Untether“ tai pakeitė… Užuot perkėlęs duomenis į skaičiavimą, perkelsiu skaičiavimą į duomenis.
Šis metodas buvo ypač sėkmingas kitoje MLPerf subkategorijoje: uždarytas kraštas. Ši kategorija labiau pritaikyta naudoti vietoje, pvz., mašinų patikra gamyklos aukšte, valdomo matymo robotai ir autonominės transporto priemonės – programos, kuriose itin svarbu naudoti mažai energijos ir greitai apdoroti, sako Beachleris.
Pateikėjas |
GPU tipas |
GPU skaičius |
Vieno srauto delsa (ms) |
Kelių srautų delsa (ms) |
Mėginiai/-ai |
Lenovo |
NVIDIA L4 |
2 |
0.39 |
0,75 |
25 600,00 |
Lenovo |
NVIDIA L40S |
2 |
0.33 |
0,53 |
86 304,60 |
UntetherAI |
„UntetherAI speedAI240“ peržiūra |
2 |
0.12 |
0.21 |
140 625,00 |
Atliekant vaizdo atpažinimo užduotį, vėlgi vienintelė UntetherAI, kurios rezultatus pranešė, speedAI240 Preview lustas pranoko NVIDIA L40S delsą 2,8 karto, o pralaidumą (mėginiai per sekundę) – 1,6 karto. Startuolis taip pat pateikė galios rezultatus šioje kategorijoje, tačiau jų „Nvidia“ pagreitinti konkurentai nepateikė, todėl sunku atlikti tiesioginį palyginimą. Tačiau nominalus vieno lusto energijos suvartojimas „UntetherAI“ „speedAI240 Preview“ lustui yra 150 vatų, o „Nvidia L40s“ – 350 W, todėl nominali galia sumažėja 2,3 karto ir pailgėja delsa.
Cerebras, Furiosa praleidžia MLPerf, bet skelbia naujus žetonus
Naujasis Furiosa lustas įgyvendina pagrindinę matematinę AI išvados funkciją, matricos dauginimą, kitu, efektyvesniu būdu. Furiosa
Vakar Stanforde vykusioje IEEE Hot Chips konferencijoje Cerebras pristatė savo išvadų paslaugą. Sunnyvale (Kalifornija) kompanija gamina milžiniškus lustus, tokius, kiek leis silicio plokštelė, taip išvengiant lustų tarpusavio sujungimo ir žymiai padidinant savo įrenginių, dažniausiai naudojamų didžiuliams neuroniniams tinklams, atminties pralaidumą. Dabar jis atnaujino savo programinės įrangos paketą, kad išvadoms būtų naudojamas naujausias kompiuteris CS3.
Nors „Cerebras“ nepateikė „MLPerf“, bendrovė teigia, kad jos platforma H100 pranoksta 7 kartus, o konkuruojančio AI startuolio „Groq“ lustą – 2 kartus per sekundę generuojamų LLM žetonų skaičiumi. „Šiandien mes išgyvename „Gen AI“ telefono ryšio erą“, – sako „Cerebras“ generalinis direktorius ir vienas iš įkūrėjų Andrew Feldmanas. „Ir taip yra todėl, kad yra atminties pralaidumo barjeras. Nesvarbu, ar tai H100 iš Nvidia, ar MI 300, ar TPU, jie visi naudoja tą pačią lustinę atmintį ir sukuria tą patį apribojimą. Mes peržengiame tai ir darome tai, nes esame vaflių masto.
„Hot Chips“ taip pat sulaukė pranešimo iš Seule įsikūrusios „Furiosa“, pristatydama savo antrosios kartos lustą RNGD (tariama „renegade“). „Furiosa“ lustą išskiria jos tensorinio susitraukimo procesoriaus (TCP) architektūra. Pagrindinė dirbtinio intelekto apkrovų operacija yra matricos dauginimas, paprastai įgyvendinamas kaip primityvus aparatinėje įrangoje. Tačiau matricų, plačiau žinomų kaip tenzoriai, dydis ir forma gali labai skirtis. Vietoj to RNGD įgyvendina šios labiau apibendrintos versijos, tenzorių, dauginimą kaip primityvų. „Atliekant išvadas, partijų dydžiai labai skiriasi, todėl svarbu išnaudoti būdingą lygiagretumą ir pakartotinį duomenų panaudojimą iš tam tikros tenzoriaus formos“, – „Hot Chips“ sakė Furiosa įkūrėjas ir generalinis direktorius June Paik.
Nors ir nepateikė MLPerf, Furiosa palygino savo RNGD lusto našumą su MLPerf LLM apibendrinimo etalonu. Jis veikė lygiai taip pat kaip Nvidia į kraštą orientuotas L40S lustas ir naudojo tik 185 vatus, palyginti su L40S 320 W. Be to, pasak Paiko, našumas pagerės toliau optimizuojant programinę įrangą.
IBM taip pat paskelbė apie naują „Spyre“ lustą, skirtą įmonių generuojamiesiems dirbtinio intelekto darbo krūviams, kuris bus prieinamas pirmąjį 2025 m. ketvirtį.
Bent jau AI išvadų lustų rinkos pirkėjams artimiausioje ateityje nebus nuobodu.
Iš jūsų svetainės straipsnių
Susiję straipsniai visame internete