AMD-ova Instinct GPU serija postaje sve popularnija u računalnoj i AI zajednici. Evo zašto.

Nema sumnje da NVIDIA nastavlja dominirati paralelnim računalnim prostorom sa svojim raznim popularnim GPU serijama. Ali s AMD-ovim Instinct AI akceleratorima koji opremaju dva najnovija i najveća superračunala (Frontier i El Capitan) i sve veću podršku zajednice za njihovu ROCm platformu otvorenog koda, NVIDIA je možda pronašla svog najvećeg rivala dosad.

Što su zapravo AMD-ovi Instinct AI akceleratori? Što ih čini moćnima i kakvi su u usporedbi s NVIDIA Tensor GPU-ima?

Što je AMD Instinct procesor?

AMD-ovi Instinct procesori hardver su poslovne razine koji se koristi za računalstvo visokih performansi (HPC) i AI-ubrzanu obradu. Za razliku od uobičajenih GPU-ova za potrošače, GPU-ovi Instinct specijalizirani su za bolje rukovanje učenjem umjetne inteligencije i drugim zadacima visokih performansi kroz softverske i hardverske inovacije.

AMD-ova Instinct serija GPU-ova korištena je za napajanje prvog superračunala koje je probilo Exascale barijeru, radeći na 1,1 EFLOP-a pri operacijama dvostruke preciznosti u sekundi. Superračunala koja koriste Instinct GPU trenutno se koriste za istraživanje liječenja raka, održive energije i klimatskih promjena.

Kako Instinct procesori ubrzavaju AI i HPC

Za najmoćniji mainstream serveri i superračunala na svijetu kako bi se postigla obrada na razini Exascale, AMD-ovi Instinct akceleratori morali su biti opremljeni s nekoliko tehnoloških nadogradnji i inovacija.

Raspravljajmo o nekim novim i ažuriranim tehnologijama koje se koriste na GPU-ovima AMD Instinct.

1. Izračunaj DNK (CDNA)

Autor slike: Pascal Liebart/AMDLibrary

Nedavni AMD Instinct akceleratori (počevši od MI100) koristili su CDNA arhitekturu tvrtke.

CDNA se primarno fokusira na značajke kao što su paralelna obrada, hijerarhija memorije i optimizirane računalne performanse kroz njihovu Matrix Core tehnologiju. Čak i HPC i AI ili strojno učenje koje radi na pojedinačnim poslužiteljima može podržati CDNA, kao i ogromna Exascale računala.

AMD-ova tehnologija Matrix Core ubrzava AI učenje podržavajući operacije mješovite preciznosti. Sposobnost izračunavanja različite preciznosti omogućuje Instinct GPU-u da učinkovito izračunava matrične operacije na temelju potrebne razine preciznosti.

Najpopularniji formati preciznosti izračunavanja uključuju FP64, FP32, FP16, BF16 i INT8. FP je kratica za Floating Point, BF za Brain Floating Point, a INT za Integer. Što je veći broj koji odgovara formatu, to je izračun precizniji. Rad na 64-bitu poznat je kao dvostruka preciznost. S 32-bitnim je jednostruka preciznost, 16-bitni je poluprecizan, i tako dalje.

Budući da velik dio obuke modela dubinskog učenja ne zahtijeva puno preciznosti, mogućnost izračuna matrice operacije s polupreciznošću ili čak četvrtinom preciznosti za zaključivanje značajno smanjuju radno opterećenje, čime se ubrzava AI učenje.

2. Memorija visoke propusnosti (HBM)

Autor slike: Jason De Vos/AMDLibrary

Svaki AMD Instinct AI akcelerator dolazi s do 880 Matrix jezgri. Uz AMD-ove Matrix Core procesore koji mogu napraviti 383 TFLOP-a polupreciznih izračuna, ultrabrza memorija je neophodna. AMD-ove najnovije ponude Instinct dolaze opremljene s High Bandwidth Memory (HBM) umjesto uobičajenog DDR4 ili DDR5 RAM-a.

Za razliku od konvencionalne memorije, HBM koristi ono što je poznato kao 3D naslagana arhitektura. Ova vrsta arhitekture odnosi se na pristup dizajnu gdje su DRAM matrice okomito naslagane jedna na drugu. To omogućuje slaganje matrica i na okomitu i na vodoravnu os, otuda i izraz 3D slaganje.

S ovom 3D tehnologijom slaganja, HBM-ovi mogu imati fizičke memorijske kapacitete od nekoliko stotina gigabajta po modulu, dok DRR5 može samo do nekoliko desetaka gigabajta po modulu. Osim kapaciteta, poznato je da HBM-ovi imaju veće performanse u smislu brzine prijenosa i bolju energetsku učinkovitost od obične DDR memorije.

3. Infinity tkanina

Još jedna inovacija uključena u Instinct GPU je AMD-ova Infinity Fabric tehnologija. Infinity Fabric je vrsta sustava međusobnog povezivanja koji povezuje CPU i GPU na pametan dinamičan način. To omogućuje komponentama učinkovitu međusobnu komunikaciju.

Uz Infinity Fabric, umjesto povezivanja komponenti s običnom sabirnicom, komponente su sada povezane u mrežu nalik mreži gdje propusnost može biti i do nekoliko stotina gigabajta u sekundi.

Osim međusobnog povezivanja poput mreže, Infinity Fabric također koristi senzore ugrađene u svaku matricu za dinamički kontrolirajte frekvenciju, brzine prijenosa podataka i druga prilagodljiva ponašanja, optimizirajući performanse i minimizirajući latencija.

4. Razvojna platforma ROCm

NVIDIA-ina CUDA (compute unified device architecture) najraširenija je razvojna platforma za obuku AI modela. Problem sa CUDA-om je taj što radi samo s NVIDIA GPU-ima. Ovo je jedan od glavnih razloga zašto NVIDIA ima veliku većinu tržišnih udjela za HPC i AI GPU akceleratore.

Budući da je AMD želio dobiti veći dio HPC i AI tržišta, morali su razviti vlastitu platformu ROCm (Radeon Open Compute). ROCm je softverska platforma otvorenog koda koja omogućuje korištenje Instinct GPU-a kao AI akceleratora.

Iako nije nužno dio Instinct hardvera, ROCm je temeljan kada je u pitanju opstanak Instinct linije GPU-a. Uz ROCm, programere i istraživači dobivaju ROCm alate, kompajler, upravljačke programe kernela, čitav niz biblioteka i pristup okvirima kao što su TensorFlow i PyTorch za razvoj sa svojim poželjan AI programski jezik.

Kako se Instinct AI akceleratori uspoređuju s Radeon GPU AI akceleratorima?

AMD nudi svoju liniju GPU-ova Instinct za poduzeća i Radeon GPU-ove za obične korisnike. Kao što je ranije spomenuto, Instinct GPU koristi AMD-ovu CDNA arhitekturu, HBM i Infinity Fabric interkonekciju. S druge strane, Radeon koristi AMD-ovu RDNA arhitekturu, DDR6 memoriju i Infinity Cache.

Iako manje sposobne, Radeon serija AI akceleratora još uvijek ima veliku snagu implementirajući jednu ili dvije jezgre AI akceleratora po jedinici računanja. Najnoviji Radeon RX7900 XT GPU ima dvije jezgre AI akceleratora po računskoj jedinici, što omogućuje 103 TFLOP-a vršne polupreciznosti i 52 TFLOP-a vršne izračunavanja jednostruke preciznosti.

Dok je Instinct serija GPU-ova prikladnija za LLM i HPC, Radeon AI akceleratori mogu se koristiti za fino podešavanje unaprijed obučenih modela, zaključivanje i grafički intenzivne zadatke.

AMD Instinct vs. NVIDIA tenzor

Prema a Istraživanje TrendForce, NVIDA ima 80% tržišnog udjela za poslužiteljske GPU-ove, dok AMD ima samo 20%. Ovaj nevjerojatan uspjeh NVIDIA-e je zato što su oni tvrtka koja se specijalizirala za dizajn i montažu GPU-a. To im omogućuje da dizajniraju značajno bolje GPU-ove bez premca u drugim ponudama.

Usporedimo AMD-ov Instinct MI205X i NVIDIA-in H100SXM5 koristeći specifikacije iz AMD-ovo službeno web mjesto i Vlastita podatkovna tablica tvrtke NVIDIA:

GPU model

FP64 (TFLOPs)

FP32 (TFLOPs)

FP16 (TFLOPs)

INT8 (TFLOPs)

AMD Instinct MI250X

30.0

60.0

1000

2000

NVIDIA H100SXMS

47.9

95.7

383.2

383

Kao što možete vidjeti u tablici, AMD-ov MI250X radi bolje u smislu dvostruke preciznosti i polupreciznosti računanja, dok je NVIDIA-in H100SXMS daleko bolji u pogledu matrice polupreciznosti i četvrtine preciznosti kalkulacije. To čini AMD-ov MI250X prikladnijim za HPC dok NVIDIA-in H100SXMS s AI učenjem i zaključivanjem.

Budućnost AMD-ovih Instinct procesora

Iako je AMD-ova najnovija ponuda, MI250X, dizajnirana za HPC, njihov nadolazeći MI300 više je orijentiran na AI obuku. Ovaj AI akcelerator je najavljen kao APU, kombinirajući GPU i CPU u jednom paketu. To omogućuje MI300 da koristi njihovu CNDA3 Unified Memory APU arhitekturu, gdje će GPU i CPU koristiti samo jednu memoriju, povećavajući učinkovitost i smanjujući cijenu.

Iako se AMD danas neće natjecati s NVIDIA-om na tržištu AI akceleratora, nakon što MI300 bude objavljen i ROCm postane uglađena, AMD-ova serija Instinct mogla bi biti dovoljno dobra da ugrabi značajan dio tržišta AI akceleratora od NVIDIA.