15:47:03 22.03.2026
Stiri

În culisele laboratorului Trainium al Amazon: cipul care provoacă dominația Nvidia și atrage OpenAI, Anthropic și Apple

Actualitate 22.03.2026 14:17 Vizualizări267
În culisele laboratorului Trainium al Amazon: cipul care provoacă dominația Nvidia și atrage OpenAI, Anthropic și Apple

La scurt timp dupa ce directorul general al Amazon, Andy Jassy, a anuntat acordul istoric prin care AWS va investi 50 de miliarde de dolari in colaborarea cu OpenAI, Amazon m-a invitat intr-un tur privat al laboratorului sau de dezvoltare de cipuri aflat in centrul acestei intelegeri, acoperind (in mare parte*) cheltuielile calatoriei.

Expertii din industrie urmaresc cu atentie cipul Trainium al Amazon, creat in acest laborator, pentru potentialul sau de a reduce costurile de inferenta in AI si de a lovi, macar partial, in cvasi-monopolul detinut de Nvidia.

Intrigata de implicatii, am acceptat invitatia.

Ghizii mei pentru aceasta vizita au fost directorul laboratorului, Kristopher King, directorul de inginerie Mark Carroll, precum si omul de PR al echipei, Doron Aronson, cel care a organizat intreaga deplasare.

AWS este principala platforma de cloud a Anthropic inca din primele zile ale acestui laborator de AI — o relatie suficient de solida incat sa continue chiar si dupa ce Anthropic a adaugat Microsoft ca partener de cloud si pe fondul extinderii colaborarii Amazon cu OpenAI.

Acordul cu OpenAI transforma AWS in furnizor exclusiv pentru Frontier, noul constructor de agenti AI al OpenAI. Acest instrument ar putea deveni o componenta cruciala a afacerii OpenAI, daca agentii AI vor ajunge atat de importanti pe cat pariaza Silicon Valley. Ramane de vazut daca exclusivitatea va ramane exact asa cum a fost anuntata. Zilele trecute, o publicatie financiara internationala a relatat ca Microsoft ar putea considera ca intelegerea dintre OpenAI si Amazon incalca propriul sau acord cu OpenAI, prin care Redmond ar trebui sa aiba acces la toate modelele si tehnologiile OpenAI.

Ce face AWS atat de atractiv pentru OpenAI? In cadrul acestui parteneriat, gigantul cloud s-a angajat sa asigure pentru OpenAI o capacitate de calcul Trainium de 2 gigawati. Este un angajament urias, avand in vedere ca Anthropic si propriul serviciu Bedrock al Amazon consuma deja cipuri Trainium intr-un ritm mai rapid decat poate Amazon sa le produca.

In prezent, exista 1,4 milioane de cipuri Trainium implementate in toate cele trei generatii, iar Claude, modelul celor de la Anthropic, ruleaza pe peste 1 milion de cipuri Trainium2 instalate, a precizat compania.

Merita subliniat faptul ca, desi Trainium a fost proiectat initial pentru antrenarea mai rapida si mai ieftina a modelelor — principala prioritate in urma cu cativa ani —, acum este optimizat si folosit intensiv pentru inferenta. Inferenta, adica procesul propriu-zis prin care un model de AI este rulat pentru a genera raspunsuri, este in acest moment cel mai mare blocaj de performanta din industrie.

Un exemplu concret: Trainium2 gestioneaza majoritatea traficului de inferenta de pe serviciul Bedrock al Amazon, platforma care le permite clientilor enterprise sa construiasca aplicatii de AI si sa foloseasca in acele aplicatii mai multe modele simultan.

„Baza noastra de clienti se extinde la fel de repede pe cat putem noi adauga capacitate”, spune King. „Bedrock ar putea ajunge intr-o zi la fel de mare ca EC2”, a adaugat el, facand referire la uriasul serviciu de cloud de calcul al AWS.

Pe langa faptul ca ofera o alternativa la GPU-urile Nvidia, greu de gasit si cu liste de asteptare, Amazon sustine ca noile sale cipuri, rulate pe serverele specializate Trn3 UltraServer, pot reduce costurile de operare cu pana la 50%, pentru performante comparabile cu cele ale serverelor clasice din cloud.

Impreuna cu Trainium3, lansat in decembrie, aceasta echipa AWS a proiectat si noile switch-uri Neuron, iar Carroll afirma ca aceasta combinatie este cu adevarat transformatoare.

„Ce obtinem din asta este ceva urias”, spune Carroll. Switch-urile permit fiecarui cip Trainium3 sa comunice cu toate celelalte cipuri intr-o configuratie tip mesh, reducand semnificativ latenta. „De aceea Trainium3 doboara tot felul de recorduri”, in special la capitolul „pret raportat la putere”, a adaugat el.

Atunci cand vorbim de trilioane de tokeni procesati in fiecare zi, astfel de imbunatatiri conteaza enorm.

In 2024, echipa de cipuri a Amazon a fost laudata public de Apple. Intr-un gest rar de deschidere din partea unei companii atat de secretoase, directorul de AI al Apple a descris modul in care foloseste Graviton — un CPU de server cu consum redus, bazat pe ARM, primul produs major creat de aceasta echipa. Apple a elogiat de asemenea Inferentia — cip conceput explicit pentru inferenta — si a mentionat Trainium, care era la acea vreme abia lansat.

Aceste cipuri ilustreaza perfect reteta clasica a Amazon: observa ce isi doresc clientii, apoi construieste in-house o alternativa care concureaza agresiv la pret.

Problema, istoric vorbind, in domeniul cipurilor a fost costul ridicat al migrarii. Aplicatiile scrise pentru cipurile Nvidia trebuie refacute si adaptate pentru a functiona pe alte arhitecturi, un proces consumator de timp, care ii descurajeaza pe dezvoltatori sa schimbe platforma.

Insa echipa de la AWS mi-a spus cu mandrie ca Trainium ofera acum suport pentru PyTorch, unul dintre cele mai populare framework-uri open source pentru dezvoltarea de modele AI. Asta include multe dintre modelele gazduite pe Hugging Face, vasta biblioteca unde dezvoltatorii publica modele open source.

Tranzitia, explica Carroll, necesita „practic o singura linie modificata, apoi recompilezi si rulezi pe Trainium”. Cu alte cuvinte, Amazon incearca sa erodeze dominatia Nvidia pe piata oriunde gaseste o breșa.

In aceasta luna, AWS a anuntat si un parteneriat cu Cerebras Systems, integrand cipul lor de inferenta pe servere dotate cu Trainium, pentru o experienta AI cu latenta redusa si performanta ridicata, dupa cum promite Amazon.

Ambitiile Amazon merg insa mult dincolo de cipuri. Compania proiecteaza si serverele care le gazduiesc. Pe langa componentele de retea, echipa a creat „Nitro”, un ansamblu hardware–software care asigura tehnologia de virtualizare (permitand multiple instante software sa ruleze izolat pe acelasi server), sisteme de racire cu lichid de ultima generatie si suporturile modulare („sleds”) in care este montata toata aceasta infrastructura.

Scopul tuturor acestor solutii este un control cat mai strict al costurilor si performantei.

Unitatea responsabila de proiectarea cipurilor custom la Amazon a luat nastere dupa achizitionarea firmei israeliene Annapurna Labs, in ianuarie 2015, pentru aproximativ 350 de milioane de dolari. Aceasta echipa are, deci, peste un deceniu de experienta in proiectarea de cipuri pentru AWS. Unitatea si-a pastrat atat radacinile, cat si numele Annapurna — logo-ul este prezent peste tot in birouri.

Laboratorul de cipuri este gazduit intr-o cladire moderna, cu fatada de sticla cromata, in cartierul „The Domain” din Austin, o zona pietonala, plina de magazine si restaurante, adesea supranumita Silicon Valley al orasului.

Birourile au un aer clasic de corporatie tech: birouri in cuburi, spatii de socializare si sali de conferinte. Insa, ascuns in spatele unui etaj superior, se afla laboratorul propriu-zis, cu o priveliste ampla asupra orasului.

Laboratorul, cu rafturi pline de echipamente si o suprafata echivalenta cu doua sali mari de conferinte, este un spatiu industrial zgomotos din cauza ventilatoarelor. Pare o combinatie intre un atelier de liceu si un platou de film pentru un laborator high-tech, doar ca inginerii sunt imbracati in blugi, nu in halate albe.

Trebuie precizat ca aici nu se fabrica cipurile, asa ca nu veti vedea costume integrale de protectie. Trainium3 este un cip de ultima generatie pe tehnologie de 3 nanometri, produs de TSMC, probabil liderul mondial in fabricarea la acest nod de proces, iar alte cipuri sunt produse de Marvell.

Acesta este insa spatiul in care are loc magia „bring-up-ului” de silicon.

„Un bring-up de silicon inseamna momentul in care primesti pentru prima data cipul si este ca o petrecere nocturna. Ramai aici, ca intr-o sesiune de lock-in”, explica King. Dupa aproximativ 18 luni de munca, cipul este alimentat pentru prima oara pentru a se verifica daca functioneaza conform proiectarii. Echipa chiar a filmat o parte din bring-up-ul pentru Trainium3 si a publicat imaginile pe YouTube.

Fara surprize: nu decurge niciodata totul perfect.

In cazul Trainium3, prototipul era racit initial cu aer, la fel ca versiunile anterioare. Varianta actuala este insa racita cu lichid, ceea ce ofera avantaje energetice semnificative si a reprezentat o realizare de inginerie notabila.

In timpul procesului de bring-up, s-a descoperit ca dimensiunile punctelor de prindere intre cip si radiatorul pentru racirea cu aer erau incorecte, astfel incat cipul nu putea fi pornit.

Nepierdandu-si calmul, echipa „a pus imediat mana pe o masina de slefuit si a inceput pur si simplu sa indeparteze metalul”, isi aminteste King. Pentru a nu strica atmosfera de „petrecere cu pizza” din laborator, s-au retras intr-o sala de conferinte ca sa faca zgomotul acolo.

Statul peste noapte si rezolvarea problemelor pe loc „e insasi esenta aducerii la viata a unui cip de silicon”, spune King.

Laboratorul dispune chiar si de un post de sudura, unde inginerul hardware si maestru sudor Isaac Guevara a demonstrat cum sudeaza, prin microscop, componente minuscule ale circuitelor integrate. Este un tip de munca extrem de dificila, iar liderul senior Carroll a recunoscut deschis ca el insusi nu ar putea sa o faca, spre amuzamentul lui Guevara si al celorlalti ingineri prezenti.

In incapere se afla atat instrumente comerciale, cat si echipamente realizate la comanda, folosite pentru testarea si analiza problemelor de la nivelul cipurilor. Un exemplu este demonstratia facuta de inginerul de semnal Arvind Srinivasan, care a aratat cum testeaza laboratorul fiecare componenta minuscula de pe cip.

Vedeta laboratorului este insa un intreg sir de rafturi pe care sunt expuse toate generatiile de „sleds” proiectate de echipa.

Sled-urile sunt tavi speciale in care sunt montate cipurile Trainium pentru AI, cipurile CPU Graviton si placile si componentele de sustinere. Cand sunt stivuite in rack-uri si conectate la elementele de retea, proiectate de aceeasi echipa, aceste sled-uri devin sistemele care stau la baza succesului lui Claude, modelul celor de la Anthropic.

Un astfel de sled a fost prezentat si in cadrul conferintei AWS re:Invent din decembrie.

Ma asteptam ca ghizii mei sa insiste pe tema acordului cu OpenAI pe parcursul turului, dar nu s-a intamplat asa.

Retincenta lor s-ar putea datora incertitudinilor juridice care planeaza posibil asupra intelegerii. Impresia mea insa a fost ca acesti ingineri, care acum lucreaza deja la Trainium4, nu au avut inca multe ocazii concrete sa colaboreze cu OpenAI. Zi de zi, atentia lor este concentrata mai ales pe nevoile Anthropic si ale Amazon.

In prezent, cea mai mare parte a cipurilor Trainium2 este folosita in Project Rainier — unul dintre cele mai mari clustere de calcul AI din lume —, intrat in productie la final de 2025, cu 500.000 de cipuri in functiune. Acest ansamblu este utilizat de Anthropic.

In biroul principal, un ecran de pe un perete afisa totusi un citat despre modul in care OpenAI va folosi Trainium. Mandria era acolo, chiar daca subtila.

Pe langa acest laborator, echipa dispune si de propriul centru de date privat, destinat exclusiv testarii si asigurarii calitatii. Aflat la o distanta scurta cu masina, el nu ruleaza sarcini de lucru ale clientilor si este gazduit intr-o locatie de tip co-location, nu intr-un centru de date AWS clasic.

Masurile de securitate sunt stricte: exista protocoale clare pentru accesul in cladire si pentru intrarea in zona controlata de Amazon.

Sistemul de racire al centrului de date este atat de zgomotos incat dopurile de urechi sunt obligatorii, iar aerul este incarcat cu mirosul intepator de metal incins. Nu este un loc in care o persoana obisnuita ar dori sa petreaca prea mult timp.

Aici se intind randuri dupa randuri de servere pline cu sled-uri ce integreaza toate cipurile custom recente ale Amazon: procesorul Graviton, Trainium3 racit cu lichid, platforma Nitro — toate lucrand in tandem. Lichidul de racire circula intr-un sistem inchis, fiind refolosit, lucru care ar trebui sa reduca si impactul asupra mediului, spun inginerii.

Un server Trn3 UltraServer tipic include mai multe sled-uri montate sus si jos si switch-urile Neuron in partea centrala, iar inginerul hardware David Martinez-Darrow se ocupa de mentenanta unuia dintre aceste module.

Atentia asupra acestei echipe a fost mereu ridicata, dar in ultima perioada nivelul de presiune a crescut vizibil.

CEO-ul Andy Jassy urmareste indeaproape activitatea laboratorului, vorbind in public despre produsele sale aproape ca un parinte mandru. In decembrie, el a spus ca Trainium genereaza deja venituri de miliarde de dolari pentru AWS si l-a numit una dintre tehnologiile AWS care il entuziasmeaza cel mai mult. A mentionat din nou cipul atunci cand a anuntat acordul cu OpenAI.

Echipa resimte la randul ei presiunea. Inginerii lucreaza 24/7, timp de trei–patru saptamani in jurul fiecarui eveniment de bring-up, pentru a corecta rapid orice problema, astfel incat cipurile sa poata intra in productia de masa si apoi in centrele de date.

„Este extrem de important sa ajungem cat mai repede in punctul in care demonstram ca totul chiar functioneaza”, spune Carroll. „Pana acum ne descurcam foarte bine.”

*Disclosure: Amazon a asigurat biletul de avion si a platit o noapte de cazare la un hotel local. In spiritul Principiului de Leadership al Frugalitatii, a fost vorba de un loc la clasa economy, pe un scaun din mijloc, si de o camera modesta. TechCrunch a acoperit restul cheltuielilor de calatorie, precum transportul local si taxele pentru bagaje. (Da, mi-am pus bagajul la cala pentru o singura noapte. Sunt mai pretentioasa, ce sa-i faci.)

Stiri relevante
22.03.2026 08:35 424 Horoscopul zilei 22.03.2026
Top stiri
22.03.2026 08:35 430 Horoscopul zilei 22.03.2026
21.03.2026 08:19 839 Horoscopul zilei 21.03.2026

Parteneri
Punct de vedere NAȚIONAL
14.05.2025 13:06 ZiarulNational Mihai Gribincea // Moscova rescrie is...

30.12.2024 09:11 Nicolae Negru Nicolae Negru // Anul politic 2024, î...

30.12.2024 09:55 Valeriu Saharneanu Valeriu Saharneanu // Rezidenții tran...

Horoscop
Vezi horoscopul tău pentru astăzi
Capricorn
Vărsător
Pești
Berbec
Taur
Gemeni
Rac
Leu
Fecioară
Balanță
Scorpion
Săgetător
Curs valutar
1 MDL   1 EUR 20.12 1 USD 17.53 1 RON 3.95 1 RUB 0.20 1 UAH 0.40
Sondaj
Dacă duminica viitoare ar avea loc un referendum privind unirea Republicii Moldova cu România, cum ați vota?
Prietenii noștri

Ziarul Național 2013-2025. Toate drepturile sunt rezervate

Despre noi Publicitate Termeni și condiții News widget RSS Contacte