În culisele laboratorului Trainium al Amazon: cipul care provoacă dominația Nvidia și atrage OpenAI, Anthropic și Apple
267
La scurt timp dupa ce directorul general al Amazon, Andy Jassy, a anuntat acordul istoric prin care AWS va investi 50 de miliarde de dolari in colaborarea cu OpenAI, Amazon m-a invitat intr-un tur privat al laboratorului sau de dezvoltare de cipuri aflat in centrul acestei intelegeri, acoperind (in mare parte*) cheltuielile calatoriei.
Expertii din industrie urmaresc cu atentie cipul Trainium al Amazon, creat in acest laborator, pentru potentialul sau de a reduce costurile de inferenta in AI si de a lovi, macar partial, in cvasi-monopolul detinut de Nvidia.
Intrigata de implicatii, am acceptat invitatia.
Ghizii mei pentru aceasta vizita au fost directorul laboratorului, Kristopher King, directorul de inginerie Mark Carroll, precum si omul de PR al echipei, Doron Aronson, cel care a organizat intreaga deplasare.
AWS este principala platforma de cloud a Anthropic inca din primele zile ale acestui laborator de AI — o relatie suficient de solida incat sa continue chiar si dupa ce Anthropic a adaugat Microsoft ca partener de cloud si pe fondul extinderii colaborarii Amazon cu OpenAI.
Acordul cu OpenAI transforma AWS in furnizor exclusiv pentru Frontier, noul constructor de agenti AI al OpenAI. Acest instrument ar putea deveni o componenta cruciala a afacerii OpenAI, daca agentii AI vor ajunge atat de importanti pe cat pariaza Silicon Valley. Ramane de vazut daca exclusivitatea va ramane exact asa cum a fost anuntata. Zilele trecute, o publicatie financiara internationala a relatat ca Microsoft ar putea considera ca intelegerea dintre OpenAI si Amazon incalca propriul sau acord cu OpenAI, prin care Redmond ar trebui sa aiba acces la toate modelele si tehnologiile OpenAI.
Ce face AWS atat de atractiv pentru OpenAI? In cadrul acestui parteneriat, gigantul cloud s-a angajat sa asigure pentru OpenAI o capacitate de calcul Trainium de 2 gigawati. Este un angajament urias, avand in vedere ca Anthropic si propriul serviciu Bedrock al Amazon consuma deja cipuri Trainium intr-un ritm mai rapid decat poate Amazon sa le produca.
In prezent, exista 1,4 milioane de cipuri Trainium implementate in toate cele trei generatii, iar Claude, modelul celor de la Anthropic, ruleaza pe peste 1 milion de cipuri Trainium2 instalate, a precizat compania.
Merita subliniat faptul ca, desi Trainium a fost proiectat initial pentru antrenarea mai rapida si mai ieftina a modelelor — principala prioritate in urma cu cativa ani —, acum este optimizat si folosit intensiv pentru inferenta. Inferenta, adica procesul propriu-zis prin care un model de AI este rulat pentru a genera raspunsuri, este in acest moment cel mai mare blocaj de performanta din industrie.
Un exemplu concret: Trainium2 gestioneaza majoritatea traficului de inferenta de pe serviciul Bedrock al Amazon, platforma care le permite clientilor enterprise sa construiasca aplicatii de AI si sa foloseasca in acele aplicatii mai multe modele simultan.
„Baza noastra de clienti se extinde la fel de repede pe cat putem noi adauga capacitate”, spune King. „Bedrock ar putea ajunge intr-o zi la fel de mare ca EC2”, a adaugat el, facand referire la uriasul serviciu de cloud de calcul al AWS.
Pe langa faptul ca ofera o alternativa la GPU-urile Nvidia, greu de gasit si cu liste de asteptare, Amazon sustine ca noile sale cipuri, rulate pe serverele specializate Trn3 UltraServer, pot reduce costurile de operare cu pana la 50%, pentru performante comparabile cu cele ale serverelor clasice din cloud.
Impreuna cu Trainium3, lansat in decembrie, aceasta echipa AWS a proiectat si noile switch-uri Neuron, iar Carroll afirma ca aceasta combinatie este cu adevarat transformatoare.
„Ce obtinem din asta este ceva urias”, spune Carroll. Switch-urile permit fiecarui cip Trainium3 sa comunice cu toate celelalte cipuri intr-o configuratie tip mesh, reducand semnificativ latenta. „De aceea Trainium3 doboara tot felul de recorduri”, in special la capitolul „pret raportat la putere”, a adaugat el.
Atunci cand vorbim de trilioane de tokeni procesati in fiecare zi, astfel de imbunatatiri conteaza enorm.
In 2024, echipa de cipuri a Amazon a fost laudata public de Apple. Intr-un gest rar de deschidere din partea unei companii atat de secretoase, directorul de AI al Apple a descris modul in care foloseste Graviton — un CPU de server cu consum redus, bazat pe ARM, primul produs major creat de aceasta echipa. Apple a elogiat de asemenea Inferentia — cip conceput explicit pentru inferenta — si a mentionat Trainium, care era la acea vreme abia lansat.
Aceste cipuri ilustreaza perfect reteta clasica a Amazon: observa ce isi doresc clientii, apoi construieste in-house o alternativa care concureaza agresiv la pret.
Problema, istoric vorbind, in domeniul cipurilor a fost costul ridicat al migrarii. Aplicatiile scrise pentru cipurile Nvidia trebuie refacute si adaptate pentru a functiona pe alte arhitecturi, un proces consumator de timp, care ii descurajeaza pe dezvoltatori sa schimbe platforma.
Insa echipa de la AWS mi-a spus cu mandrie ca Trainium ofera acum suport pentru PyTorch, unul dintre cele mai populare framework-uri open source pentru dezvoltarea de modele AI. Asta include multe dintre modelele gazduite pe Hugging Face, vasta biblioteca unde dezvoltatorii publica modele open source.
Tranzitia, explica Carroll, necesita „practic o singura linie modificata, apoi recompilezi si rulezi pe Trainium”. Cu alte cuvinte, Amazon incearca sa erodeze dominatia Nvidia pe piata oriunde gaseste o breșa.
In aceasta luna, AWS a anuntat si un parteneriat cu Cerebras Systems, integrand cipul lor de inferenta pe servere dotate cu Trainium, pentru o experienta AI cu latenta redusa si performanta ridicata, dupa cum promite Amazon.
Ambitiile Amazon merg insa mult dincolo de cipuri. Compania proiecteaza si serverele care le gazduiesc. Pe langa componentele de retea, echipa a creat „Nitro”, un ansamblu hardware–software care asigura tehnologia de virtualizare (permitand multiple instante software sa ruleze izolat pe acelasi server), sisteme de racire cu lichid de ultima generatie si suporturile modulare („sleds”) in care este montata toata aceasta infrastructura.
Scopul tuturor acestor solutii este un control cat mai strict al costurilor si performantei.
Unitatea responsabila de proiectarea cipurilor custom la Amazon a luat nastere dupa achizitionarea firmei israeliene Annapurna Labs, in ianuarie 2015, pentru aproximativ 350 de milioane de dolari. Aceasta echipa are, deci, peste un deceniu de experienta in proiectarea de cipuri pentru AWS. Unitatea si-a pastrat atat radacinile, cat si numele Annapurna — logo-ul este prezent peste tot in birouri.
Laboratorul de cipuri este gazduit intr-o cladire moderna, cu fatada de sticla cromata, in cartierul „The Domain” din Austin, o zona pietonala, plina de magazine si restaurante, adesea supranumita Silicon Valley al orasului.
Birourile au un aer clasic de corporatie tech: birouri in cuburi, spatii de socializare si sali de conferinte. Insa, ascuns in spatele unui etaj superior, se afla laboratorul propriu-zis, cu o priveliste ampla asupra orasului.
Laboratorul, cu rafturi pline de echipamente si o suprafata echivalenta cu doua sali mari de conferinte, este un spatiu industrial zgomotos din cauza ventilatoarelor. Pare o combinatie intre un atelier de liceu si un platou de film pentru un laborator high-tech, doar ca inginerii sunt imbracati in blugi, nu in halate albe.
Trebuie precizat ca aici nu se fabrica cipurile, asa ca nu veti vedea costume integrale de protectie. Trainium3 este un cip de ultima generatie pe tehnologie de 3 nanometri, produs de TSMC, probabil liderul mondial in fabricarea la acest nod de proces, iar alte cipuri sunt produse de Marvell.
Acesta este insa spatiul in care are loc magia „bring-up-ului” de silicon.
„Un bring-up de silicon inseamna momentul in care primesti pentru prima data cipul si este ca o petrecere nocturna. Ramai aici, ca intr-o sesiune de lock-in”, explica King. Dupa aproximativ 18 luni de munca, cipul este alimentat pentru prima oara pentru a se verifica daca functioneaza conform proiectarii. Echipa chiar a filmat o parte din bring-up-ul pentru Trainium3 si a publicat imaginile pe YouTube.
Fara surprize: nu decurge niciodata totul perfect.
In cazul Trainium3, prototipul era racit initial cu aer, la fel ca versiunile anterioare. Varianta actuala este insa racita cu lichid, ceea ce ofera avantaje energetice semnificative si a reprezentat o realizare de inginerie notabila.
In timpul procesului de bring-up, s-a descoperit ca dimensiunile punctelor de prindere intre cip si radiatorul pentru racirea cu aer erau incorecte, astfel incat cipul nu putea fi pornit.
Nepierdandu-si calmul, echipa „a pus imediat mana pe o masina de slefuit si a inceput pur si simplu sa indeparteze metalul”, isi aminteste King. Pentru a nu strica atmosfera de „petrecere cu pizza” din laborator, s-au retras intr-o sala de conferinte ca sa faca zgomotul acolo.
Statul peste noapte si rezolvarea problemelor pe loc „e insasi esenta aducerii la viata a unui cip de silicon”, spune King.
Laboratorul dispune chiar si de un post de sudura, unde inginerul hardware si maestru sudor Isaac Guevara a demonstrat cum sudeaza, prin microscop, componente minuscule ale circuitelor integrate. Este un tip de munca extrem de dificila, iar liderul senior Carroll a recunoscut deschis ca el insusi nu ar putea sa o faca, spre amuzamentul lui Guevara si al celorlalti ingineri prezenti.
In incapere se afla atat instrumente comerciale, cat si echipamente realizate la comanda, folosite pentru testarea si analiza problemelor de la nivelul cipurilor. Un exemplu este demonstratia facuta de inginerul de semnal Arvind Srinivasan, care a aratat cum testeaza laboratorul fiecare componenta minuscula de pe cip.
Vedeta laboratorului este insa un intreg sir de rafturi pe care sunt expuse toate generatiile de „sleds” proiectate de echipa.
Sled-urile sunt tavi speciale in care sunt montate cipurile Trainium pentru AI, cipurile CPU Graviton si placile si componentele de sustinere. Cand sunt stivuite in rack-uri si conectate la elementele de retea, proiectate de aceeasi echipa, aceste sled-uri devin sistemele care stau la baza succesului lui Claude, modelul celor de la Anthropic.
Un astfel de sled a fost prezentat si in cadrul conferintei AWS re:Invent din decembrie.
Ma asteptam ca ghizii mei sa insiste pe tema acordului cu OpenAI pe parcursul turului, dar nu s-a intamplat asa.
Retincenta lor s-ar putea datora incertitudinilor juridice care planeaza posibil asupra intelegerii. Impresia mea insa a fost ca acesti ingineri, care acum lucreaza deja la Trainium4, nu au avut inca multe ocazii concrete sa colaboreze cu OpenAI. Zi de zi, atentia lor este concentrata mai ales pe nevoile Anthropic si ale Amazon.
In prezent, cea mai mare parte a cipurilor Trainium2 este folosita in Project Rainier — unul dintre cele mai mari clustere de calcul AI din lume —, intrat in productie la final de 2025, cu 500.000 de cipuri in functiune. Acest ansamblu este utilizat de Anthropic.
In biroul principal, un ecran de pe un perete afisa totusi un citat despre modul in care OpenAI va folosi Trainium. Mandria era acolo, chiar daca subtila.
Pe langa acest laborator, echipa dispune si de propriul centru de date privat, destinat exclusiv testarii si asigurarii calitatii. Aflat la o distanta scurta cu masina, el nu ruleaza sarcini de lucru ale clientilor si este gazduit intr-o locatie de tip co-location, nu intr-un centru de date AWS clasic.
Masurile de securitate sunt stricte: exista protocoale clare pentru accesul in cladire si pentru intrarea in zona controlata de Amazon.
Sistemul de racire al centrului de date este atat de zgomotos incat dopurile de urechi sunt obligatorii, iar aerul este incarcat cu mirosul intepator de metal incins. Nu este un loc in care o persoana obisnuita ar dori sa petreaca prea mult timp.
Aici se intind randuri dupa randuri de servere pline cu sled-uri ce integreaza toate cipurile custom recente ale Amazon: procesorul Graviton, Trainium3 racit cu lichid, platforma Nitro — toate lucrand in tandem. Lichidul de racire circula intr-un sistem inchis, fiind refolosit, lucru care ar trebui sa reduca si impactul asupra mediului, spun inginerii.
Un server Trn3 UltraServer tipic include mai multe sled-uri montate sus si jos si switch-urile Neuron in partea centrala, iar inginerul hardware David Martinez-Darrow se ocupa de mentenanta unuia dintre aceste module.
Atentia asupra acestei echipe a fost mereu ridicata, dar in ultima perioada nivelul de presiune a crescut vizibil.
CEO-ul Andy Jassy urmareste indeaproape activitatea laboratorului, vorbind in public despre produsele sale aproape ca un parinte mandru. In decembrie, el a spus ca Trainium genereaza deja venituri de miliarde de dolari pentru AWS si l-a numit una dintre tehnologiile AWS care il entuziasmeaza cel mai mult. A mentionat din nou cipul atunci cand a anuntat acordul cu OpenAI.
Echipa resimte la randul ei presiunea. Inginerii lucreaza 24/7, timp de trei–patru saptamani in jurul fiecarui eveniment de bring-up, pentru a corecta rapid orice problema, astfel incat cipurile sa poata intra in productia de masa si apoi in centrele de date.
„Este extrem de important sa ajungem cat mai repede in punctul in care demonstram ca totul chiar functioneaza”, spune Carroll. „Pana acum ne descurcam foarte bine.”
*Disclosure: Amazon a asigurat biletul de avion si a platit o noapte de cazare la un hotel local. In spiritul Principiului de Leadership al Frugalitatii, a fost vorba de un loc la clasa economy, pe un scaun din mijloc, si de o camera modesta. TechCrunch a acoperit restul cheltuielilor de calatorie, precum transportul local si taxele pentru bagaje. (Da, mi-am pus bagajul la cala pentru o singura noapte. Sunt mai pretentioasa, ce sa-i faci.)
22.03.2026
09:32
399
Tokenii de AI, noul „al patrulea pilon” al compensației pentru ingineri sau doar o cheltuială mascată pentru companii?
453
Robotul culegător de căpșuni de la Universitatea din Essex, premiat la nivel național pentru inovație în agricultură
22.03.2026
08:35
424
Horoscopul zilei 22.03.2026
564
TikTok închide 20 de conturi cu influenceri virtuali de femei de culoare hiper-sexualizate, după o investigație BBC
707
Disney anulează în ultimul moment noul sezon „The Bachelorette” după apariția imaginilor cu violența domestică a lui Taylor Frankie Paul
21.03.2026
20:49
591
Cer mohorât, fără ploi, în Republica Moldova – duminică, 22 martie 2026
21.03.2026
16:48
758
Revoluția energiei de fuziune: cum funcționează „puterea stelelor” și ce startup-uri vor să o aducă în rețea
21.03.2026
14:57
745
Cei mai buni 186 de elevi biologi din țară, în competiție la Universitatea de Stat din Moldova
21.03.2026
12:09
888
Olimpiada Republicană de Biologie transformă Universitatea de Stat din Moldova în centru al excelenței pentru 186 de tineri pasionați de științele naturii
810
Riscurile rețelelor sociale depășesc beneficiile pentru copiii sub 16 ani, avertizează o militantă pentru drepturile copilului din Jersey
22.03.2026
14:17
271
În culisele laboratorului Trainium al Amazon: cipul care provoacă dominația Nvidia și atrage OpenAI, Anthropic și Apple
22.03.2026
09:32
401
Tokenii de AI, noul „al patrulea pilon” al compensației pentru ingineri sau doar o cheltuială mascată pentru companii?
455
Robotul culegător de căpșuni de la Universitatea din Essex, premiat la nivel național pentru inovație în agricultură
22.03.2026
08:35
430
Horoscopul zilei 22.03.2026
566
TikTok închide 20 de conturi cu influenceri virtuali de femei de culoare hiper-sexualizate, după o investigație BBC
709
Disney anulează în ultimul moment noul sezon „The Bachelorette” după apariția imaginilor cu violența domestică a lui Taylor Frankie Paul
21.03.2026
20:49
593
Cer mohorât, fără ploi, în Republica Moldova – duminică, 22 martie 2026
21.03.2026
16:48
759
Revoluția energiei de fuziune: cum funcționează „puterea stelelor” și ce startup-uri vor să o aducă în rețea
21.03.2026
14:57
746
Cei mai buni 186 de elevi biologi din țară, în competiție la Universitatea de Stat din Moldova
21.03.2026
12:09
889
Olimpiada Republicană de Biologie transformă Universitatea de Stat din Moldova în centru al excelenței pentru 186 de tineri pasionați de științele naturii
811
Riscurile rețelelor sociale depășesc beneficiile pentru copiii sub 16 ani, avertizează o militantă pentru drepturile copilului din Jersey
21.03.2026
09:58
1016
Maia Sandu avertizează asupra „războiului cognitiv” în Europa: viitorul democrației depinde de protejarea gândirii libere
787
Artiștii contra algoritmilor: de ce galeriile de artă nu pot supraviețui fără creație umană
21.03.2026
08:19
839
Horoscopul zilei 21.03.2026
21.03.2026
04:32
960
Anthropic acuză Pentagonul de neadevăruri și represalii politice după ruperea contractului de AI anunțată de Trump
21.03.2026
02:45
1022
Juriu din California: Elon Musk a indus în eroare investitorii Twitter pentru a forța ieftinirea achiziției de 44 de miliarde de dolari
20.03.2026
23:29
935
Microsoft reduce prezența Copilot AI în Windows 11 după feedbackul utilizatorilor
20.03.2026
21:01
863
Cer tot mai acoperit și răcire ușoară în Republica Moldova, sâmbătă 21.03.2026
932
Gigantul financiar Hargreaves Lansdown anunță că a rezolvat problemele IT care au blocat accesul a mii de clienți
20.03.2026
19:41
952
SUA acuză guvernul iranian că orchestrează gruparea de hackeri Handala, responsabilă de atacul cibernetic asupra companiei Stryker
20.03.2026
19:29
991
Jeff Bezos mută centrele de date în orbită: Blue Origin cere aprobarea SUA pentru o rețea de peste 50.000 de sateliți în spațiu
20.03.2026
19:12
916
Trump vrea control federal total asupra legislației AI și mută responsabilitatea pentru siguranța copiilor pe umerii părinților
874
Editura americană retrage romanul horror „Shy Girl” după acuzații de folosire a inteligenței artificiale
20.03.2026
18:37
886
Startupurile de inteligență artificială înghit capitalul de risc global: finanțări record și randamente promițătoare pentru fondurile noi
20.03.2026
18:01
1034
MEC alocă 7 milioane de lei pentru 60.000 de cărți noi în biblioteci școlare și lansarea laboratoarelor literare CHILL Network în Chișinău
În culisele laboratorului Trainium al Amazon: cipul care provoacă dominația Nvidia și atrage OpenAI, Anthropic și Apple
Tokenii de AI, noul „al patrulea pilon” al compensației pentru ingineri sau doar o cheltuială mascată pentru companii?
Horoscopul zilei 22.03.2026
1 MDL
1 EUR
20.12
1 USD
17.53
1 RON
3.95
1 RUB
0.20
1 UAH
0.40


Inapoi














