- Google razvija "TorchTPU" kako bi svoje AI čipove učinio potpuno kompatibilnim s PyTorchom i olakšao migraciju s Nvidia GPU-ova.
- Cilj ovog poteza je pretvoriti TPU-ove u mainstream alternativu u oblaku i lokalnim okruženjima, smanjujući ovisnost o Nvidijinom CUDA ekosistemu.
- Google blisko sarađuje s Metom, upraviteljem PyTorcha, i razmatra otvaranje dijelova steka kako bi se ubrzalo usvajanje.
- Jača podrška za PyTorch mogla bi smanjiti troškove i tehničke barijere za preduzeća koja žele diverzificirati svoju AI infrastrukturu.
Google tiho preoblikuje svoj strategija u trci za računarstvo umjetne inteligencijeNakon nekoliko godina fokusiranja na vlastite oznake unutar kompanije, kompanija sada ulaže veliki napor da njeni AI čipovi besprijekorno rade s PyTorchom, alatima otvorenog koda koji su postali standardni izbor za većinu AI programera širom svijeta.
U srži ove promjene je projekat poznat interno kao "TorchTPU", napor osmišljen da smanji jaz između načina na koji se gradi Googleov hardver i načina na koji korisnici zapravo grade svoje AI sisteme. Podizanjem podrške za PyTorch na prvoklasni status na svojim Tensor Processing Jedinicama (TPU), Google želi da postepeno ublaži ogromna prednost koju je Nvidia izgradila kroz svoj CUDA softverski ekosistem.
Google pretvara TPU-ove u ozbiljnog rivala Nvidijinim GPU-ovima
Googleovi TPU-ovi se dugo predstavljaju kao Visokoperformansni čipovi prilagođeni za AI radna opterećenja, ali nisu dostigli sveprisutnost Nvidijinih GPU-ova. Jedan od ključnih razloga je taj što je Nvidia godinama osiguravala da PyTorch izuzetno dobro radi na svom hardveru, dok se Google uglavnom fokusirao na vlastite alate i interne tokove rada.
Unutar Alphabeta, TPU-ovi su postali ključni motor rasta za Google CloudProdaja pristupa ovim čipovima putem svoje cloud platforme sada je centralni dio načina na koji Google želi dokazati investitorima da se njegova ulaganja u vještačku inteligenciju mogu pretvoriti u opipljive prihode, a ne samo u istraživački prestiž ili eksperimentalne proizvode.
Međutim, sam hardver ne osvaja programere. Preduzeća koja razmatraju TPU-ove su više puta rekla Googleu da Kompatibilnost softvera je bila kamen spoticanjaTimovi koji su u velikoj mjeri standardizirali PyTorch ne žele restrukturirati svoj kod ili prekvalifikovati osoblje samo da bi isprobali novi čip.
Tu nastupa TorchTPU. Inicijativa ima za cilj da TPU-ovi, sa stanovišta programera, osjete... jednostavno za korištenje s PyTorchom kao što su to danas Nvidia GPU-oviCilj je da se postojeći PyTorch modeli i cjevovodi mogu premjestiti uz minimalne promjene, tako da troškovi i rizik eksperimentiranja s TPU-ovima naglo padnu.
Glasnogovornik Google Clouda izbjegao je ulazak u tehničke detalje, ali je potvrdio da je glavni cilj pružiti korisnicima daleko veću fleksibilnost u načinu na koji izvršavaju AI opterećenja, bez obzira na to koji hardver odaberu ispod.
Šta TorchTPU zaista mijenja za PyTorch programere
PyTorch, koji je prvobitno kreirala i promovirala kompanija Meta, postao je de facto standardni okvir za izgradnju modernih AI sistemaVećina inženjera u Silicijskoj dolini i šire ne programira ručno kernele za Nvidia, AMD ili Google čipove; umjesto toga, oslanjaju se na PyTorch i slične frameworkove koji pružaju slojeve unaprijed izgrađenih komponenti i uslužnih programa za obuku.
Od svog izlaska 2016. godine, rast PyTorcha je usko povezan sa CUDA i njene okolne biblioteke, softverski paket koji mnogi analitičari s Wall Streeta smatraju najvažnijom strateškom imovinom kompanije Nvidia. Nvidijini inženjeri su uložili mnogo sredstava kako bi osigurali da PyTorch radi s maksimalnom efikasnošću na njihovim GPU-ima, čineći ovo uparivanje zadanim izborom za obuku i implementaciju velikih AI modela.
Google je, nasuprot tome, godinama podržavao Jax, još jedan softverski okvir koji je bio posebno favoriziran unutar vlastitih istraživačkih i proizvodnih timova. TPU-ovi su se oslanjali na sloj kompajlera pod nazivom XLA efikasno pokretati Jax-bazirani kod, a veliki dio Googleovog internog AI softverskog paketa i optimizacija performansi izgrađeni su oko te kombinacije.
Rezultat toga je da je došlo do sve većeg nesklada između kako sam Google koristi svoje čipove i kako većina eksternih kupaca preferira da radi. Mnoga preduzeća su gotovo u potpunosti standardizovala PyTorch, što znači da je prelazak na TPU-ove obično podrazumijevao revolucionarnu promjenu u alatima, kodu i vještinama programera.
Sa TorchTPU-om, Google pokušava ukloniti to trenje. Cilj projekta je da pruži Puna podrška za PyTorch na TPU-ovima, tako da kompanije mogu nastaviti da se oslanjaju na poznate biblioteke, petlje za obuku i obrasce implementacije, a istovremeno mijenjaju samo osnovni hardverski cilj. Ovo bi moglo značajno smanjiti i inženjerski napor i krivulju učenja za timove koji žele da procijene performanse TPU-a ili prednosti u troškovima.
Više resursa, otvoreni kod i veća posvećenost
Prema riječima ljudi upoznatih s inicijativom, TorchTPU nije samo još jedan sporedni eksperiment. Za razliku od nekih ranijih pokušaja da se PyTorch pokrene na TPU-ovima, Google je sada dodijelio više organizacijske pažnje, budžeta i strateškog značaja ovom naporu, tretirajući ga kao centralni stub svoje mape puta za infrastrukturu umjetne inteligencije, a ne kao nišni projekat kompatibilnosti.
Jedan od najznačajnijih elemenata koji se razmatraju je dijelovi softverskog paketa otvorenog koda iza TorchTPU-a. Objavljivanjem ključnih komponenti zajednici, Google se nada ubrzati usvajanje, privući vanjske saradnike i izgraditi povjerenje među velikim kupcima koji žele transparentnost i dugoročnu stabilnost u svojim AI platformama.
Ovaj otvoreniji stav također ima za cilj uvjeriti kompanije koje su smatrale da je podrška za TPU previše povezana s internim načinom rada Googlea. Davanje vanjskim programerima prilike da pregledaju, prošire i otklone greške u TorchTPU komponentama moglo bi... TPU-ovi se manje osjećaju kao vlasničko ostrvo i više kao građanin prvog reda u širem PyTorch ekosistemu.
Za preduzeća, ovo je važno na praktičan način. Ako TorchTPU uspije, mogao bi značajno... smanjiti troškove migracije sa Nvidia GPU-ova na Google TPU-ove, što olakšava diverzifikaciju računarske infrastrukture bez upuštanja u višegodišnje prepisivanje softvera.
Korisnici su više puta rekli Googleu da je historijski zahtjev za prelazak na Jax bio glavni odvraćajući faktor. PyTorch već dominira među programerima umjetne inteligencije, a na brzorastućim tržištima, malo organizacija je spremno pauzirati razvoj proizvoda dok njihovi timovi... preurediti oko novog okvira samo da bi pristupili alternativnom hardveru.
Od internog hardvera do široke ponude za preduzeća
Dugo vremena, Alphabet je zadržao većinu svog TPU kapaciteta za interna upotreba unutar Googlea, pokrećući pretragu, prevođenje, sisteme preporuka i rana istraživanja umjetne inteligencije. Taj stav je počeo da se mijenja 2022. godine, kada je odjel za računarstvo u oblaku dobio veća ovlaštenja nad načinom na koji se TPU-ovi proizvode i prodaju.
Od tada, dostupnost TPU-ova putem Google Cloud je znatno porastaoKako se interes preduzeća za vještačku inteligenciju ubrzao, Google je pozicionirao svoje čipove kao način da kupci iskoriste vrhunsko računarstvo bez potrebe za upravljanjem vlastitim čvrsto povezanim GPU klasterima.
Nedavno je Google otišao korak dalje direktna prodaja TPU-ova za implementaciju u vlastitim podatkovnim centrima kupaca, ne samo putem svog javnog oblaka. Ta promjena omogućava većim organizacijama sa strogim regulatornim ili latentnim zahtjevima da integriraju TPU-ove u svoju lokalnu infrastrukturu, a da i dalje imaju koristi od Googleovog plana za hardver.
Ovo širenje također mijenja interne prioritete Googlea. Kompaniji su potrebni TPU kapaciteti i za pokreće vlastite AI proizvode— od Gemini chatbota do funkcija pretraživanja pokretanih umjetnom inteligencijom — i za pružanje usluga vanjskim korisnicima Google Clouda, uključujući poznate tvrtke za umjetnu inteligenciju poput Anthropica koje se oslanjaju na iznajmljeni TPU kapacitet.
Da bi sve ovo koordinirao, Google je podigao vodstvo u infrastrukturi umjetne inteligencije: iskusni rukovodilac Amin Vahdat imenovan je za šefa AI infrastrukture i sada direktno odgovara izvršnom direktoru. Sundar PichaiTa linija izvještavanja naglašava koliko je hardverski i softverski paket postao centralan za šire ambicije Googlea u oblasti umjetne inteligencije.
Partnerstvo s Meta-om za jačanje PyTorcha na TPU-ovima
Google ne traži TorchTPU sam. Prema riječima ljudi upoznatih s pregovorima, kompanija blisko sarađuje s Meta, kreator i upravitelj PyTorcha, kako bi se ubrzala podrška za TPU-ove i uskladili tehnički smjerovi koji koriste oba partnera.
Razgovori između kompanija uključuju aranžmane koji bi dali Meti pristup većem TPU kapacitetuRaniji prijedlozi su navodno ovo definirali kao upravljane usluge: Google bi implementirao svoje čipove u okruženjima gdje bi Meta mogla pokretati vlastiti softver i modele, a Google bi se bavio većim dijelom operativnih troškova.
Za Metu je strateški važno da PyTorch efikasno radi na širem spektru hardvera. Kompanija ima jasan podsticaj da... smanjiti troškove zaključivanja i diverzificirati se od isključivog oslanjanja na Nvidia GPU-ove, kako bi smanjila vlastitu potrošnju i ojačala svoju pregovaračku poziciju prilikom pregovaranja o budućim kupovinama čipova.
Saradnjom sa Googleom, Meta može pomoći da PyTorch ostane hardverski agnostičan i široko optimiziran, umjesto da se smatra čvrsto vezanim za ekosistem jednog dobavljača. To, zauzvrat, jača status PyTorcha kao standarda zajednice i održava okvir privlačnim i za istraživače i za preduzeća.
Meta je do sada odbijao javno komentarisati ove konkretne aranžmane, ali usklađenost interesa je jasnaGigant društvenih medija i umjetne inteligencije želi opcije izvan Nvidije, dok Google želi da PyTorch bude izvorni na njihovim TPU-ima kako bi ih više kupaca bilo spremno isprobati.
Smanjenje Nvidijine CUDA prednosti
Nvidijina dominacija u AI ne ogleda se samo u isporuci moćnih GPU-ova. Tokom mnogo godina, kompanija je izgradila opsežan softverski paket – zasnovan na – koji je duboko integriran u okvire poput PyTorcha. Ova kombinacija hardvera i softvera postala je standardna platforma za obuku i zaključivanje za najsavremenije AI modele.
Zbog te bliske integracije, mnoge organizacije vide Udaljavanje od Nvidije smatra se rizičnim i skupimKodne baze, tokovi rada i stručnost osoblja su podešeni za CUDA-u, što alternativne čipove čini potencijalnim izvorom trenja čak i ako na papiru obećavaju bolje cijene ili performanse.
Googleov TorchTPU napor je direktan pokušaj da se umanji ta prednost. Ako PyTorch može raditi na TPU-ima sa sličnim nivoom lakoće i podešavanja performansi kao na Nvidia GPU-ima, preduzeća dobijaju... kredibilna alternativa za velika AI opterećenjaNa tržištu gdje potražnja za AI računarstvom eksplodira, a ograničenja ponude su uobičajena, imati još jednu ozbiljnu opciju moglo bi biti vrlo atraktivno.
Istovremeno, Googleova odluka da razmotri otvoreni kod ključnih dijelova TorchTPU paketa signalizira drugačiji pristup od Nvidijinog vertikalno integriranog stila. Dijeljenjem većeg dijela osnovnog softvera, Google ima za cilj... izgraditi povjerenje među programerima koji cijene transparentnost i prenosivost.
Ništa od ovoga ne garantuje da će TPU-ovi zamijeniti GPU-ove, ali mijenja računicu. Umjesto da biraju između zrelog Nvidijinog ekosistema i alternative koja zahtijeva potpunu migraciju alata, kupci bi mogli razmotriti... performanse, cijena i dostupnost dok ostajete unutar poznatog PyTorch okruženja.
U cloud i lokalnim implementacijama, ta promjena bi mogla organizacijama olakšati kombinirajte dobavljače hardvera tokom vremena, umjesto da po zadanim postavkama zaključaju svoje mape puta za vještačku inteligenciju za jednog dobavljača.
Kako Google produbljuje svoju posvećenost PyTorchu kroz TorchTPU, povećava pristup TPU-ovima za preduzeća i jača saradnju sa Metom, konkurentno okruženje oko infrastrukture umjetne inteligencije postaje sve fluidniji. Nvidijina prednost, izgrađena na godinama hardvera i CUDA integracije, je i dalje značajna, ali kupci sada vide realnije puteve za diverzifikaciju mjesta gdje se izvršavaju njihova AI opterećenja i koliko plaćaju za osnovno računanje.
