Google TPU 8t ve 8i Tanıtıldı: Eğitim ve Çıkarım İçin Ayrı Yapay Zeka Çipleri Dönemi Başladı

Google, Las Vegas’ta düzenlenen Cloud Next 2026 konferansında yapay zeka altyapısında yeni bir sayfa açtı. Şirket, sekizinci nesil Tensör İşlem Birimleri’ni Google TPU 8t ve 8i adıyla iki ayrı ürün olarak tanıtırken, eğitim ve çıkarım süreçlerini tek bir çipin sınırlarından kurtarmayı hedefliyor. Bu hamle, bulut bilişim tarafında yıllardır süregelen “her işe uyan tek çip” anlayışını rafa kaldırmış görünüyor.

Bir Modeli Eğitmek Başka, Çalıştırmak Başka

Yapay zeka dünyasında iş yükleri giderek kutuplaşıyor. Bir modeli sıfırdan eğitmek devasa hesaplama gücü ve çipler arası kesintisiz veri akışı isterken, aynı modeli son kullanıcıya hizmet verir hale getirmek düşük gecikme süresi ve yüksek bellek kapasitesi talep ediyor. HFS Research analisti Phil Fersht, müşterilerin artık model yaşam döngüsünün her aşaması için ayrı bir fiyat‑performans eğrisi talep ettiğini söylüyor. Yani kimse sadece çıkarım yapmak için eğitim seviyesinde pahalı donanımlara para ödemek istemiyor. Google da tam olarak bu noktaya parmak basıyor.

TPU 8t ile Ham Güç Masaya Konuyor

Eğitim için geliştirilen TPU 8t, selefi Ironwood ile kıyaslandığında pod başına yaklaşık üç kat daha fazla işlem performansı sunuyor. 9.600 çipi bir araya getiren tek bir süper pod, 121 exaflopluk FP4 işlem gücüne ulaşıyor ve 2 petabaytlık paylaşımlı bellekle besleniyor. Çipler arası çift yönlü bant genişliği saniyede 19.2 Tbps seviyesine çıkarılırken, raflar arası ağ bant genişliği dört kat artırılarak 400 Gbps’ye taşınıyor. Mühendisler ayrıca SparseCore adında yeni bir hızlandırıcı birimi devreye aldı. Bu birim, büyük dil modellerindeki dağınık bellek erişim desenlerini düzenleyerek çipin boş yere beklemesini engelliyor ve teorik verimlilik oranını yüzde 97’nin üzerine çıkarıyor.

TPU 8i Bellek ve Hız Odaklı Tasarlanıyor

Çıkarım odaklı TPU 8i ise tamamen farklı bir tasarım önceliğiyle geliyor. Çip üzerindeki SRAM miktarı 384 MB’a yükseltilirken, 288 GB yüksek bant genişlikli bellek ile aktif model verilerinin işlemciye olabildiğince yakın kalması sağlanıyor. Bu tercih, özellikle Mixture of Experts (MoE) ve uzun bağlamlı modeller gibi günümüzün popüler yaklaşımlarında gecikme süresini ciddi oranda kısaltıyor. Yeni Boardfly ağ topolojisi ve iki katına çıkarılan çipler arası bağlantı hızı sayesinde, Ironwood’a kıyasla dolar başına yüzde 80 daha fazla performans elde ediliyor. Başka bir deyişle aynı paraya neredeyse iki kat fazla kullanıcıya hizmet vermek mümkün hale geliyor.

Rakipler de Benzer Yolda İlerliyor

Google’ın bu iki kollu stratejisi, sektördeki diğer oyuncuların attığı adımlarla da örtüşüyor. AWS, Trainium ve Inferentia ailesiyle eğitim ve çıkarım iş yüklerini uzun süredir birbirinden ayırıyor. HyperFRAME Research analisti Stephen Sopko, bu ayrışmanın artık bir tercih değil zorunluluk haline geldiğini belirtiyor. Büyük model sağlayıcıları OpenAI ve Anthropic gibi şirketler de eğitim ve servis altyapılarını ayrı ayrı yöneterek kaynak kullanımını daha verimli kılabiliyor. TrendForce analisti Fion Chiu ise özellikle maliyet avantajı sayesinde işletmelerin büyük modelleri daha düşük bütçelerle devreye alabileceğine dikkat çekiyor.

Enerji Verimliliği ve Yayın Takvimi

Yeni nesil TPU ailesi yalnızca ham performansı değil, enerji tarafındaki dengeyi de iyileştiriyor. Açıklanan rakamlara göre watt başına performans iki kat artırılmış durumda. Çipler aynı zamanda Google’ın kendi tasarımı olan Axion ARM tabanlı CPU’larla daha sıkı entegre çalışıyor. Bu entegrasyon, veri merkezlerinde daha dengeli bir sistem mimarisi yaratırken toplam sahip olma maliyetini aşağı çekiyor. Google, TPU 8t ve 8i modellerini bu yılın ilerleyen aylarında AI Hypercomputer platformunun bir parçası olarak genel kullanıma sunacağını duyurdu. hedefbilgitoplumu.com