
“Yapay zeka donanımı ve altyapı” araması yapan pek çok kişi aynı soruya takılıyor: GPU mu, TPU mu, edge mi, yoksa dağıtık eğitim mi? Bu sorunun tek bir doğru cevabı yok; çünkü doğru seçim iş yüküne (model türü, veri boyutu, gecikme hedefi, güvenlik/uyum gereksinimleri) ve bütçe modelinize (CapEx/OpEx, ekip yetkinliği, tedarik hızı) bağlı.
Bu yazı, terimleri netleştirir, bütçe planlarken gözden kaçan kalemleri listeler ve “denemeden satın alma” riskini azaltmak için pratik bir karar akışı verir. Resmi dokümantasyon ve endüstri benchmark’larına dayalı genel ilkeleri kullanır; fiyat ve performans rakamları tedarikçiye, bölgeye ve konfigürasyona göre değiştiği için burada sayısal vaatler yerine yöntem sunar.
GPU, paralel hesaplama için tasarlanmış genel amaçlı bir hızlandırıcıdır. Derin öğrenmede yaygın olmasının nedeni; olgun yazılım ekosistemi ve farklı model tiplerinde esnek çalışabilmesidir. Veri merkezi GPU’ları, eğitim (training) ve çıkarım (inference) için güçlü seçeneklerdir. NVIDIA’nın H100 gibi veri merkezi GPU’larında çoklu örnekleme (MIG gibi) ve veri merkezi kullanımına yönelik özellikler bulunur (ayrıntılar için: NVIDIA H100 MIG dokümantasyonu).
TPU, tensör işlemlerini hızlandırmak için tasarlanmış bir ASIC ailesidir. Google Cloud üzerinde “Cloud TPU” olarak sağlanır ve belirli eğitim/çalıştırma senaryolarında verimlilik hedefler (bkz. Google Cloud TPU dokümantasyonu). Pratikte TPU seçimi; kullandığınız framework/derleyici akışı, model mimarisi ve ekibinizin operasyon alışkanlıklarıyla yakından ilişkilidir.
Edge AI, modelin bulutta değil cihaz üzerinde (telefon, kamera, IoT cihazı, endüstriyel PC vb.) çalıştırılmasıdır. Amaç genellikle düşük gecikme, bağlantı bağımsızlığı ve verinin yerinde kalmasıdır. Bunun karşılığında model boyutu, hassasiyet (quantization) ve donanım/çerçeve uyumluluğu kısıtları daha belirgin olabilir.
MLPerf gibi benchmark’lar, edge ve veri merkezi senaryolarında performans/enerji gibi ölçümlere dair tekrar üretilebilir bir referans noktası sunar (bkz. MLPerf Inference v5.0 sonuçları). Önemli uyarı: Benchmark sonuçları; model, precision (örn. FP16/INT8), batch size, derleyici/çalışma zamanı ve sunum (submission) ayarlarına çok duyarlıdır. Bu nedenle yalnızca benzer konfigürasyonları kıyaslayın ve nihai karar için kendi iş yükünüzle PoC çalıştırın.
Tek bir cihaz/tek bir sunucu yerine birden çok GPU/TPU düğümüyle eğitimi ölçeklemektir. Dağıtık eğitim performansı yalnızca hızlandırıcıya değil; ağ altyapısına, paralellik stratejisine ve yazılım optimizasyonlarına da bağlıdır. DeepSpeed gibi araçlar; bellek verimliliği (ZeRO) ve paralellik yaklaşımlarıyla büyük modelleri daha az kaynakla eğitmeye yardımcı olur (bkz. DeepSpeed Getting Started).
Doğru soru şudur: Benim iş yükümde, benim kısıtlarımla en iyi toplam sonucu (maliyet + hız + risk) hangisi verir? MLPerf gibi benchmark’lar, farklı donanımların farklı senaryolarda farklı sonuçlar üretebildiğini gösterir; bu nedenle kendi iş yükünüze yakın bir test planlamak en güvenli yaklaşımdır (bkz. MLPerf Inference v5.0).
| Seçenek | Ne zaman mantıklı? | Dikkat edilmesi gerekenler |
|---|---|---|
| GPU (veri merkezi) | Genel amaçlı eğitim/çıkarım, farklı model türleri, geniş araç ekosistemi | Bulut maliyetleri hızla büyüyebilir; çoklu GPU’da ağ/iletişim kritik olur |
| TPU (bulut) | TPU akışına iyi oturan tensör iş yükleri, yönetilen altyapı tercih edildiğinde | Framework/derleyici uyumu, taşınabilirlik ve ekip deneyimi belirleyici |
| Edge (cihaz üzerinde) | Düşük gecikme, bağlantı kısıtı, verinin cihazda kalması gereken senaryolar | Model boyutu, quantization, cihaz çeşitliliği, güncelleme/izleme zorlukları |
| Dağıtık eğitim | Tek düğüme sığmayan modeller veya hızlandırma ihtiyacı | Ağ topolojisi, paralellik stratejisi, yazılım optimizasyonu ve hata ayıklama maliyeti |
AI altyapısı bütçesi çoğu kurumda iki ana kutuya ayrılır:
Genel ilke: Bulut, başlangıç bariyerini düşürür ve hızlı deneme sağlar; ancak sürekli ve yüksek hacimli işlerde OpEx birikebilir. Tersi yönde, on-prem yatırım daha çok ön maliyet ister; fakat uzun vadede kullanım sabitse avantajlı olabilir. Net karar için kendi kullanım profilinizle TCO çalışması yapmak gerekir.
Çıkarım maliyetini “tek birim”e indirgemek, karar vermeyi kolaylaştırır. Birim tanımı senaryoya göre değişir:
Bu maliyeti etkileyen başlıklar:
Bir modeli daha çok hızlandırıcıyla ölçeklemek “doğrusal hızlanma” sağlamayabilir. Bunun nedeni, cihazlar arası iletişim ve senkronizasyon maliyetidir. Bu yüzden dağıtık eğitim bütçesinde aşağıdakiler birlikte düşünülür:
DeepSpeed gibi çözümler, özellikle büyük modellerde bellek kullanımını azaltmaya odaklanır. ZeRO yaklaşımı; optimizer state/gradient gibi bileşenleri daha verimli yönetmeye yardımcı olur (bkz. DeepSpeed dokümantasyonu). Bu tip optimizasyonlar, satın almanız veya kiralamanız gereken toplam hızlandırıcı sayısını etkileyebileceği için doğrudan bütçe konusudur.
Dağıtık eğitimde ağ bant genişliği ve gecikme, ölçek verimliliğini belirler. Bu nedenle karar verirken şu soruları sorun:
GPU’lar genellikle “tek donanımla çok iş” ihtiyacında güçlüdür. Özellikle kurum içinde farklı ekiplerin farklı modelleri denediği eğitim ortamlarında esneklik değer yaratır. Bazı veri merkezi GPU’larında, tek bir fiziksel GPU’yu birden çok bağımsız örneğe bölmeye yarayan yaklaşımlar bulunur (ör. MIG). Bu, aynı donanım üzerinde farklı iş yüklerini daha kontrollü paylaştırmaya yardımcı olabilir (bkz. NVIDIA H100 MIG).
TPU, Google Cloud’un sağladığı bir hızlandırıcı seçeneğidir ve dokümantasyonda çeşitli kullanım modelleri ve konfigürasyonlar anlatılır (bkz. Cloud TPU docs). TPU’nun avantajları; bazı iş yüklerinde verimlilik ve yönetilen ortam hedefleriyle ilişkilendirilir. Ancak pratikte başarı; modelinizin TPU akışına ne kadar iyi oturduğu ve ekibin debug/izleme sürecini ne kadar iyi yönettiğiyle belirlenir.
MLPerf sonuçları, donanımlar arası kıyas için değerli bir başlangıçtır; fakat konfigürasyon, hassasiyet, batch ve yazılım yığını sonuçları belirgin biçimde etkiler. Bu yüzden sonuçları “nihai hüküm” yerine kendi PoC planınızı şekillendiren işaretler olarak kullanın (bkz. MLPerf Inference v5.0).
Edge senaryolarında hızlandırıcı maliyeti sadece başlangıçtır. Asıl soru şudur: Modeli binlerce cihaza nasıl güvenli dağıtacak, izleyecek ve güncelleyeceksiniz?
Bağlantı kesintisi kabul edilemiyorsa, gecikme çok kritikse veya verinin cihazdan çıkmaması gerekiyorsa edge ağır basar. Diğer durumlarda bulut çıkarımı, operasyonel kolaylık ve daha hızlı iterasyon sunabilir. Net karar için pilot test yapın ve birim maliyetinizi ölçün.
“GPU vs TPU” gibi kararlar, kısa bir PoC ile çok daha sağlıklı hale gelir. Aşağıdaki planı küçük bir ekiple 1–2 haftada uygulayabilirsiniz:
Bu çıktılar, satın alma ya da uzun vadeli rezervasyon gibi büyük kararları daha az belirsizlikle vermenizi sağlar.
GPU, TPU, edge ve dağıtık eğitim; birbirinin alternatifi olduğu kadar çoğu zaman birbirini tamamlayan seçeneklerdir. En doğru yaklaşım, önce iş yükünü ve başarı metriğini netleştirmek; sonra MLPerf gibi genel benchmark’lardan yön alıp kendi PoC’nizle doğrulamaktır (bkz. MLPerf). Dağıtık eğitimde yazılım optimizasyonlarının ve ağ altyapısının maliyete etkisini özellikle ciddiye alın (bkz. DeepSpeed).
Bir sonraki adım olarak, kurumunuzun hedef modeli ve trafik profilini (eğitim sıklığı + günlük çıkarım hacmi) çıkarıp yukarıdaki PoC planını uygulayın. Sonra CapEx/OpEx seçeneklerini, aynı ölçüm metodolojisiyle kıyaslayın.
Yorumlar