Teknoloji

Alibaba, yeni Aegaeon sistemiyle Nvidia GPU’larına ihtiyacı %82 azalttığını duyurdu

Yapay zeka yarışında son yıllarda en kritik darboğazlardan biri de GPU erişimi oldu. Büyük dil modellerinin eğitimi ve çalıştırılması için gereken devasa hesaplama gücü, dev veri merkezlerinin kurulmasını ve gelişmiş GPU’larla donatılmasını gerektiriyor. Bu noktada da devreye Nvidia’nın GPU’ları giriyor. Ne var ki bu GPU’lara erişim giderek zorlaşıyor; Özellikle de Çin için.

Bildiğiniz gibi ABD ile Çin arasındaki ticaret ve teknoloji savaşı, Çin pazarının Nvidia’ya tamamen kapanmasıyla sonuçlandı. Bu da Çin’i alternatif arayışına itti. Başta Huawei olmak üzere, Çin’den pek çok şirket kendi yerel alternatifleri üzerinde çalışıyor. Ancak bu çözüm sadece “yerli” GPU’lar üretmekle sınırlı kalmayacak gibi görünüyor. Bununla birlikte, veri merkezlerinin GPU ihtiyacını azaltacak yeni sistemler de ortaya çıkmaya başlıyor. Veri merkezleri konusunda Çin’in bir numaralı dayanağı olma konusunda emin adımlarla ilerleyen Alibaba, Nvidia’nın GPU’larına olan ihtiyacı kayda değer ölçüde azaltabilecek yeni bir sistem geliştirdi.

Özellikle yoğun eş zamanlı sorgu yükü altında çalışan yapay zeka servislerinde, bu kaynakların önemli bir kısmı atıl şekilde bekliyor. Alibaba tarafından geliştirilen Aegaeon adlı sistem, bu sorunun köküne inerek tabloyu değiştirebilecek çarpıcı bir çözüm ortaya koyuyor.

Aegaeon, Tek Bir GPU’da Yedi Farklı LLM Çalıştırabiliyor

Alibaba, Güney Kore’de düzenlenen SOSPetkinliğinde tanıttığı “Aegaeon” GPU havuzlama sistemi ile model çalıştırma süreçlerinde GPU ihtiyacını %82 oranında düşürdüğünü açıkladı. Üç ay süren beta testlerinde, Alibaba Cloud pazarındaki onlarca büyük dil modeline hizmet verirken kullanılan Nvidia H20 GPU sayısı 1.192’den yalnızca 213’e indirildi. Üstelik bu sırada 72 milyar parametreye kadar ölçeklenen modeller eş zamanlı olarak çalıştırıldı. Şirketin verdiği bilgilere göre Aegaeon, tek bir GPU’nun aynı anda yedi farklı LLM’i çalıştırmasına olanak tanıyor ve model geçiş gecikmesini %97 oranında azaltıyor.

Alibaba’nın getirdiği yenilik, bulut tabanlı LLM servislerinin temel darboğazını hedef alıyor. Mevcut mimaride GPU’lar, “model başına kaynak” mantığıyla çalıştığı için her model kendi GPU’sunu kilitliyor. Bu da kullanım oranını dramatik biçimde düşürüyor. Alibaba’nın verilerine göre GPU’ların %17,7’si, yalnızca %1,35’lik sorgu trafiği için boşta bekliyor. Araştırma ekibi bu durumu, LLM hizmetlerindeki en büyük gizli maliyet kalemi olarak tanımlıyor.

Aegaeon’un farkı, GPU’yu modele değil üretilen tokene göre paylaştırması. Sistem, inference sürecini mikro iş parçalarına bölüp GPU çekirdeklerini gerçek zamanlı yeniden planlıyor. Böylece GPU, bir modelin token’ını üretirken aynı anda başka bir LLM için de token üretebiliyor. Alibaba Cloud CTO’su Zhou Jingren, Aegaeon’un sorgu çalışırken bile GPU görevlerini milisaniyeler içinde model değiştirerek yeniden tahsis edebildiğini belirtiyor.

Bu yaklaşım sayesinde tek GPU ile aynı anda birden fazla model çalışabiliyor. Bu da boştaki GPU döngülerinin neredeyse sıfırlanmasını sağlıyor.Sonuç olarak Aegaeon, GPU’ları çok kiracılı bir sistem gibi kullanarak verimliliği keskin şekilde artırıyor ve donanım ihtiyacını dramatik ölçüde azaltan teknik sıçramayı mümkün kılıyor.

Alibaba, Bailian adını taşıyan platformunda sistemin resmi olarak hizmete girdiğini doğruladı. Bailian, şirketlerin farklı yapay zekâ modellerini tek bir yerden seçip kullanabildiği bir altyapı sunuyor; tıpkı uygulama mağazasının yazılımlar için yaptığı gibi, bu platform da yapay zekâ modelleri için bir mağaza işlevi görüyor. Bu sistemin şimdiden devreye alınmış olması, yaşanan son gelişmeler ışığında GPU’sız kalabilecek Çin’in elini bir hayli rahatlatabilir.

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu