Jobset: Kubernetes'e dağıtılan ML ve HPC uygulamaları için yeni API

Saberie

Active member
Kubernetes ve toplu işleme yükleri için sistemi temel olarak dağıtılmış otomatik öğrenme modelinin ve yüksek hızlı bilgisayarların oluşumu için uygundur. Özellikle sınırlı bellek karşısında çeşitli ana bilgisayarlarda GPU ve TPU'ya dağıtılması gereken büyük modeller (LLM) gibi daha büyük hesaplama görevleri, Kubernetes'teki konteyner kullanımından yararlanın. Bununla birlikte, pratikte, işin çalışması veya Kubeflow operatörü gibi uygulamalar hala baklalar, farklı baklalar ve çalışma grupları arasındaki iletişim gibi bazı yapılandırma seçeneklerinden yoksundur. Yeni açık kaynaklı API işleri seti artık dağıtılmış işlerin sunumuna farklı bir yaklaşım sağlamalıdır.

Jobset işini koyar ve onları genişletir


İş çalışmalarına dayanarak, Jobset bir grup Kubernetes işi olarak modellenmiştir. Bu, bir lider, işçi vb. Olarak farklı bölmeler grupları atama fırsatı açar. Bireysel alanlardaki bölmeler arasındaki iletişim için Jobset, yaşam döngüsünün otomatik yapılandırmasını ve yönetimini garanti eden başsız bir hizmet sunar.







Kubernetes için yeni açık kaynak API çalışma seti kavramı.


(Resim: kubnettes.io)



Jobset ayrıca, işlerin çocukların bir topoloji alanındaki çocuklar için açıkça iş atamasına izin verir, örneğin özel donanım hızlandırıcı alanlarından biri. Diğer şeylerin yanı sıra, dağıtılmış veriler gibi ML modelleri için bazı eğitim yöntemleri, yüksek hızlı hızlandırıcı alanı için modelin yalnızca bir kopyasının gerçekleştirildiği ve kopyaların sadece en yavaş çapraz cross ağından yapıldığı paralel (DDP) uygulanabilir.

Ayrıca, Jobset başarılı yapılandırılabilir yönergeler ve hatalar sunar. Örneğin, geliştiriciler bir hata sonra bir çalışma setinin yeniden başlatılması sıklığını belirleyen bir politika tanımlayabilir. Bir iş arıza olarak işaretlenirse, söz konusu iş yükünün son test noktasından alınabilmesi için tüm çalışma seti oluşturulacaktır.

Jobset'in uygulaması spektrumu ve şimdiye kadar mevcut olan en önemli şey Kubornetes bloguna katkı. ML JAX çerçevesi ile dağıtılan bir ML eğitim örneği kullanarak, yazarlar ayrıca Jobset'in TPU çok dilimsel bir iş yükü için nasıl yapılandırılabileceğini gösteriyor. API geliştirme ekibi, gelecekte Jobset'in yol haritasına genel bakışta bulunabilecek daha fazla işlev eklemek istiyor.




(harita)
 
Üst