MosaicML, ticari kullanım için büyük bir açık kaynak dil modeli yayınladı

Saberie

Active member


  1. MosaicML, ticari kullanım için büyük bir açık kaynak dil modeli yayınladı

AI başlangıcı MosaicML, büyük dil modeli (LLM), MosaicML Pretrained Transformer’ı (MPT-7B) açık kaynak olarak piyasaya sürdü. Önceki modellerin aksine, MPT-7B ticari kullanım için tasarlanmıştır.


MosaicML, modeli İngilizce olarak bir trilyon metin ve kod belirteci ile 9,5 günde dahili platformunda eğittiğini iddia ediyor. Bu nedenle, yalnızca talep üzerine özel kişilere sunulan Metas LLaMA 7B ile aynı amaca hizmet eder.

MosaicML’ye göre MPT, hızlı eğitim ve çıkarım için optimize edilmiştir. Bunu yapmak için şirket, FlashAttention algoritmasını ve Nvidia’nın FasterTransformer kitaplığını kullanıyor. Ancak MPT modelleri, standart HuggingFace işlem hatları kullanılarak MosaicML tarafından geliştirilen bir çerçeve olan Foundry dışında da eğitilebilir.

65.000 jetonluk bağlam uzunluğu


MosaicML, MPT-7B temel modeline ek olarak farklı gereksinimlere göre uyarlanmış üç model yayınladı: MPT-7B Instruct, MPT-7B Chat ve MPT-7B StoryWriter. Instruct, Databricks’in Dolly talimat veri seti ve Anthrophics’in HH-RLHF’si (İnsan Geri Bildiriminden Güçlendirilmiş Öğrenim ile Yararlı ve Zararsız Bir Asistanın Eğitimi) kullanılarak basit talimatları yürütmek ve soruları yanıtlamak üzere eğitildi.




HuggingFace'te MPT-7 Instruct'ın demo versiyonu



HuggingFace’te MPT-7 Instruct’ın demo versiyonu


(Resim: MosaicML)



MPT-7B Chat, modelin sohbet versiyonudur. MosaicML bunları HH-RLHF, Vicuna-13B, Human ChatGPT Comparison Corpus (HC3), Alpaca ve Evol-Instruct veri kümeleriyle geliştirdi.


StoryWriter, 65.000 belirteç gibi çok geniş bir bağlam uzunluğuna sahip öyküleri okur ve yazar. GPT gibi diğer kalıplar daha kısa bağlam uzunluklarına sahiptir ve bu nedenle önceden oluşturulmuş içeriğe daha kısa süre başvurabilir. StoryWriter ALiBI (Doğrusal Önyargılı Dikkat), geniş kapsamlı bir bağlam elde etmeye yardımcı olur. MosaicML, modeli eğitmek için books3 veri kümesini kullandı.


İsterseniz tamamen bağımsız olarak veya MosaicML kontrol noktalarını temel alarak MPT modellerini kendi veri kümelerinizle eğitebilir ve kullanabilirsiniz. Daha fazla model eğitimi için MosaicML çerçevesi, Apache 2.0 lisansı altında ücretsiz olarak mevcuttur. MPT-7B temel modeli, StoryWriter, CC-By-SA-3.0 lisansı altında Instruct ve CC-By-NC-SA- altında ticari olmayan kullanım için Chat modeli gibi Apache 2.0 lisansı altında ücretsiz olarak mevcuttur. 4.0 lisansı.

Ticari kullanım lisansı tartışmalı


Bazıları StoryWriter’ın ticari kullanım için ücretsiz olarak sunulmasını eleştiriyor. “Modeli, 197.000 telif hakkıyla korunan kitap3 veri kümesine dayalı olarak optimize ederseniz, modeli ticari olarak yeniden lisanslama hakkınız olduğundan emin misiniz? Meta, telif hakkı yasasını bildiği için LLaMA’yı yeniden lisanslayamadı”, örneğin, Twitter kullanıcısı alexjc yazıyor.

MosaicML çerçevesi, Databricks’in Spark platformunu temel alır ve çeşitli makine öğrenimi algoritmaları sağlar. Ayrıca bir Jupyter Notebook veya bir JupyterLab örneği kullanarak model oluşturmayı da destekler.

AI modellerini eğitmek pahalıdır


Naveen Rao, 2020’de MosaicML’yi kurdu. Daha önce 2016’da kurduğu ve derin öğrenme konusunda uzmanlaştığı yapay zeka şirketi Nervana Systems’ı yaklaşık 408 milyon dolara Intel’e satmıştı. Daha küçük şirketlerin verilerini eğitmelerini sağlamak istedi.

Büyük yapay zeka modellerini eğitmek pahalı ve zaman alıcı olduğundan, Rao ve meslektaşları bulut tabanlı bir eğitim sistemi başlattı. Bu, farklı yöntemlerden oluşan bir “mozaik” aracılığıyla makine öğrenimini daha verimli hale getirmeyi ve böylece eğitimi hızlandırmayı amaçlamaktadır. Diğer şeylerin yanı sıra MosaicML, bulut altyapısı için bir hizmet sağlayıcı olarak hareket eder ve gerekirse Google Cloud, AWS ve ayrıca şirket içi mimarileri kullanır.

MosaicML bir blog gönderisinde “Nihai modelin kalitesi ile modeli eğitmenin süresi veya maliyeti arasındaki ödünleşimi optimize etmek için eğitim sürecini değiştiren yöntemler geliştiriyoruz” diyor. Şirket, sinir ağlarını daha hızlı ve daha ucuza eğitmeye yardımcı olması gereken açık kaynaklı bir “Composer” kitaplığında olası yöntemler sağlar.

“Gezgin” görselleştirme aracıyla, geliştiriciler model yürütmeyi simüle edebilmeli, haritalayabilmeli ve seçebilmelidir. Bunu yaparken Mosaic, yürütmek için gereken “maliyet, kalite ve zamanı” karşılaştırır.


(mak)



Haberin Sonu
 
Üst