Mistral 7B: Eski Google ve Meta Çalışanları Llama 2 ile Yarışıyor

Saberie

Active member


  1. Mistral 7B: Eski Google ve Meta Çalışanları Llama 2 ile Yarışıyor

Mistral 7B, 7,3 milyar parametrelik nispeten küçük boyutuna rağmen, çok sayıda testte daha büyük modelleri geçmeyi başaran yeni bir Büyük Dil Modelidir (LLM). Tamamen açık kaynaktır ve Apache 2.0 lisansı ile lisanslanmıştır. Fransız start-up Mistral AI geliştiricisi, bu yılın haziran ayında 113 milyon dolar daha sermaye toplayarak yapay zeka sahnesinde ses getirdi. Şirket, risk sermayedarı Innovation Endeavors’ın kurucusu eski Google CEO’su Eric Schmidt gibi tanınmış yatırımcılar tarafından destekleniyor. Daha önce bilinmeyen Mistral AI şirketinin arkasındaki çekirdek geliştiriciler, Google’ın DeepMind ve Meta laboratuvarlarından geliyor. Şirketin 260 milyon dolarlık değerlemesine rağmen model şu anda herkesin dilinde.

Duyuru








Danny Gerst 30 yıldır yazılım geliştirme ve danışmanlık alanında çalışıyor. Orta ölçekli şirketler için stratejik danışman ve vizyoner olarak, kurallara dayalı sistemleri yapay zeka çağına kadar takip etti.







Model mimarisi bunu yapabilir


Mistral 7B 7,3 milyar parametreye sahiptir ve bu nedenle en küçük modellerden biridir. Ücretsiz lisans, daha az açık olan Llama2 ve Falcon modellerine kıyasla onu ilginç kılıyor. Geliştiriciler ayrıca modelin talimatlara özel olarak uyarlanmış bir versiyonunu da yayınladılar. Mistral 7B modelinin mimarisi için araştırmacılar iki özel teknik kullandılar. Uzun dizilerin verimli şekilde işlenmesi için hızlandırılmış çıkarım ve kayan pencere odağı (SWA) için gruplandırılmış sorgu odağı (GQA).

GQA, Çoklu Sorgu Dikkatinin (MQA) daha da geliştirilmiş halidir. MQA, modeldeki dikkat hesaplamasını hızlandırır, ancak çoğu zaman kalite kaybı olur. Kalitenin arttırıldığı ve daha fazla kafanın dikkatini çekmeye çok yakın olduğu burada GQA kullanılıyor. Bu, Mistral 7B gibi modellerin çıktı kalitesinden önemli ödünler vermek zorunda kalmadan daha verimli olmasını sağlar. SWA, evrişimli sinir ağlarına (CNN) benzer bir tekniktir. Bu, her şeye aynı anda bakmak yerine sabit boyutlu bir pencereyi veriler üzerinde kaydırmayı içerir. Bu pencereleri üst üste koyarsanız, üstteki pencere girdinin tamamını görebilir. Bu teknik, modelin uzun giriş dizilerini daha iyi işlemesine olanak tanır çünkü bellek tüketimi ikinci dereceden ziyade yalnızca doğrusal olarak artar.

Mistral 7B şu ana kadar yalnızca İngilizce dilini ve kod oluşturmayı destekliyor, ancak 8k bağlam penceresi bu sınıftaki modeller için oldukça büyük. Model hızıyla öne çıkıyor ve geliştiricilere göre özetleme, sınıflandırma, metin ve kod tamamlama için ideal. Ayrıca Mistral 7B, kullanıcıya özel kullanım durumları için kolaylıkla ayarlanabilir.

Performans: Mistral 7B rekabeti karşılıyor


Geliştiricilere göre Mistral 7B, bazı kıyaslamalarda iki kat daha büyük model Llama 2 13B ve Llama 1 34B’den daha iyi performans göstermeyi başardı: öncekini tüm parametrelerde önemli ölçüde aşıyor ve Llama 1 34B ile benzer seviyede. Ancak bu tür karşılaştırmalar kolaylıkla manipüle edilebileceği için her zaman dikkatle ele alınmalıdır. Standfort Üniversitesi’nde doktora öğrencisi olan Rylan Schaeffer, bir eleştirisinde, tüm kıyaslamalarda tüm yapay zeka modellerini geride bırakan bir milyon parametreli bir model eğitti.








(Resim: Mistral AI)



Bu nedenle yapay zeka modellerini gerçek koşullarda test etmek mantıklıdır. Örneğin sohbet alanı böyle gerçekçi bir testtir. Farklı modeller kör bir testle karşılaştırılıyor ve performansları ELO derecelendirmesine göre değerlendiriliyor. Bireysel modellerin göreceli gücünü değerlendirmenize olanak tanır ve satrançta oyuncu performansını değerlendirmek için de kullanılır. Mistral’in mükemmelleştirilmiş versiyonu Chat Arena sıralamasında doğrudan 14. sıraya yükseldi.

LLM Boxing platformunda Mistral 7B ve Llama 2 13B arasında heyecan verici bir kafa kafaya rekabeti deneyimlemek mümkün. Burada uygulanan karşılaştırma formatında, GPT-4 tarafından oluşturulan ve her iki modelin de cevabını verdiği bir soru sorulmaktadır. Platformun ziyaretçisi daha sonra kendisine en uygun cevabı seçebiliyor. Boks maçına benzer şekilde tepkisi pek hoş karşılanmayan model sembolik bir darbe alıyor. Bir model beş isabet almışsa elenir ve kazanan model seçilir. Bu etkileşimli format, Mistral 7B’nin performansını LLama 2 13B ile doğrudan karşılaştırmanın eğlenceli ama net bir yolunu sağlar.

Moderasyon ve şeffaflık: Mistral 7B’de bu eksik


Açık yaklaşıma rağmen, kesin eğitim yöntemi veya kullanılan veri kümesiyle ilgili ayrıntılar belirsizdir. Bu kararın arkasında spekülatif hukuki nedenler var. Böyle bir performansa ulaşmak için muhtemelen şirket içi bir geliştirme olan yüksek kaliteli bir veri kümesi kullanmanız gerekir. Ancak optimize edilmiş öğretim modeli için halka açık veri kümeleri kullanıldı.

Model sansürlenmez, dolayısıyla ChatGPT’den farklı olarak modelin kullanıcı için hangi çıktıyı ürettiği ve hangi argümanlardan kaçındığı konusunda herhangi bir yönergeye uymaz. Bir modeli belirli ifadeler veya değerlerle uyumlu hale getirmenin model performansını etkileyebileceğine dair kanıtlar vardır. Mistral AI’nın denetleme uygulamama kararı bu nedenle model performansını en üst düzeye çıkarmaya yönelik stratejik bir hareket olarak görülebilir. Sonuçta burada iki taraf var: Bir tarafta yapay zeka bir araç ve onu nasıl kullanacaklarına insanların karar vermesi gerekiyor. Öte yandan, belirli bir düzeyde ılımlılık, etik kurallara veya yasal gerekliliklere uymanıza yardımcı olabilir.

Mistral’ın yolculuğu yeni başladı


Mistral 7B’nin piyasaya sürülmesiyle Mistral AI, yapay zeka dünyasında etkileyici bir başlangıç yaptı. Model, yalnızca performansıyla değil, aynı zamanda açıklığı ve yenilikçi teknikleri kullanması nedeniyle de heyecan yarattı. Mistral AI’nin açık kaynağa odaklanması, yalnızca AI modellerinin daha fazla ürüne entegre edilmesini kolaylaştırmakla kalmayıp, aynı zamanda sektöre Llama 2 ve Falcon’da kullanılan karmaşık yarı açık lisanslardan uzaklaşması için bir sinyal de gönderebilir. Mistral 7B, Mistral AI’nın hedeflerini anlatan bir teaser modeli olarak görülmelidir. Geliştiriciler zaten genişletilmiş işlevselliğe ve daha geniş dil desteğine sahip daha büyük modeller vaat etti.

Kullanıcı X abhi1thakur, Google Colab’da örnek bir ayarlama rutini yayınladı. Mistral modelleri Hugging Face’te bulunabilir, daha fazla bilgiyi modelle ilgili blog yazısında bulabilirsiniz.


(şşş)



Haberin Sonu
 
Üst