Konferans Metas LLM Llamacon: Lama en yüksek köpeği takip ediyor

Saberie · 2 May 2025

Konferans Metas LLM Llamacon: Lama en yüksek köpeği takip ediyor

29 Nisan'da, ilk konferans hedefteki büyük Lama dili modellerinde yapıldı. İlgilenen taraflar, temel notların ve son etkinliğin kaydını inceleyebilir.

Sadece sonuçlarla ilgileniyorsanız, konferansa tam olarak bakmanız gerekmiyordu, çünkü bilgilendirme konferanstan önce Meta blogunda idi. Ayrıca Meta'nın planlanan akıl yürütme modelini açıklamadığını söylüyor. Eğer yönde bir şey arıyorsanız, örneğin Qwen3'e gidebilirsiniz.

Halkın mevcut içeriği açılış konuşması ile sınırlıdır, Mark Zuckerberg'in Fires, Databrks'ın başkanı ve kurucusu Ali Ghodsi ile Mark Zuckerberg ve Microsoft patronu Satya Nadella arasındaki tartışma ile sınırlıdır.

Lama 4 için açılış konuşması

Konferansın başlangıcı Meta'nın baş ürün sorumlusu Chris Cox'du. Dersi esas olarak Meta'nın en başından beri multimodal eğitimli yeni Llama 4 modellerine odaklandı. Bu aslında, esas olarak metne odaklanan Qwen3 veya GLM gibi diğer yeni modellere kıyasla farklılaşmanın bir özelliğidir. Cox'un küçük modellere veya akıl yürütme modellerine çok az yanıt vermediği anlaşılabilir: hedef henüz buna sahip değil.

Bu nedenle bazı reklamlarda Cox (ve daha sonra geliştirme meslektaşları) vardı. Şu andan itibaren Lama, farklı programlama dilleriyle kolayca karşılaşabilecek bir API için de mevcut. Opeeni arılarıyla uyumlu olduktan sonra, bunun için tüm araçları kullanabilir ve yalnızca URL'yi değiştirebilirsiniz. Ancak, bu eski bir şapka çünkü Lama.cpp, VLLM veya Sglang gibi serbestçe mevcut olan neredeyse tüm araçlar varsayılan olarak bu arayüzü sunar. Açıkçası bıçak modellerini de barındırabilirsiniz. Meta şimdi bir paket olarak bir araya getirdi.

Aslında, API daha da fazlasını sunuyor. Eğitim verilerinizi yüklemenize, hedefteki modelleri oluşturmak ve değiştirilmiş ağırlık ağırlıklarını indirmenize olanak tanır. Bu, OpenAai'den çok pratik ve çok daha açık. Burada da benzer bir şey sunan başka hizmetler de var ve sadece bıçak modelleriyle sınırlı değiller.

Yangın sohbeti

Zuckerberg ve Ghodsi arasındaki tartışma ilginçti. Ghodsi, dilsel modellerin birçok müşteri projesinde zaten kullanıldığını söyledi. Oldukça yüksek bağlam uzunluğuna sahip üretken modeller kullanabiliyorsanız (Lama'nın bağlamda on milyon jetona sahip olması) sorgulanabilir. Verimlilik ayrıca bu konuda önemli bir rol oynamaktadır ve modellerin ve vektör veri bankalarının entegrasyonu, birçok büyüklük sırasının üretken modellerinden daha üstündür. Ancak, bu konferansın tenoruna iyi adapte olmazdı.

Ancak Ghodsi'nin kendisi verimlilikten bahsetti ve daha küçük modeller istiyor. Zuckerberg, bu tür özelliklere sahip olduğu söylenen “küçük lama” iç projesinden bahsetti. Ghodsi tarafından da talep edilen Meta ve ajanların en yakın entegrasyonu, şu anda henüz hedef sunamaz. Bütün bunlar, konferanstan önceki akşam sunulan Alibaba Qwen3 modelleri tarafından çok daha iyi. Qwen kelimesinden kısaca yanda belirtildi.

30.000 katılımcı hala açılış konuşmasında (Facebook ve YouTube'da canlı yayınlandı) çevrimiçi olsaydı, sayı hızla programın bir sonraki programına 10.000'den az bir seviyeye düşürüldü. Gerçekte şaşırtıcı, çünkü Zuckerberg'in halkı şiddetle çekmesini beklemelisiniz.

Mark Zuckerberg Satya Nadella ile tanıştı

Beş saatlik bir moladan sonra (!) Sonunda devam etti. Diğer oturumlar muhtemelen paralel olarak gerçekleşti, ancak hedefin kötü iletişimi sayesinde uzak bir gözlemci hissettiniz.

Mark Zuckerberg'in Satya Nadella'yı bir konuşma arkadaşı olarak seçtiğini belirtmek ilginçtir. Microsoft ve Openai arasındaki yeni kaldırma nedeniyle, Nadella muhtemelen teklifleri kabul etmeyi severdi. Bununla birlikte, tartışma sadece yüzeyden geçti, Nadella teknik olarak daha deneyimli görünüyordu ve Moore Yasası artık kısıtlama olmadan uygulanmasa bile, son yıllarda ortaya çıkan ilerlemenin altını çizdi.

Zuckerberg, Microsoft'a üretilen kodun yüzdesinin ne kadar yüksek olduğunu sorduğunda heyecan verici oldu. Nadella yüzde 20-30'dan bahsetti ve kod türünün önemli olduğunu ve test senaryolarının kodunun özellikle iyi üretilebileceğini daha da farklı açıkladı. Zuckerberg, ilişki hedefe bakacağından soruya herhangi bir cevap bilmiyordu. Nadella ayrıca yazılımın geliştirilmesinde önemli bir rol oynayan ajanlar hakkında çok konuştu. Hype'ın gerçekten yakın gelecekte kullanılabilecek yazılımlara yol açıp açmayacağı gösterilecektir.

Zuckerberg nihayet bıçak modellerini övdü ve Maverick'in derin, ancak çok daha küçük olduğunu söyledi. İkincisi tartışmasız doğrudur, ancak LM Arena'nın (son zamanlarda tartışmalı) ölçütünde, Maverick üçüncü sırada yer alırken, Deepseek yedinci sırada yer alıyor. Zuckerberg'in beyanında düşünce babası muhtemelen arzu idi.

Bu nedenle tartışma altyapı ve daha küçük modeller boyunca biraz daha ileri gitti. Zuckerberg, Llama 4 modellerinin GPU H100'de iyi çalışacak şekilde inşa edildiğini açıkladı, çünkü dahili olarak kurulum için bir hedef. Sadece birkaçı bu donanıma erişebildiğinden, günlük işler için çok daha küçük modellere ihtiyaç vardır. Performanslarında Lama 4 ile kesinlikle rekabet eden çok daha küçük QWEN3 modellerini bilen herkes Zuckerberg'in beyanında gülümseyebildi.

Meta Llamacon'u organize etse de, Satya Nadella'nın büyük Mark Zuckerberg modelleri için çok daha somut vizyonlara sahip olduğu konuşmada anlaşıldı. İki şirketin işbirliğini daha da güçlendirmesi ilginç hale geliyor.

Halka açık sorular olmadan

Açık kaynak tekrar tekrar vurgulanmıştır, çünkü Llama modelleri özgürce mevcuttur. Bununla birlikte, bu sadece kısmen AB için geçerlidir, çünkü lisans multimodal modellerin kullanımını yasaklar ve tüm Llama 4 modelleri çok modlulardır. Hiç söz yoktu ve rakiplerde (daha liberal lisanslarla). Bakış açısından, halktan olası sorular olmamaları üzücü.

Böylece Meta'nın olaydan daha fazlasını yapabileceği hissi olmaya devam ediyor. Lama-4'ün tartışmalı serbest bırakılmasından sonra, açık kaynak pazar meta'nın eski liderinin vokal modellerindeki sayısız takipçilerden sadece biri haline geldiğini hissediyorsunuz. Ve şu anda oldukça ılımlı bir başarı ile. Bu hızlı bir şekilde değişebilir: Bir yıl önce kimse Google Today'in LLMS'de daha yüksek bir pozisyon almasını beklemezdi.

(Resim: Bercheck/Shutterstock)

Minds Mastering Machines 2025 20 ve 21 Mayıs'ta gerçekleşecek.

Bu makalenin yazarı Chrisitan Winkler, konferansta “Dil Modelleri” başlığı ile bir açılış konuşması düzenliyor.

Buna ek olarak, konferans programı aşağıdaki konularda iki gün içinde iki gün içinde üç pistte iyi 30 ders sunuyor:

Üretken: güncel araştırma eğilimleri ve bunun ne anlama geldiğini
Klasik ML – Kahramanlar Günlük Yaşamı Unuttu
Llms işi yapsın: ajan sistemlerine giriş
Alphafold ve Grafik Nöronal Ağlar ile Klinik Karar Yapma Süreci
LLM Güvenliği: OWASP Saldırı Taşıyıcıları Listesi
Duckdb ile verileri hızla analiz eder

(RME)

Konferans Metas LLM Llamacon: Lama en yüksek köpeği takip ediyor

Saberie

Active member