LLM: Alibabas Qwen3, ilk testlerde güçlü yönlerini gösteriyor

Saberie

Active member
Uzun zamandır Awaited yeni Qwen modeli 28 Nisan 2025'te yayınlandı. Yüzü ve COPE modellerini birkaç kez kucaklamak için görülebildikten ve daha sonra tekrar kaybolduktan sonra, Qwen3 genellikle mevcuttur.










Veri bilimcisi ve otomatik öğrenme mimarıdır. Doktorasını teorik fizik alanında aldı ve 20 yıl boyunca büyük miktarlarda veri ve yapay zeka alanında çalıştı, özellikle de ölçeklenebilir sistemlere ve kitle metninin işlenmesi için akıllı algoritmalara dikkat etti. 2022'den beri Nürnberg'de profesördü ve araştırmasını modern süreçleri kullanarak kullanıcı deneyiminin optimizasyonu üzerine yoğunlaştırıyor. Konferanslar süpervizörü ve otomatik öğrenme ve metnin analizi üzerine makalelerin yazarı Datanizizing GmbH'nin kurucusudur.







Aile heterojen model


Her zamanki gibi, farklı boyutların yeni versiyonu da var, yani 235 milyar'a kadar 600 milyon parametre. Lama 4'ün aksine, Alibaba daha küçük modelleri uzmanların bir karışımı olarak eğitmedi. 600 milyon, 1,7 milyar, dört milyar parametre sekiz milyar, 14 milyar ve 32 milyar parametreli QWEN3 modeline. Önceki Qwen2.5 modelleriyle karşılaştırıldığında, en küçük (600 ama 4b) yaklaşık yüzde 10 büyüdü, iki büyüklük pratik olarak boyutlarını değiştirmedi.

Bununla birlikte, Qwen3 ayrıca büyük modelleri karıştırma modellerinin modeli olarak kullanılabilir hale getirir. 30 milyar parametreye sahip model, her fatura için sadece üç milyar parametrenin “sadece” ihtiyaç duyar “, 235 milyar parametreye sahip daha büyük. Yeterli RAM'iniz varsa, 30B modeliyle hızlı bir şekilde jeton oluşturabilirsiniz, 235B modelinde bile 32B yoğun modelden daha hızlı çalışmalıdır.



Lama-4'ün piyasaya sürülmesini şaşırtan bir akıl yürütme modelinin olmamasıydı. Burada Qwen3 çok daha tutarlıdır: tüm modeller isterseniz akıl yürütmeye sahiptir. Parametre enable_thinking Bir cevaptan önce “düşünmek” ve bu düşünce sürecini kullanılabilir hale getirmek için gereken model. İyi çalışır ve son derece pratiktir: Sadece RAM'e bir model yüklemeniz gerekir ve beklenen kullanıma bağlı olarak bunu bir akıl yürütme veya klasik LLM olarak kullanabilirsiniz.

Qwen 3 sayısıyla ilgili blog makalesinde eğitim hakkında ilginç bilgiler var. Temel model için, antrenman öncesi tarihleme, 18 trilyon jetondan 36 jeton trilyonlara kadar Qwen2.5'e kıyasla iki katına çıktı, geliştiriciler HTML belgelerine ek olarak PDF metnini kullandılar (QWEN2.5-VL kullanılarak çıkarıldı). En eski modeller Qwen2.5-Math ve Qwen2.5, sentetik eğitim verileri oluşturmak için Alibaba'yı kullandı.



Eğitim iki aşamada gerçekleşti: birincisi 4K ve 30 trilyon jeton bağlamında ve ikincisi daha zorlu içerik ve diğer başlangıç ve nane becerilerine sahip 32k bağlam uzunluğuna sahip. Alibaba'nın dört seviyede (32b ve 235b) sadece iki takviye öğrenme aşamasıyla icat edilen süreçte gerçekleştirdiği oluşum sonrası özellikle heyecan vericidir. Geliştiriciler daha sonra bilginin damıtılmasıyla küçük temel modellere eğitilmiş modelleri aktardı.

Model kartları, Alibaba'yı geliştiren bazı ilginç ipuçları içerir. Dolayısıyla Qwen3'ün akıl yürütmesinin QWQ'dan daha iyi olduğu söyleniyor. Buna ek olarak, Qwen3'ün matematiksel, mantıksal ve kod yetenekleri daha iyi olmalı, modeller de yaratıcı yazma için çok uygun olmalıdır. Qwen3'ün ajanlar ve MCP ile çalışmak için güçlü bir şekilde optimize edilmesi özellikle önemli görünmektedir. 100'den fazla dile hakim olan çok dilli bir modeldir. 32.768 jeton bağlamının olası uzunluğu birçok uygulama için tatmin olmalıdır. Halatın azaltılmasıyla (dönen pozisyonun dahil edilmesi) bunları (bazı modeller için) 128k'ye kadar artırabilirsiniz. BFLOT16 hassasiyetindeki ağırlıklara ek olarak, FP8'li olanlar da mevcuttur.

Lama 4'ün şaşırtıcı yayınının aksine, Qwen3 son derece iyi düşünülmüş gibi görünüyor. Lama 4'ün aksine, Apache 2.0'a göre ağırlıklar yetkili olduğundan, AB'de kolayca kullanabilirsiniz. Bu, her boyutta serbestçe kullanılamayan Qwen2.5 modellerine kıyasla küçük bir ilerlemedir.

Yeni modelle test edin


Aslında ne kadar çalıştığını deneyebilirsiniz, çünkü ağırlıklar açık bir model olarak indirilebilir.

Neyse ki, neredeyse tüm Qwen3 modelleri zaten nicelendirildi, böylece kolayca indirilebilir ve yüzlerini kucaklamaya çalışabilirler. Modeller nispeten küçük olduğundan, Lama.cpp ile kendinizi yaptırın. Ek olarak, GPU modelleri gerçekleştirilebilir, ancak mevcut RAM'e bağlı olarak, daha büyük modellerle biraz sıkı olabilirler.

Deneyler qwen3-32b-q4_k_m.guf ile gerçekleştirildi. Maalesef lama.cpp henüz doğru yapamıyor enable_thinking-Pry parametreleri. Ek bir çare görevi görür /no_think İstemine.

Qwen3 ile sayın ve hesaplayın


Modelin akıl yürütme ve akıl yürütmeden ilk testi aşağıdaki sonuçta:

Kaç “ve” “Çilek”?


Tamam, kaç tane “ve” Ben “Çilek” kelimesindeyim. Kelimeyi yazayım ve her harfe bakayım.

E – r – d – b – e – r – e

Şimdi, “ve” S: 1'i içereceğim. İlk harf e (1) 2.. Beşinci harf E (2) 3'tür.

Yani “Çilek” kelimesinde 4 “ve” s var.

Aslında, neşelendirmeme izin ver. Çok hızlı sayabilirim.

E – r – d – b – e – r – e

1. İlk harf e (1)

2. Beşinci harf e (2)

3. Altıncı harf e (3)

4. Eigth mektubu E (4)

Evet, “Çilek” kelimesinde 4 “ve” s.

</ Think>

Bekle, burada Almanca dilini kullanıyorum ve Alman kapitalizasyonu önemlidir. İlk mektup başkent, diğerleri küçük. Ancak soru, davadan bağımsız olarak sadece kaç tane “ve” olduğunu sormaktır. Bence cevap hala 4.

Aslında tekrar bekle. Bir kez daha saymama izin verin:

Ve (1) RDBE (2) ve (3) Re (4)

Evet, “Çilek” kelimesinde 4 “ve” s var.

“Çilek” kelimesindeki harf sayısını belirlemek için, kelimeye mektupla bakıyoruz:

E – r – d – b – e – r – e

Şimdi “ve” harflerini sayıyoruz (hem küçük harfler hem de büyük harfler sayım): 1. İlk harf e (1) 2. beşinci harf e (2) 3..

Bu nedenle, “ve” harf sayısı “ve”

4

Kaç “ve” “Çilek”? /No_think

“Çilek” kelimesi 4 “e” içerir.
İşte bölüm:
çilek
– ilk “ve” başlangıçta
– 2. “ve” 4'tür.
– 3. “ve” 5.
– 4. “Ve” sonunda
✅
Sonuç: 4 e

Qwen3-32b, Almanca'daki mektupları da sayabilir. (!) Akıl yürütme ile ve olmadan çalışır. Açıkçası üç kattan çok daha yüksek Llama 4'ten daha yüksektir. İngilizce “Çilek” kelimesi ile de işe yarar. Tüm Qwen3 modelleri bu konuda değil. En küçük model (0.6b) tutarlıdır, 1.7b model akıl yürütme modunda zaten doğru sayılabilir, 4B modeli bunu akıl yürütmeden İngilizce olarak yapabilir.

Ne yazık ki, matematiksel bulmacalarla o kadar güzel görünmüyor. 2^20+1 fabrika (1.048,577 = 17 * 61.681) maalesef herhangi bir Qwen3 modeli (nicel) ile çalışmaz. Bir noktada sonsuz bir döngüde her zaman bir hesaplama hatası veya sistem cihazı vardır.






(Resim: DOAG)


19 ve 20 Kasım'da KI Navigator Konferansı tekrar Nürnberg'de gerçekleşecek. Belgeler talebinde, organizatörler hala konferans için dersler arıyorlar.

KI Navigator, ekonomi ve toplumun üç alanında AI uygulaması konferansıdır. Yapay zekanın somut uygulamasına adanmıştır. Dersler, derin öğrenme veya LLM'ler (büyük dil dilleri) gibi bireysel alanların teknik yönleri ile şirkette kullanım ve toplum üzerindeki etkileri ile ilgilidir. Ayrıca, IA Yasası ve etik yönler gibi yasalara ve düzenleyici gereksinimlere dikkat edilir.
 
Üst