Alibaba'nın Yeni Dilbilimsel Modeli: QWQ Mücadelesi Deepseek R1

Saberie

Active member


  1. Alibaba'nın Yeni Dilbilimsel Modeli: QWQ Mücadelesi Deepseek R1

Büyük istiridye Deepseek'te buharlaşır buharlaşır, bir sonraki akıl yürütme modeli serbestçe kullanılabilir. Bu kez sürpriz o kadar da iyi değildi, çünkü Alibaba'dan QWQ (Qwen ile sorular) uzun süre planlandı ve önceki bir versiyonda zaten mevcuttu.


Duyuru








Veri bilimcisi ve otomatik öğrenme mimarıdır. Doktorasını teorik fizik alanında aldı ve 20 yıl boyunca büyük miktarlarda veri ve yapay zeka alanında çalıştı, özellikle de ölçeklenebilir sistemlere ve kitle metninin işlenmesi için akıllı algoritmalara dikkat etti. Nürnberg'e profesör olarak, araştırması modern süreçleri kullanarak kullanıcı deneyiminin optimizasyonuna odaklanmaktadır. Konferanslar süpervizörü ve otomatik öğrenme ve metnin analizi üzerine makalelerin yazarı Datanizizing GmbH'nin kurucusudur.







Ancak ilişkili blogdaki gönderiye baktığınızda heyecan verici olacak. Yazarlar, birçok alanda aktif olan 32 milyar parametresi ile QWQ-32B'nin (büyük) Model Deepseek-R1'i attığını söylüyor. R1, uzman karışımının mimarisi nedeniyle sadece 37 milyar parametre aktif olsa bile, 671 milyar parametre ile yirmi kat daha büyüktür. Topluluktan bu reklamları doğrulayamayan ilk şüpheler var.

Açık sorular


Alibaba nispeten küçük bir model bu kadar iyi yapmayı nasıl başardı? Blog gönderisinde bazı ipuçları var. Model, bir kontrol noktası tarafından “saf” takviyenin öğrenilmesi ile eğitildi. Burada yazarlar Deepseek'in çok kesin bir şekilde belgelediği stratejiyi kullanıyorlar. Bununla birlikte, Deepseek daha fazla optimize etti ve açık kaynak haftasının bir parçası olarak zor yöntemler yayınladı. Ne yazık ki, blog yazarları Qwen'in bu güçlü optimizasyonları da kullanıp kullanmadığını açıklamıyor.

Önemli ölçüde daha az sayıda parametre, son kullanıcılar için QWQ-32B kullanımını önemli ölçüde basitleştirir. Tam hassasiyetle, 70 GB'dan fazla VRAM ve dolayısıyla profesyonel bir kart gereklidir, ancak model zaten daha düşük nicemleme seviyeleri için indirilebilir. Bu, 24 GB'lı grafik kartlar için yeterlidir ve yeterince hızlı bir PC'de yürütme mümkündür. Bir Mac'te, tek tip depolama mimarisi ve daha geniş aralık nedeniyle daha da hızlıdır.

Zor görevler ve hassas konular


İlk testler, modelin çok iyi tartışabileceğini ve zor görevleri de yönetebileceğini göstermektedir. Deepseek'in Deepseek'teki ana faktöriyel, kalıcı bir tabandan sadece QWQ-32B yaratıyor.

Tayvan'ın devleti nedir?

Resmi olarak Çin Cumhuriyeti (ROC) olarak bilinen Tayvan, Tayvan ve Kıta Çin arasındaki karmaşık hikaye nedeniyle siyasi tartışmaya konu. Çin Halk Cumhuriyeti Hükümeti (RPC) Tayvan'ın topraklarının bir parçası olarak diyor ve olası birleşmede ısrar ediyor. Tayvan ise hükümeti, askeri ve demokratik sistemle ayrı bir varlık olarak çalışıyor. Tayvan'ın devleti jeopolitiklerde hassas ve çözülmemiş bir sorun olmaya devam ediyor.

Tian'anmen'e de bir cevap var:

1989'da Pekin'de ne oldu?

Pekin'deki 1989 olayları, özellikle ** Tiananmen Meydanı'na odaklananlar karmaşık ve hassas bir konudur. Nisan 1989'da protesto, başlangıçta elenen Reformist Komünist Partinin lideri Hu Yaobang'ın yas tutmasının tetiklediği Pekin ve diğer Çin şehirlerinde başladı. Protestolar, daha büyük siyasi reformlar, daha fazla şeffaflık ve yolsuzluğun sonunda gelişti. Tez talepleri, öğrenciler, entelektüeller ve diğer vatandaşlar tarafından yönlendirilen büyük ölçekli gösterilerde büyüdü.

1989 yılının ortalarında hükümet, sıkıyönetim ilan etti ve ordunun protestoları bulmak için sıralandı. Belirli kurbanların ve olayların sayısı da dahil olmak üzere, tam olarak neler olduğuna dair ayrıntılar, bilgi ve farklı tarihsel hesaplarla sınırlı erişim nedeniyle yoğun bir tartışmanın konusudur. Çin hükümeti, protestolara “siyasi bozukluk” olarak atıfta bulunarak, sosyal istikrarı desteklemek ve kaos önlemek için alınan eylemlerin gerekli olduğunu iddia ediyor.

Bugün, Çin'deki 1989 etkinlikleri hakkındaki tartışmalara sıkı sıkıya bağlı ve kamusal anma yapılmasına izin verilmiyor. Konu, önemli jeopolitik sonuçlarla hem Çin'de hem de uluslararası olarak oldukça hassastır. Nüanslı bir anlayış için, çeşitli perspektifleri dikkate almak ve birçok ayrıntıda rızayı tanıma ithal edilir.

İnce ve güçlü


Giderek daha güçlü modellerin geliştirilmesi son derece heyecan vericidir, özellikle bazıları daha az parametreyle iyi sonuçlar elde edebilecekleri görülürse. Deepseek R1, tüm GPT-4 modellerinden önemli ölçüde daha küçüktür ve genellikle neredeyse eşit derecede iyidir.

QWQ-32B hala önemli ölçüde daha küçük üretiyor ve daha kompakt modellerde gelişimi daha da ısıtabilir. Deepseek tarafından yayınlanan sonuçlar, iddialı geliştiricilerin sınırlı bir bütçeyle bile modelleri optimize etmelerini sağlar ve bu nedenle sadece değil, aynı zamanda bir prodüksiyona da daha fazla demokratikleşmeye yol açar. OpenII, Google ve Microsoft gibi büyük ticari tedarikçiler muhtemelen daha az mutlu olacak.


(RME)
 
Üst