30.05.2025 - 16:22 | Son Güncellenme:
Çin’den çıkara tüm dünyayı etkisine alan ve ChatGPT’nin en büyük rakibi olarak gösterilen DeepSeek, yeni haberlere bakılacak olursa zaten iyi olan güç tüketimini çok daha ileri bir noktaya taşıyabilir. Gelen raporlara göre yapay zeka uygulamasının güncellenmiş R1 AI modeli, tek bir GPU üzerinden çalışabilecek seviyeye geldi. Yeni R1 modelinin daha küçük, bir versiyonu olan DeepSeek-R1-0528-Qwen3-8B'nin piyasaya sürülmesiyle birlikte DeepSeek, bu modelin belirli benchmark testlerinde benzer boyutlardaki modelleri geride bıraktığını iddia ediyor.
Alibaba'nın Mayıs ayında piyasaya sürdüğü Qwen3-8B modelini temel alarak geliştirilen, daha küçük ve güncellenmiş R1 versiyonu, zorlu matematik sorularından oluşan AIME 2025 testinde Google'ın Gemini 2.5 Flash modeline göre çok daha iyi performans göstermiş.
DeepSeek-R1-0528-Qwen3-8B, Microsoft'un kısa süre önce piyasaya sürdüğü Phi 4 modeliyle başka bir matematik beceri testi olan HMMT'de ise neredeyse aynı performansı yakalamış.
DeepSeek-R1-0528-Qwen3-8B gibi sözde ufaltılmış modeller, genellikle tam boyutlu muadillerinden daha az yetenekli olsa da performansıyla öne çıkabiliyor. Tabi bu versiyonların en önemli artısı ise, hesaplama açısından çok daha az kaynak gerektiriyor olmaları.
Bulut platformu NodeShift'e göre, Qwen3-8B'nin çalışması için 40 GB - 80 GB RAM'e sahip bir GPU (örneğin, bir Nvidia H100) gerekiyor. Tam boyutlu yeni R1 ile kıyaslama yaptığımızda ise bu modelin yaklaşık bir düzine 80 GB GPU gerektirdiğini görüyoruz.
DeepSeek-R1-0528-Qwen3-8B, izin veren bir MIT lisansı altında sunuluyor, yani ticari olarak kısıtlama olmaksızın kullanılabilir. LM Studio da dahil olmak üzere birçok dağıtıcı, bu modeli bir API aracılığıyla sunuyor.