28.01.2025 - 07:02 | Son Güncellenme:
İsmail Şahin / İSTANBUL - Çin merkezli yapay zekâ girişimi DeepSeek’in mobil uygulaması, ABD’de OpenAI’ın sohbet robotu ChatGPT’yi geride bırakarak App Store’da en çok indirilen uygulama oldu.
DeepSeek, Mixture of Experts (MOE) mimarisini kullanarak açık kaynaklı büyük dil modelleri geliştiriyor. Geçtiğimiz hafta 671 milyar parametreye sahip R1 modelinin açık kaynak versiyonunu yayınlayan girişim, Silikon Vadisi’nin ilgi odağı oldu. Geçen ay bir makale yayınlayan DeepSeek araştırmacıları, mobil uygulamaya da güç veren DeepSeek-V3 modelinin eğitiminde Nvidia’nın H800 çiplerini kullandıklarını ve bunun şirkete 5.6 milyon dolara mal olduğunu açıkladı.
Açık kaynak ve bedava
Yapay zekâ modellerini eğitmek için milyar dolar harcayan ABD’li şirketler, sadece 5.6 milyon dolar maliyetle 671 milyar parametreye sahip bir modelin geliştirilebilmesinin ardından teknoloji ihracat kontrollerinin verimliliğini sorgulamaya başladı. Üstelik bu denli güçlü bir araç olmasına rağmen DeepSeek-R1 büyük ölçüde açık kaynaklı olarak yayınlandı.
R1’in sırrı ne?
DeepSeek’in başarısı, Çinli yapay zekâ şirketlerinin ABD’nin son teknoloji çiplere yönelik kısıtlamaları göz önüne alındığında daha da dikkat çekici. MIT Technology Review’a konuşan DeepSeek çalışanı Zihan Wang, Çin’in yaptırımlara karşı yenilikçi yollara başvurmak zorunda kaldığını söylüyor. Buna göre DeepSeek, R1 modelini oluşturmak için eğitim sürecini yeniden düzenledi. Çünkü Nvidia’nın Çin pazarı için satmaya izinli olduğu çiplerin performansı, şirketin en iyi ürünlerinin hızının yarısı kadar ediyor. Bu yüzden Çin, Nvidia’dan satın aldığı grafik işlem birimleri (GPU) üzerindeki yükü azaltmak için eğitim sürecini düzenledi. Diğer bir deyişle, ABD ihracat kontrolleri, R1 geliştiricilerini hesaplama gücü eksikliklerini telafi etmek için daha akıllı, daha enerji verimli algoritmalar oluşturmaya zorladı.
DeepSeek R1, özellikle matematik ve kodlamada karmaşık muhakeme görevlerini yerine getirme becerisiyle övülüyor. Model, sorguları adım adım işleyerek sorunları çözmeye olanak tanıyor.
Programın ardındaki deha: Liang Wenfeng
Çin’in Hangzhou kentindeki şirket, Temmuz 2023’te bilgi ve elektronik mühendisliği geçmişine sahip Zhejiang Üniversitesi mezunu Liang Wenfeng tarafından kuruldu. Liang’ın 2015’te kurduğu bir fon olan High-Flyer’ın kuluçka programında yer aldı. Liang çeşitli görevlerde insanlara yetişebilen veya onları geçebilen “yapay genel zeka” seviyesine ulaşmayı hedefliyor.
‘Çin DeepSeek ile ABD’ye savaş açtı’
Yapay zeka uzmanı gazeteci ve yazar Şule Güner DeepSeek ile ilgili olarak Milliyet’e şu açıklamalarda bulundu:
“Çin merkezli yapay zeka şirketi ScaleAI’ın CEO’su Alexandr Wang, açık kaynaklı muhakeme yeteneğine sahip DeepSeek R-1’ın OpenAI’ın açıkladığı son ChatGPT versiyonu o1’i geçtiğini söyleyerek ABD-Çin arasındaki yapay zeka rekabeti resmen ortaya koydu. ScaleAI’ın CEO’su Alexandr Wang Davos’ta yaptığı açıklamayla bu rekabetin iki ülke arasında savaşa dönüştüğünü de net bir şekilde ifade etti. Wang’in bu açıklamayı Davos Zirvesi’nde ve Donald Trump’ın ABD Başkanı olduktan sonra ilk icraatının ABD’nin yapay zeka stratejisini değiştirmek olması bakımından çok anlamlı. Trump 20 Ocak’ta göreve gelir gelmez Softbank, Oracle ve OpenAI CEO’ları ile biraraya gelerek dünyanın en büyük veri merkezlerine sahip olmak için 4 yıl içinde 500 milyar dolarlık yatırım projesi Stargate’i duyurmuştu. DeepSeek R-1’ın 20 Ocak’ta açıklanması tesadüf değil.
Diğer önemli olan noktaysa OpenAI, Google, Meta gibi Amerikan yapay zeka devlerine veri eğitimi hizmeti sağlayan ScaleAI’ın, yaklaşık 2 yılda OpenAI’ın ChatGPT o1 versiyonunu nasıl yakaladığı. ScaleAI’ın veri eğitimindeki deneyiminin büyük bir avantaj olduğunu söylemek gerek. Bu arada Deep- Seek R-1, o1 gibi muhakeme yapabiliyor, çok karmaşık matematik problemlerini çözebiliyor, orta seviye kodalama yapabiliyor. ‘Peki, aradaki fark ne’ diye soracak olursanız, ChatGPT veri eğitimi için 10 bin Nvidia H100’e ihtiyaç duyarken DeepSeek’in 2 bin GPU’ya ihtiyaç duyuyor.
Diğer yandan, Alexandr Wang, tıpkı OpenAI’ın CEO’su Sam Altman gibi 1-2 yıl içinde Yapay Genel Zeka’ya (YGZ) , yani insanın yapabiliceği işlerin neredeyse tamamını yapabileceği seviyeye geleceğini söylüyor.”
‘Türkçe’de çok iyi çalışıyor’
CBOT kurucu ortağı ve CEO’su Mete Aktaş, DeepSeek’in uzun zamandır yapay zekâ alanında faaliyet gösterdiğini ve ChatGPT’ye ilk alternatifi de onların oluşturduğuna dikkat çekti. Çin’de çok büyük Ar-Ge faaliyeti olduğunu belirten Aktaş, “DeepSeek’in bu kadar ilgi odağı olmasında üç ana faktör var. Bunlardan ilki chatGPT’yi ölçüm kriterlerinde geride bıkaması. İkinci olarak yayınladıkları akademik makalede dil modelini 5.6 milyon dolar gibi bir rakama eğittiklerini söylüyorlar. ChatGPT’nin eğitim maliyeti 200 milyon dolar. Üçüncü olarak da açık kaynak ve ücretsiz olması” dedi. R1 modelinin Türkçe’de de çok iyi çalıştığını ifade eden Aktaş, “Bunu baz alarak üzerine tamamen Türkçe’ye özgü özelleştirilmiş bir dil modeli geliştirilebilir” diye konuştu.