Küçük AI Girişimi, Google’ın Gemini 3'ü Geride Bıraktı

Google’ın Gemini 3'ü Geride Bırakan Başarı

Son dönemde yapay zeka alanında dikkat çeken bir gelişme yaşandı. Altı kişilik bir ekipten oluşan Poetiq isimli girişim, Google’ın Gemini 3 modelini önemli bir akıl yürütme testinde geride bıraktı. Bu test, AI araştırmacısı François Chollet tarafından oluşturulan ARC-AGI-2 isimli zorlu bir akıl yürütme sınavıydı. Poetiq, bu testte %54'lük bir başarı oranı ile öne çıktı ve Google’ın Gemini 3 Deep Think modelinin %45’lik skorunu geride bıraktı.

Zorlayıcı Bir Test: ARC-AGI-2

ARC-AGI-2, yapay zeka modellerinin derin düşünme yeteneklerini ölçmek için tasarlanmış bir test. Bu test, yalnızca basit becerileri değil, aynı zamanda desen tanıma, analoji kurma ve soyut akıl yürütme gibi daha karmaşık yetenekleri de değerlendirmektedir. Testin zorluk seviyesi, birçok güncel yapay zeka modelinin bu sınavda başarısız olmasına yol açıyor. Geçtiğimiz altı ayda, birçok model bu testte %5’in altında kalmıştı. Ancak Poetiq, bu zorluğu aşarak %54'lük bir başarı elde etti.

Poetiq’in Yenilikçi Yaklaşımı

Poetiq, bu başarıyı elde etmek için yeni bir model geliştirmek yerine mevcut modelleri daha akıllıca bir şekilde bir araya getiren bir meta-sistem oluşturdu. Bu sistem, farklı yapay zeka modellerinin çıktısını denetleyip iyileştiren bir kontrol mekanizması işlevi görüyor. Poetiq, bu süreçte Gemini 3 Pro modelini temel alarak çalıştı.

Bu sistemin temel işleyişi şu şekilde:

Üretim: Modelden çıktı alınır.
Eleştiri: Çıktı değerlendirilir.
İyileştirme: Çıktı üzerinde düzeltmeler yapılır.
Doğrulama: Nihai sonuç kontrol edilir.

Dikkat Çeken Özellikler

Poetiq’in geliştirdiği sistem, bazı önemli avantajlar sunuyor:

Yeniden eğitim gerektirmiyor: Yeni modellere saatler içinde uyum sağlıyor.
Standart LLM'ler üzerine inşa edilmiş: Özel bir ince ayar gerektirmiyor.
Daha düşük maliyet: Google’ın Deep Think modeli yaklaşık 77 dolar iken, Poetiq’in sistemi 30 dolara çalışıyor.
Açık kaynak: Çözüm kamuya açık ve denetlenebilir.
Kendi kendini denetleme: Sistem, nihai sonucu döndürmeden önce kendi cevaplarını değerlendiriyor.

Gelecek Vizyonu

Poetiq’in elde ettiği bu sonuç, yapay zeka araştırmalarında yeni bir dönüm noktası olabilir. Girişim, daha büyük modellerin gerekliliğini sorgularken, mevcut sistemlerin daha akıllı, daha ucuz ve daha tutarlı hale getirilmesine olanak tanıyan bir yaklaşım sunuyor. Eğer bu tür sistemler, planlama, kodlama ve gerçek dünya karar verme süreçlerine genelleştirilirse, yapay zeka geliştirme yöntemlerini köklü bir şekilde değiştirebilir.

Sonuç

Poetiq, ARC-AGI çözümlerini açık kaynak olarak sunarak araştırmacıların bu sonuçları test etmesine, genişletmesine veya sorgulamasına olanak tanıyor. Eğer Poetiq’in elde ettiği sonuçlar bağımsız olarak doğrulanırsa, bu durum yapay zeka akıl yürütme araştırmalarında önemli bir dönüm noktası olarak kaydedilebilir. Küçük bir ekip, modelleri bir araya getirerek büyük laboratuvarların geliştirdiği sistemleri geride bırakabileceğini kanıtladı.