Princeton Üniversitesi araştırmacıları tarafından geliştirilen CEO-Bench, büyük dil modellerinin gerçek dünya ekonomik senaryo yönetim kapasitesini ölçmek için tasarlanmış bir benchmark çalışması. Test çerçevesinde AI ajanlar, 500 simüle edilmiş gün boyunca bir yazılım şirketinin operasyonlarını yürütmek ve finansal sürekliliği sağlamakla görevlendirildi. Her bir AI modelin başlangıç sermayesi eşit olarak belirlenerek, kar/zarar performansı ve şirket sürdürülebilirliği ölçüldü.\n\nAraştırma sonuçları, mevcut dönemde piyasada bulunan AI modellerinin büyük çoğunluğunun test döneminde finansal kayıplara uğradığını ve başlangıç sermayesini tükettiğini ortaya koydu. Dikkat çekici bulgu ise, karmaşık hiçbir yapay zeka mimarisine dayanmayan, sadece önceden belirlenmiş ekonomik kurallara dayalı basit bir heuristic algoritmanın, değerlendirilen neredeyse tüm AI modellerinden daha iyi performans göstermesidir.\n\nBu sonuç, güncel büyük dil modellerinin stratejik finansal karar alma ve uzun dönem operasyonel yönetim konularında eksikliklerini vurgulayan önemli bir göstergedir. CEO-Bench, AI sistemlerinin gerçekçi iş yönetimi görevlerindeki uygulanabilirliğini değerlendirmek için yeni bir metrik sunmaktadır.
Princeton Araştırması: Başlangıç Sermayesinin Üzerine Çıkan Sadece 3 AI Modeli

Princeton Üniversitesi araştırmacıları, AI ajanlarının 500 simüle günde bir yazılım şirketini yönetmesi gereken CEO-Bench testini geliştirdi. Testte çoğu güncel model iflas ederken, basit bir kurallı buluşsal yöntem hemen hemen tüm AI modellerini geride bıraktı.
Bu haber The Decoder ↗ kaynağındaki içerikten derlenerek hazırlanmıştır.
Araştırma & BilimCEO-BenchAI modelleribaşlangıç sermayesifinansal yönetimPrincetonLLM değerlendirmesi
İlgili Haberler

Yapay zeka asistan olmak için soru cevaplamayı bırakıp görev tamamlaması gerekiyor

Türkiye'de 3.500 öğrenci kuantum teknolojileriyle tanıştırıldı

Fikrine Sahip Çık Patent Hackathon'unda Kütahya'daki Lise Öğrencileri Ödüllendirildi
