Princeton Üniversitesi araştırmacıları tarafından geliştirilen CEO-Bench, büyük dil modellerinin gerçek dünya ekonomik senaryo yönetim kapasitesini ölçmek için tasarlanmış bir benchmark çalışması. Test çerçevesinde AI ajanlar, 500 simüle edilmiş gün boyunca bir yazılım şirketinin operasyonlarını yürütmek ve finansal sürekliliği sağlamakla görevlendirildi. Her bir AI modelin başlangıç sermayesi eşit olarak belirlenerek, kar/zarar performansı ve şirket sürdürülebilirliği ölçüldü.\n\nAraştırma sonuçları, mevcut dönemde piyasada bulunan AI modellerinin büyük çoğunluğunun test döneminde finansal kayıplara uğradığını ve başlangıç sermayesini tükettiğini ortaya koydu. Dikkat çekici bulgu ise, karmaşık hiçbir yapay zeka mimarisine dayanmayan, sadece önceden belirlenmiş ekonomik kurallara dayalı basit bir heuristic algoritmanın, değerlendirilen neredeyse tüm AI modellerinden daha iyi performans göstermesidir.\n\nBu sonuç, güncel büyük dil modellerinin stratejik finansal karar alma ve uzun dönem operasyonel yönetim konularında eksikliklerini vurgulayan önemli bir göstergedir. CEO-Bench, AI sistemlerinin gerçekçi iş yönetimi görevlerindeki uygulanabilirliğini değerlendirmek için yeni bir metrik sunmaktadır.