Epoch AI tarafından geliştirilen MirrorCode kıyaslaması, büyük dil modellerinin ters mühendislik benzeri görevlerde ne kadar etkili olduğunu ölçmektedir. Test, modellerin orijinal kaynak koduna erişim olmaksızın çalışan yazılım bileşenlerini gözlemleyerek bunları tamamen yeniden yazabilme yeteneklerini değerlendirir.\n\nClaude Opus 4.7, %56 çözüm oranıyla test edilen modellerden en iyi performansı sergilemiş, bir araç kitinin kod tabanını 14 saat içinde başarıyla yeniden oluşturmuştur. Bununla birlikte, karşılaştırılan tüm modeller görev setinin en karmaşık ve zorlayıcı problemlerinde başarısız olmuştur. Bu bulgular, açık spesifikasyonlar olmadan kod yeniden oluşturmanın hala AI sistemleri için önemli bir mühendislik zorlantısı olduğunu göstermektedir.\n\nMirrorCode'un başarı oranları, modellerin işlevsel davranışı tersine mühendislik yapabilme kapasitesine ışık tutarken, çok yüksek kompleksiteli yazılım mimarilerini yeniden yaratabilme yolunda ciddi sınırlamaların varlığını da ortaya koymaktadır.
Claude Opus 4.7 MirrorCode Testinde %56 Başarı Oranıyla Öncü Konumda
Epoch AI'ın yeni MirrorCode kıyaslaması, yapay zeka modellerinin orijinal kod olmadan tam programları yeniden oluşturup oluşturamayacağını test ediyor. Claude Opus 4.7, 16 bin satırlık bir araç kitini 14 saatte yeniden inşa ederek %56 çözüm oranıyla en yüksek performansı gösterirken, tüm test edilen modeller en karmaşık görevlerde başarısız olmaya devam ediyor.
Bu haber The Decoder ↗ kaynağındaki içerikten derlenerek hazırlanmıştır.
Araştırma & BilimMirrorCodeClaude Opus 4.7ters mühendislikkod yeniden oluşturmaAI performans kıyaslamasıEpoch AI
İlgili Haberler

Antibiyotik "megacluster" buluntusu dirençli bakterilere karşı yeni strateji sunuyor

Aşırı sıcakların beyin fonksiyonlarına etkisi araştırılıyor

Yörüngesindeki Gezegen ve Yıldızın Manyetik Alanları Birbirine Bağlanıyor

Tehlike Altındaki Tüm Türlerin Genom Haritası Çıkarılacak
