Authors Guild, insan tarafından yazılan metinler üzerinde beş farklı yapay zeka dedektörünün performansını test etti. Test sonuçları dedektörlerin güvenilirliği konusunda önemli farklılıklar ortaya koymaktadır.

Pangram ve Grammarly, test edilen tüm insan yazılarını doğru şekilde tanımlamayı başarırken, Sidekicker ve ZeroGPT bu metinleri AI tarafından üretilmiş olarak yanlış bir şekilde sınıflandırdı. Bulgular, mevcut AI dedektörlerinin kullanıcı tarafından belirlenen yazı stilini güvenilir biçimde ayırt etme konusunda çelişkili sonuçlar verdiğini göstermektedir.

Araştırmanın en dikkate değer bulgularından biri, profesyonel kalitedeki insan yazılarının istatistiksel açıdan AI çıktısına benzeyebilmesidir. Bunun sebebi, dil modelleri eğitilirken tam da bu tür yüksek kaliteli, profesyonel yazılardan oluşan verilerin kullanılmasıdır. Bu durum, AI dedektörlerin doğru sınıflandırma yapmasını temelde zorlaştırmaktadır.