[Clavié ve diğerleri., 2023](https://arxiv.org/abs/2303.07142), bir üretim sistemine uygulanan orta ölçekli metin sınıflandırma kullanım durumu üzerinde istem mühendisliği uygulandığı bir vaka çalışması sunar. Bir işin gerçek bir "ilk seviye iş" olup olmadığını, yani yeni bir mezun için uygun olup olmadığını sınıflandırma görevini kullanarak, bir dizi istem mühendisliği tekniğini değerlendirdiler ve sonuçlarını GPT-3.5 (`gpt-3.5-turbo`) kullanarak raporladılar.
Çalışma, LLM'lerin test edilen diğer tüm modellerden, DeBERTa-V3 gibi son derece güçlü bir temel model de dahil olmak üzere, daha iyi performans gösterdiğini ortaya koymaktadır. `gpt-3.5-turbo` ayrıca eski GPT3 varyantlarına göre tüm ana metriklerde belirgin şekilde daha iyi performans gösterir, ancak bir şablonu takip etme yeteneği diğer varyantlardan daha kötü olduğu için ek çıktı çözümlemesi gerektirir.
- Bu gibi görevlerde, herhangi bir uzman bilgisine gerek olmadığı durumlarda, Az örnekli CoT istemlerinin tüm deneylerde Sıfır örnekli istemlerden daha kötü performans gösterdiği görülmüştür.
- İstenen akıl yürütmeyi harekete geçirme üzerinde istemin etkisi büyüktür. Modele belirli bir işi sınıflandırmasını basitçe sorulması, bir F1 skorunda 65.6 sonucunu verirken, istem mühendisliği sonrası model bir F1 skorunda 91.7 elde eder.
- Modelin bir şablona uymaya zorlanması tüm durumlarda performansı düşürür (bu davranış, makaleye sonrasında yapılan erken dönem GPT-4 testlerinde ortadan kalkar).
- Birçok küçük değişiklik performans üzerinde anormal büyük bir etkiye sahip olabilir.
- Tablolar, test edilen tüm değişiklikleri göstermektedir.
- Talimatları düzgün vermekte ve kilit noktaları tekrar etmek en büyük performans sürücüsü gibi görünmektedir.
- Modele bir (insan) ismi vermek ve buna göre hitap etmek bile F1 skorunu 0.6 puan artırır.