mirror of
https://github.com/dair-ai/Prompt-Engineering-Guide
synced 2024-11-06 09:20:31 +00:00
58 lines
6.0 KiB
Plaintext
58 lines
6.0 KiB
Plaintext
# Mezun İş Sınıflandırma Vaka Çalışması
|
||
|
||
[Clavié et al., 2023](https://arxiv.org/abs/2303.07142) bir üretim sisteminde orta ölçekli bir metin sınıflandırma kullanım durumuna uygulanan bilgi istemi mühendisliği üzerine bir örnek olay çalışması sağlayın. Bir işin gerçek bir "giriş seviyesi iş" olup olmadığını, yeni mezunlar için uygun olup olmadığını sınıflandırma görevini kullanarak, bir dizi hızlı mühendislik tekniğini değerlendirdiler ve sonuçlarını GPT-3.5 ('gpt-3.5-turbo) kullanarak raporladılar.').
|
||
|
||
Çalışma, LLM'lerin, DeBERTa-V3'teki son derece güçlü bir temel dahil, test edilen diğer tüm modellerden daha iyi performans gösterdiğini gösteriyor. "gpt-3.5-turbo" ayrıca tüm temel ölçümlerde eski GPT3 türevlerinden önemli ölçüde daha iyi performans gösterir, ancak bir şablona bağlı kalma yeteneği diğer değişkenlerden daha kötü göründüğü için ek çıktı ayrıştırması gerektirir.
|
||
|
||
Hızlı mühendislik yaklaşımlarının temel bulguları şunlardır:
|
||
|
||
- Uzman bilgisinin gerekli olmadığı bunun gibi görevler için, Few-shot CoT yönlendirmesi, tüm deneylerde Zero-shot yönlendirmesinden daha kötü performans gösterdi.
|
||
- İstemin doğru muhakemeyi ortaya çıkarma üzerindeki etkisi çok büyüktür. Modelden belirli bir işi sınıflandırmasını istemek, 65.6'lık bir F1 puanıyla sonuçlanırken, istem sonrası mühendislik modeli, 91.7'lik bir F1 puanı elde eder.
|
||
- Modeli bir şablona bağlı kalmaya zorlamak her durumda performansı düşürür (bu davranış, kağıdın arkasında olan GPT-4 ile erken testlerde kaybolur).
|
||
- Birçok küçük değişikliğin performans üzerinde çok büyük bir etkisi vardır.
|
||
- Aşağıdaki tablolar, test edilen tam değişiklikleri göstermektedir.
|
||
- Talimatları düzgün bir şekilde vermek ve kilit noktaları tekrarlamak en büyük performans faktörü gibi görünüyor.
|
||
- Modele bir (insan) adı vermek ve ona bu şekilde atıfta bulunmak kadar basit bir şey, F1 puanını 0,6 puan artırdı.
|
||
|
||
### Bilgi İstemi Değişiklikleri Test Edildi
|
||
|
||
| Kısa İsim | Açıklama |
|
||
|------------|------------------------------------------------------------------------------------------------------|
|
||
| Baseline | Bir iş ilanı verin ve bir mezun için uygun olup olmadığını sorun. |
|
||
| CoT | Sorgulamadan önce birkaç doğru sınıflandırma örneği verin. |
|
||
| Zero-CoT | Cevabını vermeden önce modelden adım adım akıl yürütmesini isteyin. |
|
||
| rawinst | Kullanıcı mesajına ekleyerek rolü ve görevi hakkında talimatlar verin. |
|
||
| sysinst | Bir sistem mesajı olarak rolü ve görevi hakkında talimatlar verin. |
|
||
| bothinst | Bir sistem mesajı olarak role ve bir kullanıcı mesajı olarak göreve sahip yönergeler bölünmüştür . |
|
||
| mock | Bir tartışmayı kabul ettiği yerde alay ederek görev yönergeleri verin. |
|
||
| reit | Talimatlardaki temel unsurları tekrarlayarak güçlendirin. |
|
||
| strict | Modelden belirli bir şablonu kesinlikle takip ederek yanıt vermesini isteyin. |
|
||
| loose | Belirli bir şablona göre verilecek nihai cevabı isteyin. |
|
||
| right | Modelden doğru sonuca varmasını isteyin. |
|
||
| info | Yaygın muhakeme hatalarını ele almak için ek bilgiler sağlayın. |
|
||
| name | Modele, konuşmada atıfta bulunduğumuz bir isim verin. |
|
||
| pos | Modeli sorgulamadan önce olumlu geri bildirim sağlayın. |
|
||
|
||
|
||
### Tüm Bilgi İstemi Değişikliklerinin Performans Etkisi
|
||
|
||
| | Precision | Recall | F1 | Template Stickiness |
|
||
|----------------------------------------|---------------|---------------|---------------|------------------------|
|
||
| _Baseline_ | _61.2_ | _70.6_ | _65.6_ | _79%_ |
|
||
| _CoT_ | _72.6_ | _85.1_ | _78.4_ | _87%_ |
|
||
| _Zero-CoT_ | _75.5_ | _88.3_ | _81.4_ | _65%_ |
|
||
| _+rawinst_ | _80_ | _92.4_ | _85.8_ | _68%_ |
|
||
| _+sysinst_ | _77.7_ | _90.9_ | _83.8_ | _69%_ |
|
||
| _+bothinst_ | _81.9_ | _93.9_ | _87.5_ | _71%_ |
|
||
| +bothinst+mock | 83.3 | 95.1 | 88.8 | 74% |
|
||
| +bothinst+mock+reit | 83.8 | 95.5 | 89.3 | 75% |
|
||
| _+bothinst+mock+reit+strict_ | _79.9_ | _93.7_ | _86.3_ | _**98%**_ |
|
||
| _+bothinst+mock+reit+loose_ | _80.5_ | _94.8_ | _87.1_ | _95%_ |
|
||
| +bothinst+mock+reit+right | 84 | 95.9 | 89.6 | 77% |
|
||
| +bothinst+mock+reit+right+info | 84.9 | 96.5 | 90.3 | 77% |
|
||
| +bothinst+mock+reit+right+info+name | 85.7 | 96.8 | 90.9 | 79% |
|
||
| +bothinst+mock+reit+right+info+name+pos| **86.9** | **97** | **91.7** | 81% |
|
||
|
||
Şablon yapışkanlığı, modelin istenen biçimde ne sıklıkta yanıt verdiğini ifade eder.
|
||
|