mirror of
https://github.com/dair-ai/Prompt-Engineering-Guide
synced 2024-11-02 15:40:13 +00:00
83 lines
5.3 KiB
Plaintext
83 lines
5.3 KiB
Plaintext
# Échelle de modèles de langage finement ajustés aux instructions
|
||
|
||
import {Screenshot} from 'components/screenshot'
|
||
import FLAN1 from '../../img/flan-1.png'
|
||
import FLAN2 from '../../img/flan-2.png'
|
||
import FLAN3 from '../../img/flan-3.png'
|
||
import FLAN4 from '../../img/flan-4.png'
|
||
import FLAN5 from '../../img/flan-5.png'
|
||
import FLAN6 from '../../img/flan-6.png'
|
||
import FLAN7 from '../../img/flan-7.png'
|
||
import FLAN8 from '../../img/flan-8.png'
|
||
import FLAN9 from '../../img/flan-9.png'
|
||
import FLAN10 from '../../img/flan-10.png'
|
||
import FLAN11 from '../../img/flan-11.png'
|
||
|
||
## Quoi de neuf ?
|
||
|
||
<Screenshot src={FLAN1} alt="FLAN1" />
|
||
Image Source: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
This paper explores the benefits scaling [instruction finetuning](https://arxiv.org/pdf/2109.01652.pdf) and how it improves performance on a variety of models (PaLM, T5), prompting setups (zero-shot, few-shot, CoT), and benchmarks (MMLU, TyDiQA). This is explored with the following aspects: scaling the number of tasks (1.8K tasks), scaling model size, and finetuning on chain-of-thought data (9 datasets used).
|
||
|
||
**Procédure de finetuning**
|
||
- 1.8K tasks were phrased as instructions and used to finetune the model
|
||
- Uses both with and without exemplars, and with and without CoT
|
||
|
||
Finetuning tasks and held out tasks shown below:
|
||
|
||
<Screenshot src={FLAN11} alt="FLAN11" />
|
||
|
||
## Capacités et résultats clés
|
||
|
||
- L'optimisation de l'instruction s'étend bien avec le nombre de tâches et la taille du modèle ; cela suggère la nécessité de faire évoluer le nombre de tâches et la taille du modèle encore plus loin.
|
||
- L'ajout de jeux de données CoT dans l'optimisation des instructions permet une bonne performance sur les tâches de raisonnement.
|
||
- Flan-PaLM a amélioré les capacités multilingues ; 14,9 % d'amélioration sur TyDiQA en une seule étape ; 8,1 % d'amélioration sur le raisonnement arithmétique dans les langues sous-représentées.
|
||
- Plan-PaLM fonctionne également bien sur les questions de génération ouverte, ce qui est un bon indicateur d'une meilleure utilisabilité.
|
||
- Améliore les performances sur les benchmarks d'Intelligence Artificielle Responsable (IAR).
|
||
- Les modèles optimisés par instruction de Flan-T5 démontrent de solides capacités en quelques étapes et surpassent les checkpoints publics tels que T5.
|
||
|
||
|
||
**Les résultats lors de la mise à l'échelle du nombre de tâches de réglage fin et de la taille du modèle :** la mise à l'échelle de la taille du modèle et du nombre de tâches de réglage fin devrait continuer à améliorer les performances, bien que la mise à l'échelle du nombre de tâches ait des rendements réduits.
|
||
|
||
<Screenshot src={FLAN2} alt="FLAN2" />
|
||
Image Source: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
**Résultats lors d'un réglage fin avec des données non-CoT et CoT :** Un réglage fin conjoint sur des données non-CoT et CoT améliore les performances des deux évaluations, par rapport à un réglage fin sur l'une ou l'autre.
|
||
|
||
<Screenshot src={FLAN3} alt="FLAN3" />
|
||
Image Source: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
De plus, l'auto-cohérence combinée au CoT permet d'obtenir des résultats SoTA sur plusieurs benchmarks. CoT + auto-cohérence améliore également considérablement les résultats sur les benchmarks impliquant des problèmes mathématiques (par exemple, MGSM, GSM8K).
|
||
|
||
<Screenshot src={FLAN4} alt="FLAN4" />
|
||
Image Source: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
Le réglage fin du CoT déverrouille le raisonnement zéro coup, activé par la phrase "pensons étape par étape", sur les tâches BIG-Bench. En général, le CoT Flan-PaLM à tir zéro surpasse le CoT PaLM à tir zéro sans réglage fin.
|
||
|
||
<Screenshot src={FLAN6} alt="FLAN6" />
|
||
Image Source: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
Vous trouverez ci-dessous quelques démonstrations de CoT à tir zéro pour PaLM et Flan-PaLM dans des tâches invisibles.
|
||
|
||
<Screenshot src={FLAN5} alt="FLAN5" />
|
||
Image Source: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
Ci-dessous se trouvent d'autres exemples pour la génération de texte sans cible. Cela montre comment le modèle PaLM a du mal avec les répétitions et ne répond pas aux instructions dans le contexte de génération de texte sans cible, tandis que le modèle Flan-PaLM est capable de bien performer. Les exemples exemplaires en quelques tirs peuvent atténuer ces erreurs.
|
||
|
||
<Screenshot src={FLAN7} alt="FLAN7" />
|
||
Image Source: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
Vous trouverez ci-dessous quelques exemples démontrant davantage de capacités de tir zéro du modèle Flan-PALM sur plusieurs types de questions ouvertes difficiles :
|
||
|
||
<Screenshot src={FLAN8} alt="FLAN8" />
|
||
Image Source: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
|
||
<Screenshot src={FLAN9} alt="FLAN9" />
|
||
Image Source: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
<Screenshot src={FLAN10} alt="FLAN10" />
|
||
Image Source: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
You can try [Flan-T5 models on the Hugging Face Hub](https://huggingface.co/google/flan-t5-xxl). |