mirror of
https://github.com/dair-ai/Prompt-Engineering-Guide
synced 2024-11-10 01:13:36 +00:00
82 lines
8.1 KiB
Plaintext
82 lines
8.1 KiB
Plaintext
# Масштабирование языковых моделей с помощью обучения на инструкциях
|
||
|
||
import {Screenshot} from 'components/screenshot'
|
||
import FLAN1 from '../../img/flan-1.png'
|
||
import FLAN2 from '../../img/flan-2.png'
|
||
import FLAN3 from '../../img/flan-3.png'
|
||
import FLAN4 from '../../img/flan-4.png'
|
||
import FLAN5 from '../../img/flan-5.png'
|
||
import FLAN6 from '../../img/flan-6.png'
|
||
import FLAN7 from '../../img/flan-7.png'
|
||
import FLAN8 from '../../img/flan-8.png'
|
||
import FLAN9 from '../../img/flan-9.png'
|
||
import FLAN10 from '../../img/flan-10.png'
|
||
import FLAN11 from '../../img/flan-11.png'
|
||
|
||
## Что нового?
|
||
|
||
<Screenshot src={FLAN1} alt="FLAN1" />
|
||
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
В статье изучаются преимущества масштабирования обучения на инструкциях (instruction finetuning) и то, как это улучшает производительность на различных моделях (PaLM, T5), вариантах промптов (zero-shot, few-shot, CoT) и бенчмарках (MMLU, TyDiQA). Это определяется с помощью следующих аспектов: масштабирование количества задач (1,8 тыс. задач), масштабирование размера модели и обучение на данных цепи мыслей (используется 9 наборов данных).
|
||
|
||
**Процедура обучения на инструкциях:**
|
||
- 1,8 тыс. задач формулируются как инструкции и используются для дообучения модели
|
||
- Используются как с образцами, так и без образцов, а также с и без CoT
|
||
|
||
Примеры задач для обучения и задач для проверки показаны ниже:
|
||
|
||
<Screenshot src={FLAN11} alt="FLAN11" />
|
||
|
||
## Возможности и ключевые моменты
|
||
|
||
- Обучение на инструкциях масштабируется хорошо с увеличением количества задач и размера модели, что говорит о необходимости дальнейшего увеличения количества задач и размера модели
|
||
- Добавление данных цепи мыслей в обучение позволяет достичь хорошей производительности на задачах рассуждения
|
||
- Flan-PaLM обладает улучшенными мультиязычными возможностями; улучшение на 14,9% в тесте с одним шагом TyDiQA; улучшение на 8,1% в арифметическом рассуждении на недостаточно представленных языках
|
||
- Plan-PaLM также хорошо справляется с вопросами, требующими генерации открытых ответов, что является хорошим показателем улучшенной применимости
|
||
- Улучшает результаты на ответственных бенчмарках искусственного интеллекта (RAI)
|
||
- Модели, обученные с помощью инструкций на Flan-T5, проявляют сильные возможности few-shot и превосходят общедоступные контрольные точки, такие как T5
|
||
|
||
**Результаты при масштабировании количества задач обучения и размера модели:** масштабирование как размера модели, так и количества задач обучения ожидается, что продолжит улучшать производительность, хотя масштабирование количества задач имеет убывающую отдачу.
|
||
|
||
<Screenshot src={FLAN2} alt="FLAN2" />
|
||
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
**Результаты при обучении с использованием данных без CoT и с CoT:** Совместное обучение на данных без CoT и с CoT улучшает производительность на обеих оценках по сравнению с обучением только на одной из них.
|
||
|
||
<Screenshot src={FLAN3} alt="FLAN3" />
|
||
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
Кроме того, использование самоконсистентности в сочетании с данными цепи мыслей позволяет достичь лучших результатов на нескольких бенчмарках. Обучение с CoT + самоконсистентностью также значительно улучшает результаты на бенчмарках, связанных с математическими задачами (например, MGSM, GSM8K).
|
||
|
||
<Screenshot src={FLAN4} alt="FLAN4" />
|
||
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
Обучение с использованием данных цепи мыслей позволяет решать задачи рассуждения "шаг за шагом" в нулевом режиме на задачах BIG-Bench. В целом, модель Flan-PaLM с обучением на данных цепи мыслей в режиме нулевой настройки показывает лучшие результаты по сравнению с моделью PaLM без обучения на данных цепи мыслей.
|
||
|
||
<Screenshot src={FLAN6} alt="FLAN6" />
|
||
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
Ниже представлены некоторые демонстрации возможностей обучения на инструкциях для PaLM и Flan-PaLM на невиданных задачах.
|
||
|
||
<Screenshot src={FLAN5} alt="FLAN5" />
|
||
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
Ниже приведены дополнительные примеры нулевой настройки. Они показывают, как модель PaLM имеет проблемы с повторениями и неответом на инструкции в режиме нулевой настройки, в то время как модель Flan-PaLM показывает хорошие результаты. Несколько образцов в режиме few-shot могут смягчить эти ошибки.
|
||
|
||
<Screenshot src={FLAN7} alt="FLAN7" />
|
||
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
Ниже приведены некоторые примеры демонстрации возможностей модели Flan-PALM в режиме нулевой настройки на различных типах сложных вопросов с открытым ответом:
|
||
|
||
<Screenshot src={FLAN8} alt="FLAN8" />
|
||
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
|
||
<Screenshot src={FLAN9} alt="FLAN9" />
|
||
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
<Screenshot src={FLAN10} alt="FLAN10" />
|
||
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
|
||
|
||
Вы можете попробовать [модели Flan-T5 на Hugging Face Hub](https://huggingface.co/google/flan-t5-xxl). |