Prompt-Engineering-Guide/pages/models/flan.ru.mdx
2023-06-04 21:00:33 +03:00

82 lines
8.1 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Масштабирование языковых моделей с помощью обучения на инструкциях
import {Screenshot} from 'components/screenshot'
import FLAN1 from '../../img/flan-1.png'
import FLAN2 from '../../img/flan-2.png'
import FLAN3 from '../../img/flan-3.png'
import FLAN4 from '../../img/flan-4.png'
import FLAN5 from '../../img/flan-5.png'
import FLAN6 from '../../img/flan-6.png'
import FLAN7 from '../../img/flan-7.png'
import FLAN8 from '../../img/flan-8.png'
import FLAN9 from '../../img/flan-9.png'
import FLAN10 from '../../img/flan-10.png'
import FLAN11 from '../../img/flan-11.png'
## Что нового?
<Screenshot src={FLAN1} alt="FLAN1" />
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
В статье изучаются преимущества масштабирования обучения на инструкциях (instruction finetuning) и то, как это улучшает производительность на различных моделях (PaLM, T5), вариантах промптов (zero-shot, few-shot, CoT) и бенчмарках (MMLU, TyDiQA). Это определяется с помощью следующих аспектов: масштабирование количества задач (1,8 тыс. задач), масштабирование размера модели и обучение на данных цепи мыслей (используется 9 наборов данных).
**Процедура обучения на инструкциях:**
- 1,8 тыс. задач формулируются как инструкции и используются для дообучения модели
- Используются как с образцами, так и без образцов, а также с и без CoT
Примеры задач для обучения и задач для проверки показаны ниже:
<Screenshot src={FLAN11} alt="FLAN11" />
## Возможности и ключевые моменты
- Обучение на инструкциях масштабируется хорошо с увеличением количества задач и размера модели, что говорит о необходимости дальнейшего увеличения количества задач и размера модели
- Добавление данных цепи мыслей в обучение позволяет достичь хорошей производительности на задачах рассуждения
- Flan-PaLM обладает улучшенными мультиязычными возможностями; улучшение на 14,9% в тесте с одним шагом TyDiQA; улучшение на 8,1% в арифметическом рассуждении на недостаточно представленных языках
- Plan-PaLM также хорошо справляется с вопросами, требующими генерации открытых ответов, что является хорошим показателем улучшенной применимости
- Улучшает результаты на ответственных бенчмарках искусственного интеллекта (RAI)
- Модели, обученные с помощью инструкций на Flan-T5, проявляют сильные возможности few-shot и превосходят общедоступные контрольные точки, такие как T5
**Результаты при масштабировании количества задач обучения и размера модели:** масштабирование как размера модели, так и количества задач обучения ожидается, что продолжит улучшать производительность, хотя масштабирование количества задач имеет убывающую отдачу.
<Screenshot src={FLAN2} alt="FLAN2" />
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
**Результаты при обучении с использованием данных без CoT и с CoT:** Совместное обучение на данных без CoT и с CoT улучшает производительность на обеих оценках по сравнению с обучением только на одной из них.
<Screenshot src={FLAN3} alt="FLAN3" />
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
Кроме того, использование самоконсистентности в сочетании с данными цепи мыслей позволяет достичь лучших результатов на нескольких бенчмарках. Обучение с CoT + самоконсистентностью также значительно улучшает результаты на бенчмарках, связанных с математическими задачами (например, MGSM, GSM8K).
<Screenshot src={FLAN4} alt="FLAN4" />
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
Обучение с использованием данных цепи мыслей позволяет решать задачи рассуждения "шаг за шагом" в нулевом режиме на задачах BIG-Bench. В целом, модель Flan-PaLM с обучением на данных цепи мыслей в режиме нулевой настройки показывает лучшие результаты по сравнению с моделью PaLM без обучения на данных цепи мыслей.
<Screenshot src={FLAN6} alt="FLAN6" />
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
Ниже представлены некоторые демонстрации возможностей обучения на инструкциях для PaLM и Flan-PaLM на невиданных задачах.
<Screenshot src={FLAN5} alt="FLAN5" />
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
Ниже приведены дополнительные примеры нулевой настройки. Они показывают, как модель PaLM имеет проблемы с повторениями и неответом на инструкции в режиме нулевой настройки, в то время как модель Flan-PaLM показывает хорошие результаты. Несколько образцов в режиме few-shot могут смягчить эти ошибки.
<Screenshot src={FLAN7} alt="FLAN7" />
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
Ниже приведены некоторые примеры демонстрации возможностей модели Flan-PALM в режиме нулевой настройки на различных типах сложных вопросов с открытым ответом:
<Screenshot src={FLAN8} alt="FLAN8" />
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
<Screenshot src={FLAN9} alt="FLAN9" />
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
<Screenshot src={FLAN10} alt="FLAN10" />
Источник изображения: [Scaling Instruction-Finetuned Language Models](https://arxiv.org/abs/2210.11416)
Вы можете попробовать [модели Flan-T5 на Hugging Face Hub](https://huggingface.co/google/flan-t5-xxl).