You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Prompt-Engineering-Guide/pages/techniques/multimodalcot.ru.mdx

15 lines
1.5 KiB
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# Multimodal CoT Prompting
import { Callout, FileTree } from 'nextra-theme-docs'
import {Screenshot} from 'components/screenshot'
import MCOT from '../../img/multimodal-cot.png'
[Zhang и др. (2023)](https://arxiv.org/abs/2302.00923) недавно предложили подход мультимодальной формулировки цепочки мыслей (Multimodal CoT). Традиционная цепочка мыслей сосредоточена на языковой модальности. В отличие от этого, мультимодальная цепочка мыслей объединяет текст и визуальную информацию в двухэтапной структуре. Первый шаг включает генерацию обоснований на основе мультимодальной информации. Затем следует второй этап вывод ответа, в котором используются информативные созданные обоснования.
Модель мультимодальной цепочки мыслей (1B) превосходит GPT-3.5 на бенчмарке ScienceQA.
<Screenshot src={MCOT} alt="MCOT" />
Источник изображения: [Zhang и др. (2023)](https://arxiv.org/abs/2302.00923)
Дополнительная литература:
- [Language Is Not All You Need: Aligning Perception with Language Models](https://arxiv.org/abs/2302.14045) (Feb 2023)