From db07c46847f42bc29f84d6348b917671ad2f9394 Mon Sep 17 00:00:00 2001 From: Ilya Gusev Date: Mon, 5 Jun 2023 00:04:21 +0300 Subject: [PATCH] added multimodalcot.ru.mdx --- pages/techniques/multimodalcot.ru.mdx | 15 +++++++++++++++ 1 file changed, 15 insertions(+) create mode 100644 pages/techniques/multimodalcot.ru.mdx diff --git a/pages/techniques/multimodalcot.ru.mdx b/pages/techniques/multimodalcot.ru.mdx new file mode 100644 index 0000000..51aacf0 --- /dev/null +++ b/pages/techniques/multimodalcot.ru.mdx @@ -0,0 +1,15 @@ +# Multimodal CoT Prompting + +import { Callout, FileTree } from 'nextra-theme-docs' +import {Screenshot} from 'components/screenshot' +import MCOT from '../../img/multimodal-cot.png' + +[Zhang и др. (2023)](https://arxiv.org/abs/2302.00923) недавно предложили подход мультимодальной формулировки цепочки мыслей (Multimodal CoT). Традиционная цепочка мыслей сосредоточена на языковой модальности. В отличие от этого, мультимодальная цепочка мыслей объединяет текст и визуальную информацию в двухэтапной структуре. Первый шаг включает генерацию обоснований на основе мультимодальной информации. Затем следует второй этап – вывод ответа, в котором используются информативные созданные обоснования. + +Модель мультимодальной цепочки мыслей (1B) превосходит GPT-3.5 на бенчмарке ScienceQA. + + +Источник изображения: [Zhang и др. (2023)](https://arxiv.org/abs/2302.00923) + +Дополнительная литература: +- [Language Is Not All You Need: Aligning Perception with Language Models](https://arxiv.org/abs/2302.14045) (Feb 2023) \ No newline at end of file