import { Callout, FileTree } from 'nextra-theme-docs'
import {Screenshot} from 'components/screenshot'
import MCOT from '../../img/multimodal-cot.png'
[Zhang et al. (2023)](https://arxiv.org/abs/2302.00923) van proposar recentment una aproximació de prompt multimodal en cadena de pensament (CoT). El CoT tradicional es centra en la modalitat del llenguatge. En contrast, el CoT multimodal incorpora text i visió en un marc de treball de dos etapes. El primer pas implica la generació de raonaments basats en informació multimodal. Això és seguit per la segona fase, inferència de respostes, que aprofita els raonaments informatius generats.
El model multimodal CoT (1B) supera el GPT-3.5 en el banc de proves ScienceQA.