update italian version

pull/124/head
napo 1 year ago
parent 43f89e8e89
commit 258b9815b5

@ -1,15 +1,15 @@
# Multimodal CoT Prompting
# Multimodal CoT Prompt
import { Callout, FileTree } from 'nextra-theme-docs'
import {Screenshot} from 'components/screenshot'
import MCOT from '../../img/multimodal-cot.png'
[Zhang et al. (2023)](https://arxiv.org/abs/2302.00923) recently proposed a multimodal chain-of-thought prompting approach. Traditional CoT focuses on the language modality. In contrast, Multimodal CoT incorporates text and vision into a two-stage framework. The first step involves rationale generation based on multimodal information. This is followed by the second phase, answer inference, which leverages the informative generated rationales.
[Zhang et al. (2023)](https://arxiv.org/abs/2302.00923) ha recentemente proposto un approccio multimodale di suggerimento a catena di pensiero. Il CoT tradizionale si concentra sulla modalità linguistica. Al contrario, Multimodal CoT incorpora testo e visione in un quadro a due fasi. Il primo passo prevede la generazione di motivazioni basate su informazioni multimodali. Questa è seguita dalla seconda fase, l'inferenza della risposta, che sfrutta le motivazioni informative generate.
The multimodal CoT model (1B) outperforms GPT-3.5 on the ScienceQA benchmark.
Il modello CoT multimodale (1B) supera GPT-3.5 sul benchmark ScienceQA.
<Screenshot src={MCOT} alt="MCOT" />
Image Source: [Zhang et al. (2023)](https://arxiv.org/abs/2302.00923)
Sorgente Immagine: [Zhang et al. (2023)](https://arxiv.org/abs/2302.00923)
Further reading:
- [Language Is Not All You Need: Aligning Perception with Language Models](https://arxiv.org/abs/2302.14045) (Feb 2023)
Ulteriori letture:
- [Language Is Not All You Need: Aligning Perception with Language Models](https://arxiv.org/abs/2302.14045) (Feb 2023)

@ -4,11 +4,11 @@ import { Callout, FileTree } from 'nextra-theme-docs'
import {Screenshot} from 'components/screenshot'
import REACT from '../../img/react.png'
[Yao et al., 2022](https://arxiv.org/abs/2210.03629) introduced a framework where LLMs are used to generate both reasoning traces and task-specific actions in an interleaved manner. Generating reasoning traces allow the model to induce, track, and update action plans, and even handle exceptions. The action step allows to interface with and gather information from external sources such as knowledge bases or environments.
[Yao et al., 2022](https://arxiv.org/abs/2210.03629) ha introdotto un framework in cui gli LLM vengono utilizzati per generare sia tracce di ragionamento che azioni specifiche dell'attività in modo intercalato. La generazione di tracce di ragionamento consente al modello di indurre, tenere traccia e aggiornare i piani d'azione e persino di gestire le eccezioni. La fase di azione consente di interfacciarsi e raccogliere informazioni da fonti esterne come basi di conoscenza o ambienti.
The ReAct framework can allow LLMs to interact with external tools to retrieve additional information that leads to more reliable and factual responses.
Il framework ReAct può consentire agli LLM di interagire con strumenti esterni per recuperare informazioni aggiuntive che portano a risposte più affidabili e concrete.
<Screenshot src={REACT} alt="REACT" />
Image Source: [Yao et al., 2022](https://arxiv.org/abs/2210.03629)
Sorgente immagine: [Yao et al., 2022](https://arxiv.org/abs/2210.03629)
Full example coming soon!
Esempio completo in arrivo!

Loading…
Cancel
Save