You cannot select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
Prompt-Engineering-Guide/pages/techniques/multimodalcot.tr.mdx

15 lines
997 B
Markdown

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# Çok Modlu CoT Bilgi İstemi
import { Callout, FileTree } from 'nextra-theme-docs'
import {Screenshot} from 'components/screenshot'
import MCOT from '../../img/multimodal-cot.png'
[Zhang et al. (2023)](https://arxiv.org/abs/2302.00923) yakın zamanda çok modlu bir düşünce zinciri yönlendirme yaklaşımı önerdi. Geleneksel CoT, dil yöntemine odaklanır. Buna karşılık, Multimodal CoT, metin ve vizyonu iki aşamalı bir çerçevede birleştirir. İlk adım, çok modlu bilgilere dayalı gerekçe oluşturmayı içerir. Bunu, bilgilendirici olarak oluşturulmuş gerekçelerden yararlanan ikinci aşama olan cevap çıkarımı izler.
Multimodal CoT modeli (1B), ScienceQA kıyaslamasında GPT-3.5'ten daha iyi performans gösterir.
<Screenshot src={MCOT} alt="MCOT" />
Resim Kaynağı: [Zhang et al. (2023)](https://arxiv.org/abs/2302.00923)
Daha Fazla Bilgi:
- [Language Is Not All You Need: Aligning Perception with Language Models](https://arxiv.org/abs/2302.14045) (Feb 2023)