import { Callout, FileTree } from 'nextra-theme-docs'
import {Screenshot} from 'components/screenshot'
import TOT from '../../img/TOT.png'
import TOT2 from '../../img/TOT2.png'
import TOT3 from '../../img/TOT3.png'
複雑な課題に対して、探索や戦略的な先読みが必要な場合、従来の単純なプロンプト技術では不十分です。[Yao et el. (2023)](https://arxiv.org/abs/2305.10601)と[Long (2023)](https://arxiv.org/abs/2305.08291)は最近、思考の木(Tree of Thoughts、ToT)というフレームワークを提案しました。これは、言語モデルを用いた一般的な問題解決のための中間ステップとして機能する思考の探求を促進するものです。
Image Source: [Yao et el. (2023)](https://arxiv.org/abs/2305.10601)
Code available [here](https://github.com/princeton-nlp/tree-of-thought-llm) and [here](https://github.com/jieyilong/tree-of-thought-puzzle-solver)
[Yao et al. (2023)](https://arxiv.org/abs/2305.10601)と[Long (2023)](https://arxiv.org/abs/2305.08291)の主なアイデアは、高いレベルでは似ています。両者とも、マルチラウンドの対話を通じた木探索よって、複雑な問題解決能力を向上させます。主な違いの一つは、[Yao et al. (2023)](https://arxiv.org/abs/2305.10601)がDFS/BFS/ビームサーチを活用しているのに対し、[Long (2023)](https://arxiv.org/abs/2305.08291)で提案されている木探索戦略(いつバックトラックするか、バックトラックするレベルなど)は、「ToTコントローラー」と呼ばれる強化学習によって訓練されたモデルによって制御されます。DFS/BFS/ビームサーチは、特定の問題に適応されるわけではない一般的な解探索戦略です。一方、強化学習を用いて訓練されたToTコントローラーは、新しいデータセットやセルフプレイ(AlphaGo対ブルートフォース探索)から学習することができ、したがって、固定されたLLMでもRLベースのToTシステムは進化し、新しい知識を学び続けることができる可能性があります。