Update translation for ToT.

2024-11-02 15:40:13 +00:00 · 2023-06-20 14:12:53 +08:00 · 2023-06-20 14:12:53 +08:00 · de866cb449
commit de866cb449
parent 63e2417f48
1 changed files with 14 additions and 1 deletions
--- a/pages/techniques/tot.zh.mdx
+++ b/pages/techniques/tot.zh.mdx
@ -27,4 +27,17 @@ ToT 完成算 24 的游戏任务要执行宽度优先搜索（BFS），每步思
 <Screenshot src={TOT3} alt="TOT3" />
 图片援引自：[Yao et el. (2023)](https://arxiv.org/abs/2305.10601)
-代码示例在[这里](https://github.com/princeton-nlp/tree-of-thought-llm)。
+[这里](https://github.com/princeton-nlp/tree-of-thought-llm)还有[这里](https://github.com/jieyilong/tree-of-thought-puzzle-solver)可以找到代码例子。
 从大方向上来看，[Yao et el. (2023)](https://arxiv.org/abs/2305.10601) 和 [Long (2023)](https://arxiv.org/abs/2305.08291) 的核心思路是类似的。两种方法都是以多轮对话搜索树的形式来增强 LLM 解决复杂问题的能力。主要区别在于 [Yao et el. (2023)](https://arxiv.org/abs/2305.10601) 采用了深度优先（DFS）/广度优先（BFS）/集束（beam）搜索，而 [Long (2023)](https://arxiv.org/abs/2305.08291) 则提出由强化学习（Reinforcement Learning）训练出的 “ToT 控制器”（ToT Controller）来驱动树的搜索策略(宝库什么时候回退和搜索到哪一级回退等等)。深度优先/广度优先/集束搜索是通用搜索策略，并不针对具体问题。相比之下，由强化学习训练出的 ToT 控制器有可能从新的数据集学习，或是在自对弈（AlphaGo vs. 蛮力搜索）的过程中学习。因此，即使采用的是冻结的 LLM，基于强化学习构建的 ToT 系统仍然可以不断进化，学习新的知识。
 [Hulbert (2023)](https://github.com/dave1010/tree-of-thought-prompting) 提出了思维树（ToT）提示法，将 ToT 框架的主要概念概括成了一段简短的提示词，指导 LLM 在一次提示中对中间思维做出评估。ToT 提示词的例子如下：
 ```
 假设三位不同的专家来回答这个问题。
 所有专家都写下他们思考这个问题的第一个步骤，然后与大家分享。
 然后，所有专家都写下他们思考的下一个骤并分享。
 以此类推，直到所有专家写完他们思考的所有步骤。
 只要大家发现有专家的步骤出错了，就让这位专家离开。
 请问...
 ```