diff --git a/pages/techniques/tot.zh.mdx b/pages/techniques/tot.zh.mdx index 9dc77c1..722fc11 100644 --- a/pages/techniques/tot.zh.mdx +++ b/pages/techniques/tot.zh.mdx @@ -17,7 +17,7 @@ ToT 框架原理如下: ToT 需要针对不同的任务定义思维/步骤的数量以及每步的候选项数量。例如,论文中的“算 24 游戏”是一种数学推理任务,需要分成 3 个思维步骤,每一步都需要一个中间方程。而每个步骤保留最优的(best) 5 个候选项。 -ToT 完成算 24 的游戏任务要执行宽度优先搜索(BFS),每步思维的候选项都要求 LM 给出能否得到 24 的评估:“sure/maybe/impossible”(一定能/可能/不可能) 。作者讲到:“目的是得到经过少量向前尝试就可以验证正确(sure)的局部解,基于‘太大/太小’的常识消除那些不可能(impossible)的局部解,其余的局部解作为‘maybe’保留。”每步思维都要抽样得到 3 个评估结果。整个过程如下图所示: +ToT 完成算 24 的游戏任务要执行广度优先搜索(BFS),每步思维的候选项都要求 LM 给出能否得到 24 的评估:“sure/maybe/impossible”(一定能/可能/不可能) 。作者讲到:“目的是得到经过少量向前尝试就可以验证正确(sure)的局部解,基于‘太大/太小’的常识消除那些不可能(impossible)的局部解,其余的局部解作为‘maybe’保留。”每步思维都要抽样得到 3 个评估结果。整个过程如下图所示: 图片援引自:[Yao et el. (2023)](https://arxiv.org/abs/2305.10601) @@ -40,4 +40,4 @@ ToT 完成算 24 的游戏任务要执行宽度优先搜索(BFS),每步思 以此类推,直到所有专家写完他们思考的所有步骤。 只要大家发现有专家的步骤出错了,就让这位专家离开。 请问... -``` \ No newline at end of file +```