并成功推广到 OOD 分布

rifat177 · Post by **rifat177** » Thu Dec 26, 2024 12:45 pm

这些方法（例如 MCTS）将输出建模为节点序列，可以处于标记或句子级别。例如： token级别的节点：每个节点对应生成序列中的一个Token。通过MCTS，模型可以探索不同的Token序列并最终生成更加连贯的响应。句子级节点：在复杂的推理任务中，每个节点可以代表一个完整的句子或推理步骤，帮助模型更好地处理多步推理任务。。相关作品。 Jason Wei的推理链引发了大型语言模型中的推理，也称为COT。主要内容：通过一系列的中间推理步骤，可以大大提高大语言模型进行复杂推理的能力，对模型进行微调，可以自然地激发大语言模型的推理能力。

链式思维能力的出现：链式思维推理能力并不葡萄牙电话号码表是所有模型都具备，而是随着模型规模的增大而逐渐出现。对于需要多步推理的任务，链接指令可以显着提高模型性能，尤其是在大型语言模型上。该方法也为提高模型的可解释性和鲁棒性提供了新的思路。通过逐步推理，CoT 要求模型在生成最终答案之前生成一系列中间推理步骤。生成这个“推理链”的过程有助于提高模型的推理能力，尤其是在数学和代码生成等任务中。然而，虽然 CoT 可以生成中间步骤，但它并没有教会模型如何深入思考问题内部的相互关联性。

尤其是对于特别复杂、需要多层次推理规划的任务，这种合理的中间CoT推理过程（Rationales）就更加重要。。让我们从 Ilia 等人那里逐步检查一下。主要内容：比较了训练大型语言模型进行复杂推理的两种方法：结果监督和过程监督，并做出以下主要贡献：）过程监督比结果监督更高效研究表明，通过过程监督训练的奖励模型更可靠优于结果监督，可以解决集合中78.%的问题MATH数据，而监测结果只能解决66.%。过程监控提供更精确的反馈，查明发生错误的具体位置，帮助模型更好地分配信用和学习。