杂度的研究人员选择了困惑度
Posted: Sat Dec 28, 2024 4:11 am
. 长上下文:k 为了评估长上下文中的功能研究人员使用了的一个流行子集——k对从k到k以个增量的上下文长度进行了实验。 根据上图可以观察到—— 在k的k上下文中 k的所有果类似。即使具有架构的-在k上下文中的表现也比稍好。 在.尺度上-仅比-稍差。由于缺之清晰的线性拟合很难推导出经验缩放定律。然而-的强劲趋势表明架构可能更适合超出评估的更大模型和更长上下文。 上下文长度作为超参数 虽然输入序列的长度由用户确定但语言模型处理输入的上下文长度可以由工程师确定。因此上下文长度也是一个可以选择的超参数。 对于具有线性复观察结果仍然成立唯一的例外是的表现略好于-。
在k上下文中-和-的性能 乌拉圭电话号码表 均优于与 k的观察结长度都有相同的。 从图中可以观察到以下结果—— 性能最好的方法-和-的线几乎完全重叠。和 的线在^ 后也大部分重叠。 的性能明显优于 因为它受益于长上下文而不会在训练中产生极大的成本。 对于所有从头开始训练的方法(包括预训练)一旦上下文长度变得太大困惑度就会变得更糟。 从上图可见与-相比-在短上下文中表现稍差但在长上下文中表现更好。 这一观察结果正符合研究人员的预期即作为隐藏状态的比线性模型更具表现力。同样所有方法都具有与 .相同的训练。
. 实际运行时间 训练和推理可以分解为前向、后向和生成。 由于前向(在训练和推理期间)和后向都可以并行化因此研究人员使用对偶形式。生成新k(也称为解码)本质上是顺序的因此研究人员使用原始形式。 由于资源限制这项实验是用J编写并在上运行的。 然而由于(在、和中实现)只能在上运行因此为了公平比较研究人员还重写了方法以在上运行。 具体来说研究人员在K中编写了一个用于前向的内核。从历史上看由于并行性和矩阵相乘的使用不当在前向和后向过程中效率低下。 这个前向内核的目标是证明- 和这些问题对偶形式的有效性。 图的左图显示了前向内核批大小为的延迟。
在k上下文中-和-的性能 乌拉圭电话号码表 均优于与 k的观察结长度都有相同的。 从图中可以观察到以下结果—— 性能最好的方法-和-的线几乎完全重叠。和 的线在^ 后也大部分重叠。 的性能明显优于 因为它受益于长上下文而不会在训练中产生极大的成本。 对于所有从头开始训练的方法(包括预训练)一旦上下文长度变得太大困惑度就会变得更糟。 从上图可见与-相比-在短上下文中表现稍差但在长上下文中表现更好。 这一观察结果正符合研究人员的预期即作为隐藏状态的比线性模型更具表现力。同样所有方法都具有与 .相同的训练。
. 实际运行时间 训练和推理可以分解为前向、后向和生成。 由于前向(在训练和推理期间)和后向都可以并行化因此研究人员使用对偶形式。生成新k(也称为解码)本质上是顺序的因此研究人员使用原始形式。 由于资源限制这项实验是用J编写并在上运行的。 然而由于(在、和中实现)只能在上运行因此为了公平比较研究人员还重写了方法以在上运行。 具体来说研究人员在K中编写了一个用于前向的内核。从历史上看由于并行性和矩阵相乘的使用不当在前向和后向过程中效率低下。 这个前向内核的目标是证明- 和这些问题对偶形式的有效性。 图的左图显示了前向内核批大小为的延迟。