“学生模型”(Qwen/Llama 模型)从数据集中学习,帮助它在面对特定提示/问题时找到要遵循的行动模式。
这个过程称为监督微调(SFT),比 R1 的训练更快、更直接。
它不使用 RL,而是复制 R1 在其生成的数据集中所做的事情(其中 R1 使用 RL 进行学习)。
人们已经假设Deepseek 是在 GPT 4-o 的输出上进行训练的。非营利组 伊朗电报号码数据 织 AI Now Institute 的首席 AI 科学家 Hiedy Khlaaf表示:“即使现在互联网数据中充斥着 AI 输出,其他意外使用 ChatGPT 或 GPT-4 输出进行训练的模型,也不一定会展示出类似 OpenAI 定制消息的输出。”
但是,即使 Deepseek R1 从ChatGPT 4-o 的回复中获取 PPO 数据,它仍然无需 Open AI 的任何细节就能重建推理范式。它还通过优化推理和训练性能,在微型 GPU 集群上训练了模型 v3 和 R1。
记住 Karpathy 的名言。Deepseek 和 Open AI 之间的一个关键区别是,前者只使用后者预算的一小部分来创建等效模型。
这是因为他们在训练期间采取了几个步骤:
DeepSeek 的智能模型设计
1.混合专家模型– Deepseek 使用混合专家模型,其中模型的单个部分用于回答特定类型的问题。因此,为了针对特定类型的答案进行优化,他们必须对模型的一小部分进行微调,而不是一次性微调整个模型。
2.多头潜在注意力——这种独特的架构有助于 LLM 实现更快的训练。在这里,低秩值被压缩,全值也被压缩以加快计算速度,然后重建结果,而焦点仍然集中在特定的输出上。
3.多标记预测——Deepseek不仅预测序列中的下一个