GPT-3 是在大量未标记数据上进行预训练的。它基本上是从整个开放互联网中获取数据,然后自行处理并建立自己的连接。这种技术称为深度学习,它是机器学习的基本组成部分,大多数现代 AI 工具都是通过机器学习开发的。
需要注意的是,GPT 理解文本的方式与人类并不完全相同。AI 模型将文本分解为token ,而不是单词。许多单词会映射到单个 token ,但较长或较复杂的单词通常会分解为多个 token 。GPT-3 接受了大约 5000 亿个 token 的训练。
一个复杂的、多层的、加权的算法,该算法模仿人 华侨资料 类的大脑,称为深度学习神经网络。正是它让 GPT-3 能够理解文本数据中的模式和关系,并利用其创建类似人类的反应的能力。GPT-3 的神经网络有 1750 亿个参数(或变量),使其能够接受输入(您的提示),然后根据它赋予不同参数的值和权重(以及少量随机性),输出它认为最符合您的要求的内容。
GPT 的网络采用 Transformer 架构——它是 GPT 中的“T”。Transformer 的核心是一个名为“自注意力”的过程。较旧的循环神经网络 (RNN) 从左到右读取文本。另一方面,基于 Transformer 的网络同时读取句子中的每个标记,并将每个标记与所有其他标记进行比较。这使得它们能够将“注意力”集中在最相关的标记上,无论它们在文本中的哪个位置。
当然,这一切都大大简化了事情。GPT 无法真正理解任何东西。相反,每个标记都被编码为一个向量(具有位置和方向的数字)。两个标记向量之间的距离越近,GPT 就认为它们之间的联系越紧密。这就是为什么它能够处理棕熊、携带武器的权利、滚珠轴承和方位之间的差异。虽然所有这些都使用字母串“bear”,但它的编码方式使得神经网络可以从上下文中判断出最有可能相关的含义。