的本质置于其方法的核心

sami · Post by **sami** » Mon Mar 24, 2025 4:04 pm

语言模型和我们现在看到的多模态语言模型其底层的表示是“一维的”。我们谈论上下文长度、、序列、注意力机制但归根结底这些模型的表示是基于一维的序列化令牌。这种表示在处理语言时是非常自然的因为文本本身就是由一维的离散字母序列组成的。

这种一维表示是成功的基础现在我们看到的多模态也是如此它们将其他模态（如图像）“硬塞进”这种一维的表示中。而在空间智能领域我们的思路正好相反——我们认为世界的三维本质应该成为表示的核心。

从算法的角度来看这为我们处理数据和获得不同类型的输出提供了新的机会帮助我们解决一些截然不同的问题。即使从一个粗略的层面来看你可能会说：“多模态也能看图像。

”确实可以但它们在处理图像时没有将三维的本质置于其方佐治亚州电报筛选法的核心。我完全同意讨论一维与三维表示的根本性区别是非常核心的。此外还有一个稍微哲学化的观点但对我来说同样重要：语言本质上是一种纯生成的信号世界上不存在语言。

你走到大自然中不会看到天上写着文字。无论你输入什么数据语言模型几乎都可以通过足够的泛化将相同的数据吐出来这就是语言生成的特质。但世界不同它遵循物理法则拥有自己的结构和材料。

能够从根本上提取这些信息进行表示和生成这是一种完全不同的问题。尽管我们会借鉴语言模型中的一些有用的想法但从根本上来说这是一个不同的哲学问题。对所以语言模型是一维的可能是对物理世界的不良表示因为它是人类生成的带有损失。