大模型的空间认知
空间认知的层次
空间认知的层次指的是人们理解和处理空间信息的不同阶段和方式。这通常包括以下几个层次:
感知层次:在这一层次上,人们直接感知周围的空间环境。这包括对大小、形状、距离和方向等基本空间特征的感知。
描述层次:在这一层次上,人们开始用语言或其他符号系统来描述他们对空间的感知。例如,通过描述物体的位置或方向。
概念层次:这一层次涉及到对空间信息的更高级的理解和组织。例如,人们可能会形成关于空间关系的抽象概念,如“上”和“下”、“前”和“后”等。
推理层次:在这个层次上,人们使用他们对空间的理解来进行推理和解决问题。例如,规划从一个地方到另一个地方的最短路径。
应用层次:最高层次的空间认知涉及将空间理解应用于复杂的任务和决策中,如建筑设计、城市规划或导航。
空间认知可以划分为三个递进的组成部分: 空间可视化(spatial visualization)、空间关系(spatial relations)、和空间定向(spatial orientation):
- 空间可视化(Spatial Visualization):
- 这是指能够在心理上操纵、旋转、扭转或反转一个或一组视觉呈现的刺激物体的能力。这种能力通常涉及到对复杂刺激和连续变换的心理图像的操作,这可能需要时间来完成。例如,当尝试解决立体拼图或进行工程绘图时,就会使用到空间可视化能力。
- 空间关系(Spatial Relations):
- 空间关系与空间可视化不同,它涉及对简单空间关系的更快速和直观的理解。这通常涉及到辨识物体及其各部分之间的位置和方向关系,而不需要复杂的或顺序的变换。例如,在快速判断两个形状是否相同但是在不同方向时,就是在使用空间关系能力。
- 空间定向(Spatial Orientation):
- 空间定向指的是理解和预测在环境中变换观察点时,物体或图案如何变化的能力。它涉及到从一个新的视角来想象或理解视觉刺激模式的排列。例如,当你阅读地图并确定从当前位置到另一个位置如何移动时,你就在使用空间定向能力。
空间认知涉及的感知、决策到行为的过程体现了我们如何理解和互动于周遭的世界。每个认知层次都是在前一层次的基础上进一步发展的,需要更加高级的认知处理能力。这些能力在驾驶、阅读地图、解析复杂图像或进行空间规划等日常活动中都发挥着关键作用。空间可视化和空间定向尤其依赖视觉能力,但在大模型的评估中,我们主要关注空间关系,这是因为它是理解和操纵空间元素间关系的基础能力,对于我们日常生活及专业领域的许多活动都是不可或缺的。
空间关系认知的三个层次
空间关系认知的几个层次可以这样划分:
地标知识:这是空间认知的最基本层次,涉及对环境中显著对象的记忆,但最初不包括任何度量关系的信息。这些地标是个人在空间导航中的参照点。
路径知识:当人们在地标之间移动时,他们逐渐发展出路径知识。这种知识被看作是连接地标的空间序列信息,涵盖了从一个地标到另一个地标的具体路径或顺序。
测量知识:随着对环境熟悉度的增加,测量知识的发展将地标和路径知识整合起来,并将其与固定的坐标系统相关联。这种知识使人能够理解度量关系和绝对方位(如罗盘方位),并能够尝试以前从未走过的捷径。
测量知识又可以分为三个层次:
图知识(Graph Knowledge):这一层次代表了对环境的基本理解,环境被看作是节点(包括交叉点的可识别地点)和边(节点之间的可通行路径)的网络,但不包含度量信息。它显示了环境的连通性,但没有提供关于距离或方向的具体信息。
标注图(Labeled Graph):在这个层次,空间知识包含了局部的度量信息。图知识中加入了地点之间的距离和路径之间的角度。这些信息可能不是完全准确或全局一致的,但提供的细节比基本的拓扑图更多。这里,图上标注了大约的距离(如~3, 2)和角度(如45°, ~90°),表示了对空间关系更进一步的理解。
调查知识(Survey Knowledge):图中显示的最高级别的空间知识是测量知识,它类似于地图,并且是构型的。它将位置嵌入到一个共同的坐标系统中,提供了整个区域内准确和一致的度量信息。给出了特定点的坐标,表明了二维空间中的精确位置。
这三个层次展示了从简单、定性的空间关系理解到复杂、定量的、精确的度量表征的发展过程,类似于人类在空间理解上的认知发展。
语言大模型具有理解高维空间的能力么
ChatGPT和其他基于Transformer的大型语言模型确实主要处理语言作为一种一维序列。这些模型在处理文本时,将文本视为一系列词汇、词组或字符的线性排列。然而,处理这种一维序列的能力并不意味着模型仅限于理解一维结构。以下是一些关键点:
- 高维特征表示:
- 尽管输入本身是一维的(即文本序列),但模型内部通过词嵌入和隐藏层将这些输入转换为高维特征空间中的表示。这意味着每个词或词组被转化为高维空间中的一个点,其中包含丰富的语义和语法信息。
- 上下文理解能力:
- 大型语言模型如ChatGPT利用自注意力机制来理解文本中的上下文。它能够关注输入序列中的所有元素,并根据这些元素之间的关系调整每个元素的表示。这超越了简单的一维顺序处理,涉及到在更高维度上理解和整合信息。
- 处理多维语言特征:
- 虽然语言表达本身是线性的,但语言的意义和结构是多维的。大型语言模型能够在一定程度上捕捉这种多维性,如理解句法结构、语义关系、语言中的隐含意义和语境等。
- 限制和挑战:
- 尽管如此,目前的大型语言模型在理解非线性、多维语言现象(如诗歌、双关语、高度隐喻性或抽象的语言)时仍然面临挑战。
- 此外,这些模型通常不处理跨媒体的多维数据,如结合文本和视觉信息的场景。
尽管大型语言模型如ChatGPT在处理和生成文本时主要关注一维序列,但它们内部的处理机制涉及到将这些序列转换和理解为高维特征空间中的复杂表示。这使得它们能够在一定程度上理解和处理语言的多维复杂性。然而,它们在处理高度抽象或复杂的多维语言现象时仍有局限性。
空间认知的经典实验
空间认知的第一个层次
图形旋转任务(Mental Rotation Task)
- 这是一种评估人类空间视觉化能力的实验。
- 参与者需要在心中旋转二维或三维的图形,以判断它们是否与给定的参照图形相同。
- 这个任务测试了空间变换能力和旋转物体的心理表示能力。
- 主要来自Ishikawa的书里的实验,可以通过语言来进行描述。
- 例如:门棱实验 (Door Frame Experiment):这个实验是由美国心理学家罗杰·谢帕德和杰奎琳·梅茨勒进行的。它涉及到观察者对旋转的三维对象(如门框)的认知,用于研究空间旋转能力。
空间认知的第二个层次
经典Tolman迷宫实验
变种0 :经典的Tolman迷宫实验(实验迷宫可以自定)
多路径迷宫:在一个典型的实验中,老鼠被放入一个具有多个分支和选择点的复杂迷宫中。迷宫的设计允许测试动物学习和记忆迷宫的整体布局,而不仅仅是单一的刺激-反应路径。
阻塞和替代路径:在一些实验中,托尔曼会阻塞通往奖励的常规路径,迫使老鼠寻找替代路径。这样的设计有助于观察动物是否能够灵活地使用其对迷宫布局的记忆来找到新的路线。
变化起点或目标位置:在另一些实验中,起点或食物的位置被改变,以测试老鼠是否能够根据迷宫的整体布局找到目标。
举例实验:一只老鼠被放在一个十字形的迷宫里自由探索。在最初的探索之后,老鼠被放在十字架的一个臂上,食物被放在紧邻右边的下一个臂上。大鼠很快学会了在十字路口向右转,以获得食物。然而,当老鼠被放置在十字迷宫的不同臂上时,大鼠仍然朝着正确的方向去获取食物,找到通往食物的捷径。也就是说,老鼠的行为并不是由行为-奖赏之间的条件反射机械地决定,而是会自发学习迷宫的空间布局,即构建认知地图,并借此可以推断出通往食物的捷径。
变种1: T or Y形迷宫(https://zhuanlan.zhihu.com/p/480665753)(https://zhuanlan.zhihu.com/p/604193655)
变种2: 放射状迷宫(https://zhuanlan.zhihu.com/p/356283688)
变种3: 莫里斯水迷宫
设计和结构
迷宫本身:莫里斯水迷宫通常是一个圆形的大容器,直径大约为1.2到1.8米。容器填满温水,通常保持在约22至26摄氏度之间。
水的颜色:为了使水不透明,通常会加入白色的无毒颜料。这样做是为了隐藏水下的平台,使老鼠无法依靠视觉找到它。
隐藏平台:迷宫中有一个小平台,位于水面下大约1至2厘米。这个平台使老鼠能够站立并休息,但对于游泳中的老鼠来说不是显而易见的。
环境线索:迷宫周围通常放置几个显著的、不动的视觉线索,如图案、颜色或形状,帮助动物定位。
实验过程
适应阶段:实验开始前,动物通常被允许适应水的温度和环境。
训练阶段:在训练阶段,老鼠被放入水中并开始寻找隐藏的平台。动物被从不同的起点放入水中,以避免它们仅依赖开始位置的记忆。
记忆测试:在经过一系列训练后,进行记忆测试,以评估动物记住平台位置的能力。这可以通过移除平台并观察动物在水中搜索平台的位置的时间和路径来实现。
变体:实验的变体可能包括改变平台的位置或使用不同的环境线索,以测试动物的学习和适应能力。
结果和影响
托尔曼的实验结果支持了他的认知地图理论,即动物(和人类)在其环境中导航时,不仅仅是依赖简单的刺激-反应机制,而是形成了一个复杂的、关于环境的心理表征。这一发现挑战了当时主流的行为主义观点,即所有学习都是通过条件反射和强化来实现的。
路径整合实验(Path Integration):
- 路径整合是一种空间导航技能,指的是在没有环境线索的情况下通过自己的运动来估算位置的能力。
- 实验通常涉及让个体在没有可视地标的情况下移动,然后要求他们返回起点。
- 这种实验有助于了解人类和动物如何使用运动感知和内部感觉来导航。
实验设计
- 只给大模型提供矢量轨迹,问从某一个点到另外一个点的最短路径
- 分别构建从一维空间到高维空间的不同轨迹
- 构建两组:1、要求大模型不使用其他工具 2、要求大模型可以使用pyhton等分析能力
尺度空间认知实验:
空间认知的尺度可以分为小尺度、中尺度和大尺度,这些尺度涉及不同的环境大小和范围,以及人们在这些环境中如何理解和导航空间。每个尺度层面对应不同的空间处理和认知任务。
小尺度空间认知(Micro-Scale Spatial Cognition)
- 定义:涉及到个人的直接身体空间,即一个人可以在不移动其位置的情况下到达和操作的范围。
- 实例:操作桌面上的物品、在一个房间内的移动、使用工具和设备等。
- 认知特点:在这个尺度上,空间认知通常涉及对物体的直接感知、操作和互动,如手眼协调、物体大小和形状的感知。
中尺度空间认知(Meso-Scale Spatial Cognition)
- 定义:涉及到可以通过短距离移动来经历的空间,如单个房间、建筑物或小型户外空间。
- 实例:在一个办公室、家庭或学校内导航,或在一个小公园里散步。
- 认知特点:这一层面的空间认知涉及到对更广范围内的环境布局和方位的理解,需要记忆和导航技能,如记住不同房间的位置、识别地标等。
大尺度空间认知(Macro-Scale Spatial Cognition)
- 定义:涉及到广阔的、需要较长时间和距离移动才能经历的空间,如整个城市、地区或自然景观。
- 实例:在一个城市中导航,长途旅行,或在广阔的自然环境中定位。
- 认知特点:大尺度空间认知通常需要对广阔空间和远距离地理特征的理解,包括地图阅读、路线规划、方向感以及对大范围地标的记忆。
小尺度更侧重于感知和操作,中尺度结合了感知、记忆和导航,而大尺度则依赖于对广阔空间的理解和复杂的导航策略。为大模型构建不同尺度的空间与轨迹描述,询问对于整体空间关系的认知记忆。
空间认知的第三个层次
场景重构实验
参与者在观察一个场景或布局后,被要求从记忆中重建该场景。这可以在物理环境中进行,也可以通过绘制或使用计算机软件完成。 #### 实验设计 - 实验材料:可以包括实际的物理空间、模型或通过虚拟现实技术创建的环境。 - 实验过程:参与者可能会被要求在观察或探索一个场景之后,从记忆中重建该场景。 - (为大模型提供不同的轨迹,让他重构整个空间;提问不同位置上,观测到的地物的遮挡关系等,空间关系与空间位置能力)
三山实验(Three Mountain Task)
三山实验是由让·皮亚杰和巴尔贝·因赫尔德在1956年设计的,旨在评估儿童对不同视角下的空间关系的理解。这项实验对儿童的认知发展,特别是他们理解他人视角的能力,有着重要的启示。
实验设计
- 实验材料:实验使用一个小模型,包含三座不同大小和形状的山,山上可能有不同的标记(如房子、树木)。
- 实验过程:儿童被要求从不同的位置观看这个模型,并描述从这些不同位置看到的景象。接着,他们被要求选择或描述从一个不在场的玩偶的视角看到的景象。