近日,meta宣布推出一款全新的AI“世界模型”V-JEPA 2,该模型能够在物理世界中实现更先进的环境理解与预测能力,为自动驾驶、物流机器人等领域带来革命性突破。
V-JEPA 2拥有12亿参数,经过超过100万小时的视频训练,能够在物理世界中理解、预测并规划。与传统依赖海量标注数据或视频素材的AI模型不同,V-JEPA 2创新性地采用“潜在空间”压缩推理技术,通过构建高维特征的抽象表征,使系统能够高效理解物体运动规律、交互机制及环境响应特性。这一技术使得V-JEPA 2的推理速度达到英伟达Cosmos模型的30倍,标志着物理世界建模领域的重大进步。
meta首席AI科学家杨立昆表示,世界模型通过内部表征和模拟器来理解和预测环境的动态,让AI能够以更接近人类的方式进行学习、规划和决策。例如,V-JEPA 2能够识别出从桌子上滚落的球会掉到地上,也能判断视线之外的物体并未凭空消失。这种能力对于自动驾驶汽车和机器人等自主系统至关重要,将开启机器人技术的新纪元。
此外,meta还计划向人工智能初创公司Scale AI投资近150亿美元,获取该公司51%股权,并聘请多名研究人员加入“超级智能”团队,以加强自身AI战略。这一举措显示出meta在人工智能领域的雄心壮志,以及对于世界模型技术的重视。
随着V-JEPA 2的发布,meta还发布了三个新的基准测试,用于评估现有模型从视频中理解和推理物理世界的能力。尽管人类在这些基准测试中的表现都非常出色,但包括V-JEPA 2在内的顶级模型与人类表现之间仍存在显著差距,这表明模型需要在这些方向上进一步改进。