作者:网易情报创建陈晨 主编|王凤智 在生命进化的漫长历史中,“看”世界比“说”世界早了5亿年。现在,AI正在弥补这个教训。这一充满进化智慧的判断,是李飞飞对当前人工智能浪潮的最新评论。在充满冲动和喧嚣的硅谷,他的声音始终表达着一种善意的愿景。北京时间2月4日一早,无可争议的“人工智能教母”带着她的初创公司World Labs亮相思科人工智能峰会。这位曾经引爆计算机视觉革命的科学家并没有追随大模型语言游戏的潮流,而是转向人工智能进化的下一个难题:空间智能。她认为,人工智能的下一个巅峰将不仅仅是编写代码和聊天的能力,而是理解我们所居住的三维空间并与之真正互动的能力,就好像它是我们所居住的一样。是一个生命体。除了技术方面,它还为人工智能的未来建立了人文标准。 “人工智能的成功必须体现在文明的进步中,让所有人都能够追求幸福、繁荣和尊严。”以下是对这次精彩采访的分析,探讨“空间智能”将如何重塑我们的未来。 1、用进化论来说明:感知先于语言。虽然许多人认为人工智能的最终形式是语言模型,但李飞飞提出了一个有趣的观点。从进化的角度来看,语言实际上是一个“新来者”。他说,例如,五亿多年前的寒武纪时期,生物体首先发展出感知系统,而不是语言。动物通过触觉和视觉观察环境,开始一场进化军备竞赛,让它们的生活变得更加智能。李飞飞认为,“除了语言智能之外,还有理解、推理和互动的能力。三维物理世界是最基本的能力。这是AI的下一个前沿。”这也是World Labs的核心逻辑。如果AI不能像人类一样理解空间,就永远无法真正进入真实的物理世界。2.什么是大理石?这不仅仅是一个视频,而是李飞飞的《世界》专访,其中李飞飞详细介绍了World Labs的第一个模型Marble。很多人将此与Sora等视频生成模型混淆,但李飞飞指出,两者之间有本质的区别。Marble是真正的“世界” · 全场景交互:基于文本消息或图像生成完整的、可导航的、交互式的 3D 世界。 · 物理一致性:物理和逻辑空间上始终一致,而不是“看起来像”的几何结构视频。这意味着它不仅可以用于游戏,还可以直接作为训练机器人的“虚拟实验室”。 3. 意想不到的用例:从机器人到 psychotherapy 空间智能应用的局限性在哪里?李菲菲的答案出乎很多人的想象。 · 游戏、电影和电视:开发者可以利用它来快速创作。创建可导航的虚拟世界,让特效团队能够实现虚拟制作。 ・机器人训练:与NVIDIA等合作伙伴合作,提供高精度的机器人模拟环境。 · 建筑设计:设计师无需预约即可立即将平面图转换为 3D 样板房。最令人惊讶的是医学研究。心理学家利用 Marble 为强迫症 (OCD) 患者定制个性化的沉浸式环境,并通过模拟特定的触发场景来实施科学干预。 4、数据和计算能力:我们距离通用机器人还有多远?当被问及Marble烧钱是否和GPT-5一样多时,李飞飞显得很真诚。目前,Marble 的训练规模比主要的大规模语言模型的模型。这是因为该领域仍处于“规模法则”的早期阶段,同时面临数据收集的挑战。李飞飞坦言,与网上能找到的文字不同,高质量的3D实物数据非常难得。他透露,世界实验室目前正在采用混合数据策略,综合利用互联网图形视频、模拟数据、“捕捉”数据。对于通用机器人,李飞飞也给他们泼了一盆冷水,他说:“汽车只是一个‘方盒子’,在二维平面上移动,尽量不接触东西。但通用机器人必须能够在三维空间中灵活精准地抓取和交互。这是一个很高维的问题,我们无法空洞的承诺。” 5.拒绝“技术末日”:人工智能的成功必须关乎尊严。作为人工智能领域的领军者,李飞飞关注当前两极分化的局面修辞。在他看来,“技术乌托邦”和“世界末日的生存危机”都不够负责任。他强调,技术是一把双刃剑,人类需要发挥主观能动性来引导它。那么人工智能成功的决定性标志是什么?李飞飞借用了“电”的比喻。电力的成功不在于电缆本身,而在于为学校照明、为家庭供暖和延长人类预期寿命。 “人工智能的成功也应该体现在文明的进步上,让每个人都能追求幸福、繁荣和尊严。” 6. 结论 从理解像素到构建世界,李飞飞带领团队探索宇宙智慧的无人区。这不仅是一次技术飞跃,也是人类为数字生活增添“感知”的新尝试。空间智能可能是通用人工智能的“物理钥匙”。 (以下为讲座实录) 主持人:好的。接下来,我我们要谈论 3D 模型,而不仅仅是语言模型。今天我们有幸邀请到了被誉为“人工智能教母”的李飞飞博士,我们也很荣幸成为飞飞博士公司的投资人。让我们用掌声欢迎李飞飞博士上台。今天是 Wo,我想我会穿 rld Labs Peripheral T 恤。你之前给过我。这实在是想得很周到。李飞飞:是的,我还在等思科外设。主持人:没问题。我们会立即修复它。感谢您来到这里。看到世界实验室在过去一年中取得的进步真是令人兴奋。人们会很高兴。菲菲,请告诉我们一些您目前正在做什么以及为什么它如此重要。李飞飞:好的。现在,当我每天醒来时,我脑子里真的只有一件事。这是空间智能。这是 World Labs 的核心,大约两年前,我与一群年轻工程师共同创立了这家公司。从进化的角度来看,开始进化的是感知,而不是语言。神经系统在五亿多年前就已发育完毕。早在语言出现之前,动物就认识了光,并开始通过触觉和视觉与环境互动。主持人:您认为“本能”也属于知觉的范畴吗?李飞飞:对我来说,“本能”是一个比较模糊的词。但从身体进化的角度来看,正是视觉开启了进化史上的“军备竞赛”,让动物变得更加活跃和聪明。与语言智能一样,在真实 3D/4D 物理世界中理解、推理、交互和导航的能力是最基本的基础技能。其中的关键技术是“空间智能”,这是人工智能的下一个前沿领域。主持人:我们来谈谈大理石吧。最近发布的“Marble”到底是什么?李飞飞:Marble是我们第一代空间智能模型。我们非正式地将其称为“世界模型”。可以接受多种输入模式,例如文本、图像、视频或简单的 3D i输入,并基于这些文字生成一个完全可遍历、实时交互且持续一致的 3D 世界。这与现在的视频模型完全不同。具有完整的几何结构,可支持机器人仿真训练和游戏编程。主持人:通用人工智能。有一种想法认为,如果不改善人工智能的物理特性,就无法实现(AGI)。随着时间的推移,这里最大的“突破”会是什么?除了机器人,五年后它还能用来做什么?李飞飞:其实我们不需要等五年。用户已经使用 Marble 进行游戏开发,电影和电视特效 (VFX) 客户也已经使用它进行虚拟制作。我们正在与 NVIDIA 和几家初创公司合作,使用 Marble 作为机器人的开发环境和培训。建筑师和设计师用于室内设计。另一个令我惊讶的用例是临床研究。精神的健康研究人员正在利用它为强迫症 (OCD) 患者创建身临其境的个性化环境,以模拟特定的触发场景。主持人:您将一生都奉献给了人工智能。在创办这家公司和研究空间智能的过程中,最令你惊讶的是什么?李飞飞:这几年的发展速度确实令人印象深刻。每个人都会感到焦虑,感觉要读的东西太多,模型发布得太快。这让我感到谦卑,我意识到我所知甚少。另一件让我担心的事情是技术乌托邦主义与“存在危机”启示录之间高度两极分化的言论。这两种意见都不是非常负责任的。技术是一种尖端武器,我相信我们必须采取主动并将其引导到仁慈和复杂的应用中。主持人:您认为未来几年人工智能的成功标准是什么?李飞飞:回顾能源技术ogy,它的成功在于照亮学校、温暖家庭、推动工业化、延长人类寿命。人工智能成功的标志应该是它推动文明进步,让所有人都能追求幸福、繁荣和尊严。主持人:大规模世界模型是否与语言模型一样计算密集?李飞飞:目前我们的模型和最大的大规模语言模型(LLM).plug一样大。 GPT-5的训练计算能力约为10^26 FLOPS,而Marble要小几个数量级。原因之一是该领域仍然非常新。 arThe Transformer 文章发表于 2017 年,全局模型刚刚开始进入标度律的上升曲线。主持人:语言模型是使用互联网上的免费数据进行训练的。然而,物理数据很难获得,因此综合数据很重要。缺乏数据会阻碍全球模型的发展吗?另外,通用或专用 r未来会出现机器人吗?李飞飞:我们正在采用混合数据策略。虽然语言数据相对清晰且易于观察,但像素和体素的物理世界要复杂得多。我们在互联网规模上利用文本、图像和视频,但我们也需要模拟或“现实世界捕获”数据,类似于 Tesla 和 Waymo 等自动驾驶汽车公司正在做的事情。关于机器人:作为一名科学家,我不喜欢写空头支票。它可以被认为是一辆汽车,它就像一个在二维平面上移动的“方形机器人盒子”,其主要目标是避开障碍物。通用机器人是三维实体,必须与物体接触并相互作用而不造成损坏。这是一个更高维度的问题,具有非常高的灵活性和空间精度。主持人:最后,企业应该如何看待全球模式?李飞飞:空间智能是一种通用的水平技术。除了机器人和游戏之外,它还有应用领域包括医疗保健、教育、现场服务、金融服务、农业、制造业和城市规划。这是下一个前沿。我们邀请您一起探讨这个话题。主持人:谢谢。李飞飞:谢谢。