当前位置:天然小说>其他类型>大白话聊透人工智能> 李飞飞访谈:AI下一站——能“懂3D世界”的世界模型
阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

李飞飞访谈:AI下一站——能“懂3D世界”的世界模型(1 / 4)

最近ai圈的大佬李飞飞在访谈里分享了关于ai发展的核心观点,很多人听完觉得“高深莫测”——一会儿说“通用ai还很遥远”,一会儿提“世界模型是下一个方向”,还有“3d空间智能”“可自由导航的3d世界”这些专业词,让人摸不着头脑。

其实李飞飞的核心意思特别好懂:现在咱们用的ai(比如chatgpt、豆包)虽然能写文案、答问题,但本质上是“只会读文字、看图片的学霸”,根本不懂真实世界的3d空间逻辑;而未来的ai要想更实用,得先学会“看懂3d世界、构建3d世界”,这就是“世界模型”要干的事。她创办的公司worldlives已经做出了全球首个大型世界模型产品arble,能根据文字或图片生成可自由走的3d场景,这事儿在游戏、机器人、虚拟制造等领域用处极大。

今天咱们就用最通俗的大白话,把李飞飞的访谈观点拆解开讲,从“现在的ai差在哪”“世界模型到底是啥”“能落地到哪些场景”这几个方面,让不管是懂技术还是不懂技术的人,都能把这件事看透。

一、先搞懂前提:现在的ai再强,也“看不懂真实世界”

李飞飞说“当前语言模型进步显着,但离通用ai还很远”,这句话戳中了现在ai的核心痛点——咱们觉得ai很聪明,其实它只是“文字游戏高手”,根本没有对真实世界的“空间认知”。

咱们先举个生活化的例子:你跟现在的ai说“帮我设计一个100平米的两居室,客厅要朝南,卧室带飘窗,厨房挨着餐厅”,ai能给你写一堆文字描述,甚至画一张2d户型图,但它根本不知道“朝南的客厅阳光怎么照进来”“卧室飘窗的高度该多少才实用”“厨房和餐厅之间留多大过道才方便上菜”——因为它不懂3d空间的物理逻辑,不知道“上下左右、前后远近”的真实关系,更不懂人和空间的互动。

再比如,你给ai看一张“沙发放在客厅中间”的图片,让它“把沙发挪到墙角,再放一张茶几在沙发前面”,ai能生成一张修改后的2d图,但它不知道“沙发挪到墙角后,会不会挡住插座”“茶几的尺寸和沙发能不能匹配”“人坐在沙发上能不能够到茶几”——这些都是真实世界里的3d空间逻辑,现在的ai完全没概念。

李飞飞之所以这么说,是因为她当年创建的iage数据集,是深度学习革命的“基石”——正是因为有了这个包含海量图片的数据集,ai才学会了“识别图片里的东西”(比如区分猫和狗、沙发和茶几),但这只是“2d平面识别”,不是“3d空间理解”。

简单说,现在的ai就像“纸上谈兵的将军”:熟读兵书(文字、图片数据),能把战术说得头头是道,但从来没上过真实战场(3d物理世界),不知道地形、距离、障碍物这些实际因素会影响决策。而李飞飞认为,ai要想往通用智能走,第一步就得从“纸上谈兵”变成“实地作战”,先学会理解3d空间,这就是“世界模型”的核心意义。

二、核心解读:世界模型到底是啥?和语言模型有啥本质区别?

李飞飞说“世界模型将成为ai发展的下一个重要方向”,还强调它和语言模型“有本质区别”。很多人会问:“不都是ai模型吗?差别能有多大?”

其实用一句话就能说透:语言模型是“处理文字信息的ai”,世界模型是“理解3d空间、构建3d世界的ai” ——一个专注于“文字逻辑”,一个专注于“物理空间逻辑”,完全是两个不同的赛道。

咱们用“大白话对比表”的区别讲得明明白白:

1 核心能力:一个“读文字”,一个“懂空间”

- 语言模型(比如gpt、豆包):核心能力是“理解文字、生成文字”。你给它一段文字,它能读懂意思;你让它写文案、写报告、答问题,它能快速输出文字答案。个“超级文案+知识库”,擅长处理所有和文字相关的事,但只要涉及3d空间、物理互动,它就歇菜了。

- 世界模型(比如arble):核心能力是“理解3d空间关系、构建可交互的3d世界”。你给它一句文字“一个有山有水的公园,里面有长椅、滑梯和喷泉”,它能生成一个完整的3d公园场景;你让它“在公园门口加一个大门,在滑梯旁边种三棵树”,它能精准修改,而且你还能“走进”这个3d场景里,自由走动、查看细节——就像玩3d游戏一样。世界造物主+导航员”,擅长把文字、图片变成可交互的3d空间。

2 思考逻辑:一个“靠文字联想”,一个“靠物理规律”

- 语言模型的思考逻辑是“文字接龙+联想”:比如你问“下雨了该怎么办”训练数据里找到“下雨→带伞、穿雨衣、躲雨”这些文字关联,然后组合成答案。它根本不知道“雨是从天上掉下来的”“伞能挡住雨”这些物理规律,只是靠文字之间的关联来回答。

- 世界模型的思考逻辑是“物理规律+空间推理”:比如你让它生成“下雨的公园”,它不仅会在3d场景里加上“雨滴下落”的效果,还会考虑“雨滴落在长椅上会往下流”“地面湿了会有反光”这些物理规律;如果你让“虚拟人”在雨里走,它还会让虚拟人“撑起伞”,避免被雨淋——这都是基于对物理世界的理解,而不是文字联想。

- 语言模型的输出是“静态的”:不管是写文案、画2d图,还是答问题,输出的结果都是“不能互动的”。比如它给你画的2d户型图,你不能进去走,也不能调整家具位置;它给你写的旅行攻略,你只能看文字,不能“身临其境”。

- 世界模型的输出是“动态可交互的”:它生成的是3d世界,你可以用鼠标、键盘控制视角,在里面自由导航——比如走进3d公园的大门,绕着喷泉走一圈,坐在长椅上看滑梯,甚至可以调整太阳的角度,看看不同时间的光影效果。这种“可交互

上一章 目录 +书签 下一页