性”,是语言模型完全做不到的。
4 应用场景:一个“办公、娱乐”,一个“生产、实操”
- 语言模型的应用场景主要是“轻量级的文字处理”:比如写工作报告、社交媒体文案、回答咨询、翻译文档等,都是和“信息传递”相关的场景,不用涉及物理世界的互动。
- 世界模型的应用场景主要是“重量级的实操场景”:比如游戏开发(生成3d游戏地图)、机器人导航(让机器人看懂真实环境)、虚拟制造(在3d空间里模拟生产流程)等,都是需要“和物理空间互动”的场景。
简单总结:语言模型解决的是“信息层面”的问题,让人和ai的信息交流更顺畅;世界模型解决的是“物理层面”的问题,让ai能看懂、构建、互动真实世界。李飞飞认为,只有把这两种模型结合起来,ai才能真正走向通用智能——比如未来的ai助手,既能听懂你的文字指令,又能在3d世界里帮你完成实操任务(比如设计房子、模拟生产、控制机器人干活)。
三、实操拆解:世界模型是怎么工作的?用文字就能生成3d世界?
李飞飞提到她创办的worldlives公司,用18个月就做出了全球首个大型世界模型产品arble,能“根据文字和图片提示生成可自由导航的3d世界”。很多人会好奇:“这到底是怎么实现的?难道ai真能‘无中生有’造3d世界?”
其实arble的工作原理一点都不神秘,核心就是“三步走”,和咱们平时画画、做手工的逻辑差不多,只是把“人动手”变成了“ai自动做”
第一步:读懂“指令”图片变成“3d需求清单”
首先,arble要先理解你给的提示——不管是文字还是图片,它都会先拆解成“3d世界的关键要素”,就像你要做手工前,先列好“需要什么材料、做什么形状、颜色是什么”。
比如你输入文字提示“一个复古风格的咖啡馆,面积50平米,有吧台、木质桌椅、复古吊灯,墙面是浅棕色,地板是深色木地板”,arble会拆解成这样的“3d需求清单”
- 空间大小:50平米,长方体结构;
- 核心物体:吧台(材质:木质,颜色:深棕色,位置:进门左侧)、桌椅(10套,材质:木质,颜色:浅棕色,位置:吧台对面)、复古吊灯(8个,材质:金属+玻璃,颜色:金色,位置:天花板均匀分布);
- 环境细节:墙面颜色(浅棕色)、地板材质(深色木地板)、风格(复古)。
如果你给的是一张“海边小屋”的图片,arble会先识别图片里的关键元素(小屋、大海、沙滩、椰子树),再还原它们的3d关系(小屋在沙滩上,大海在小屋前方,椰子树在小屋旁边),然后形成“3d需求清单”。
这一步的关键是:arble不仅能识别“有什么东西”,还能理解“这些东西在3d空间里的位置关系”,这是语言模型做不到的——语言模型只能告诉你“海边小屋有沙滩和大海”,但不知道“沙滩在小屋前面,大海在沙滩前面”。
第二步:构建“骨架”空间的基础结构
理解需求后,arble会先搭建3d世界的“骨架”,也就是空间结构和物体的大致形状,就像盖房子先搭钢筋水泥框架,再砌墙。
比如构建复古咖啡馆的“骨架”
- 先画一个50平米的长方体空间,确定墙面、天花板、地板的位置;
- 再在空间里放置“简化版物体”体代表吧台,用小长方体+平板代表桌椅,用圆柱体+球体代表吊灯;
- 确定物体的相对位置:吧台在进门左侧,桌椅在中间区域,吊灯在天花板下方,确保物体之间不重叠(比如桌椅不会穿过吧台,吊灯不会碰到桌子)。
这一步的核心是“空间推理”:arble要确保所有物体的大小、位置都符合物理逻辑——比如吧台的高度大概12米,桌椅的高度大概07米,吊灯离地板的高度大概25米,这些都是基于真实世界的物理尺寸,不会出现“吧台比人还高”“桌椅嵌在墙里”的离谱情况。
第三步:填充“细节”世界更真实,还能自由导航
最后,arble会给“骨架”填充细节,让3d世界变得逼真,同时开启“导航功能”,让你能在里面自由走动。
- 材质和纹理:给吧台加上木质纹理,给墙面加上浅棕色涂料质感,给地板加上深色木纹,给吊灯加上金色金属光泽;
- 光影效果:模拟自然光从窗户照进来,在地面形成光斑;吊灯发光,照亮桌椅区域,产生阴影;
- 小装饰:在吧台上加咖啡机、杯子,在墙上挂复古海报,在桌子上放花瓶,让场景更生动;
- 导航功能:设置“虚拟摄像头”,你可以用鼠标控制摄像头移动,就像自己走进咖啡馆一样——往前走、往后退、左转、右转,甚至可以凑近吧台看咖啡机的细节,或者坐在椅子上看墙上的海报。
整个过程下来,从输入文字到生成可导航的3d世界,只需要几分钟。而且arble还能根据你的新指令修改场景——比如你说“把吧台移到进门右侧,再加两个靠窗的座位”,它会快速调整物体位置,同时保持空间逻辑和光影效果的一致性,不会出现“靠窗座位挡住窗户”“移动后的吧台和桌椅重叠”的问题。
李飞飞之所以说这是“重要突破”,是因为以前生成3d世界需要专业的建模师,用3dax、aya等软件手动制作,一个简单的场景就要花几天时间;而现在有了世界模型,普通人不用懂建模,只要会写文字、会传图片,就能快速生成3d场景,大大降低了3d内容创作的门槛。
四、落地前景:世界模型能用到哪些地方?
李飞飞提到,世