蚂蚁集团通用模态大模型：从“灵光”看AI如何让复杂变简单（2 / 4）

这么操作。

更厉害的是，这些生成的不是静态页面，而是能交互的真应用。比如你做了一个旅行规划器，输入出发地、目的地和天数，它不仅能显示行程，还能关联地图，甚至能根据你选的景点推荐附近的美食，这都是因为生成的应用能调用大模型的后端能力，和外部信息实时互动。而且这些应用还能分享，你做了个好用的健身计划工具，能直接分享给健身群里的朋友，大家一起用。

这个功能背后的逻辑其实很有意思。大模型就像一个超级程序员，你说的话会被转化成具体的功能需求，比如需要哪些输入框、哪些按钮、计算逻辑是什么。然后代码智能体就会快速写出前端界面和后端逻辑的完整代码，还会自动校验，确保能用。有数据说，这个功能让应用开发门槛降低了92，以前可能要几天才能搞定的小工具，现在喝口水的功夫就成了。

这对普通人来说，意味着“个性化工具不再是奢侈品”。比如小商贩不用再用笔记本记进货和销量，生成一个库存工具就能随时查；老师不用找现成的试卷模板，能做一个贴合自己教学内容的练习题生成器。对于小微企业来说，更是省了一大笔数字化转型的钱，不用请技术团队，就能拥有自己的专属工具。

不过这里要说明一下，目前它生成的大多是轻量级应用，要是想做像微信那样复杂的大型软件肯定不行，但应付咱们日常生活和小生意的需求，完全足够了。而且后续还能修改优化，比如你觉得生成的计算器界面不好看，可以让它换成浅色风格，功能不够就再加新需求，灵活性特别高。

灵光开眼：ai有了“眼睛”，能看懂现实世界

如果说前两个功能还局限在手机屏幕里，那“灵光开眼”就是把ai的能力延伸到了现实中。它搭载了agi相机技术，相当于给ai装了一双能看懂世界的眼睛，能实时解析视频流和身边的物体，还能做各种创作和交互。

咱们在生活中能用到的场景太多了。比如你去旅游，看到一座古色古香的建筑，不知道它的历史，就可以打开“灵光开眼”，对着建筑一拍，它会马上识别出来，讲解这座建筑的年代、风格、背后的故事，比导游讲得还详细。要是在博物馆里看文物，对着展品一扫，就能看到3d模型，还能放大看细节，了解文物的修复过程，比看展牌有意思多了。

再比如你在药店买保健品，不知道成分好不好、适不适合自己，对着保健品瓶子一拍，它会解析里面的成分，说明每种成分的作用，还能关联医保报销比例，告诉你能不能用医保购买。家里老人买药担心买错，这个功能就能帮上大忙。还有你在超市买食材，想知道怎么做菜，对着食材拍一下，它能推荐好几道菜谱，还生成步骤动画，跟着做就能做出美味。

在创作方面，这个功能也很实用。你拍一张家里猫咪的照片，说“让猫咪穿上牛仔衣，旁边加个小沙发”，它就能快速修改图片；要是想做短视频，拍一段小区的风景，输入“把风景变成秋天的样子，加落叶特效，配轻快的音乐”，就能生成一段好看的短视频。不过目前生成的视频时长还有点短，大概4秒左右，后续应该会慢慢优化。

更贴心的是，它还能打通支付宝生态。比如你扫描停车场的缴费单，它识别后能直接跳转到支付宝付款；对着快递单拍照，能自动提取收件人信息，帮你快速下单寄快递，真正做到了“看到就能办”。这种把现实物体和服务连接起来的能力，让ai不再只是手机里的程序，而是能跟着你走、帮你解决实际问题的助手。

背后的技术：看似神奇，实则都是“真功夫”

很多人觉得“灵光”的功能像变魔术，但其实每一个神奇功能的背后，都是实打实的技术支撑。咱们用大白话拆解一下，不用讲复杂的算法，就说说这些技术到底牛在哪。

首先是多智能体协作架构，这是“灵光”高效干活的关键。你可以把这个架构想象成一个快递公司的运作模式：用户需求是快递，任务调度层是快递分拣中心，专用智能体是不同路线的快递员。比如你提“生成3d恐龙模型并讲解习性”，分拣中心就会把“做3d模型”的任务分给3d智能体，“写讲解文案”分给文本智能体，“整合内容展示”分给交互智能体，大家同时干活，很快就能完成任务。

而且这个架构还有个厉害之处，就是能省算力。它用了混合专家模型，简单说就是不每次都动用所有“快递员”，而是根据任务难度派合适的人。比如做个简单的图表，就不用麻烦3d智能体出马，这样在只用60亿参数的情况下，就能达到400亿参数模型的效果，推理速度还快了3倍。这对咱们用户来说，最直观的感受就是手机用的时候不卡顿，生成内容不用长时间等待。

然后是全代码生成技术，这是和传统ai工具最大的区别。以前的ai生成内容，就像用乐高积木拼东西，只能用现成的积木块；而全代码生成是直接用原材料造积木，再拼成你想要的样子。比如你要一个独特的打卡工具，它不会调用现成的模板，而是从零开始写代码，构建界面和功能，这样就能满足各种个性化需求，而不是被模板限制住。

还有移动端优化技术。咱们都知道手机的算力和电脑比差很多，要是把电脑上的ai模型直接搬到手机上，肯定会卡得没法用。所以蚂蚁专门做了轻量化处理，比如3d模型会简化细节，保证能在手机上流畅旋转；视频会自动调整分辨率，既清晰又不占内存；图表用矢量格式，放大缩小都不会模糊。就像把大份的菜做成小份套餐，分量不减，还方便携带，这才让30秒生成应用、实时识别物体这些功能在手机上实现。

另外，数据安全和生态协同也是它的底气。蚂蚁本身就是做金融出身，对数据安全很重视，咱们用它生成金融相关的工具，比如记账软件，输入的收入支出数据不会随便