当前位置:天然小说>其他类型>大白话聊透人工智能> 蚂蚁集团通用模态大模型:从“灵光”看AI如何让复杂变简单
阅读设置(推荐配合 快捷键[F11] 进入全屏沉浸式阅读)

设置X

蚂蚁集团通用模态大模型:从“灵光”看AI如何让复杂变简单(2 / 4)

这么操作。

更厉害的是,这些生成的不是静态页面,而是能交互的真应用。比如你做了一个旅行规划器,输入出发地、目的地和天数,它不仅能显示行程,还能关联地图,甚至能根据你选的景点推荐附近的美食,这都是因为生成的应用能调用大模型的后端能力,和外部信息实时互动 。而且这些应用还能分享,你做了个好用的健身计划工具,能直接分享给健身群里的朋友,大家一起用。

这个功能背后的逻辑其实很有意思。大模型就像一个超级程序员,你说的话会被转化成具体的功能需求,比如需要哪些输入框、哪些按钮、计算逻辑是什么。然后代码智能体就会快速写出前端界面和后端逻辑的完整代码,还会自动校验,确保能用。有数据说,这个功能让应用开发门槛降低了92,以前可能要几天才能搞定的小工具,现在喝口水的功夫就成了。

这对普通人来说,意味着“个性化工具不再是奢侈品”。比如小商贩不用再用笔记本记进货和销量,生成一个库存工具就能随时查;老师不用找现成的试卷模板,能做一个贴合自己教学内容的练习题生成器。对于小微企业来说,更是省了一大笔数字化转型的钱,不用请技术团队,就能拥有自己的专属工具。

不过这里要说明一下,目前它生成的大多是轻量级应用,要是想做像微信那样复杂的大型软件肯定不行,但应付咱们日常生活和小生意的需求,完全足够了。而且后续还能修改优化,比如你觉得生成的计算器界面不好看,可以让它换成浅色风格,功能不够就再加新需求,灵活性特别高。

灵光开眼:ai有了“眼睛”,能看懂现实世界

如果说前两个功能还局限在手机屏幕里,那“灵光开眼”就是把ai的能力延伸到了现实中。它搭载了agi相机技术,相当于给ai装了一双能看懂世界的眼睛,能实时解析视频流和身边的物体,还能做各种创作和交互 。

咱们在生活中能用到的场景太多了。比如你去旅游,看到一座古色古香的建筑,不知道它的历史,就可以打开“灵光开眼”,对着建筑一拍,它会马上识别出来,讲解这座建筑的年代、风格、背后的故事,比导游讲得还详细。要是在博物馆里看文物,对着展品一扫,就能看到3d模型,还能放大看细节,了解文物的修复过程,比看展牌有意思多了。

再比如你在药店买保健品,不知道成分好不好、适不适合自己,对着保健品瓶子一拍,它会解析里面的成分,说明每种成分的作用,还能关联医保报销比例,告诉你能不能用医保购买。家里老人买药担心买错,这个功能就能帮上大忙。还有你在超市买食材,想知道怎么做菜,对着食材拍一下,它能推荐好几道菜谱,还生成步骤动画,跟着做就能做出美味。

在创作方面,这个功能也很实用。你拍一张家里猫咪的照片,说“让猫咪穿上牛仔衣,旁边加个小沙发”,它就能快速修改图片;要是想做短视频,拍一段小区的风景,输入“把风景变成秋天的样子,加落叶特效,配轻快的音乐”,就能生成一段好看的短视频。不过目前生成的视频时长还有点短,大概4秒左右,后续应该会慢慢优化。

更贴心的是,它还能打通支付宝生态。比如你扫描停车场的缴费单,它识别后能直接跳转到支付宝付款;对着快递单拍照,能自动提取收件人信息,帮你快速下单寄快递,真正做到了“看到就能办”。这种把现实物体和服务连接起来的能力,让ai不再只是手机里的程序,而是能跟着你走、帮你解决实际问题的助手。

背后的技术:看似神奇,实则都是“真功夫”

很多人觉得“灵光”的功能像变魔术,但其实每一个神奇功能的背后,都是实打实的技术支撑。咱们用大白话拆解一下,不用讲复杂的算法,就说说这些技术到底牛在哪。

首先是多智能体协作架构,这是“灵光”高效干活的关键。你可以把这个架构想象成一个快递公司的运作模式:用户需求是快递,任务调度层是快递分拣中心,专用智能体是不同路线的快递员。比如你提“生成3d恐龙模型并讲解习性”,分拣中心就会把“做3d模型”的任务分给3d智能体,“写讲解文案”分给文本智能体,“整合内容展示”分给交互智能体,大家同时干活,很快就能完成任务。

而且这个架构还有个厉害之处,就是能省算力。它用了混合专家模型,简单说就是不每次都动用所有“快递员”,而是根据任务难度派合适的人。比如做个简单的图表,就不用麻烦3d智能体出马,这样在只用60亿参数的情况下,就能达到400亿参数模型的效果,推理速度还快了3倍。这对咱们用户来说,最直观的感受就是手机用的时候不卡顿,生成内容不用长时间等待。

然后是全代码生成技术,这是和传统ai工具最大的区别。以前的ai生成内容,就像用乐高积木拼东西,只能用现成的积木块;而全代码生成是直接用原材料造积木,再拼成你想要的样子。比如你要一个独特的打卡工具,它不会调用现成的模板,而是从零开始写代码,构建界面和功能,这样就能满足各种个性化需求,而不是被模板限制住。

还有移动端优化技术。咱们都知道手机的算力和电脑比差很多,要是把电脑上的ai模型直接搬到手机上,肯定会卡得没法用。所以蚂蚁专门做了轻量化处理,比如3d模型会简化细节,保证能在手机上流畅旋转;视频会自动调整分辨率,既清晰又不占内存;图表用矢量格式,放大缩小都不会模糊。就像把大份的菜做成小份套餐,分量不减,还方便携带,这才让30秒生成应用、实时识别物体这些功能在手机上实现。

另外,数据安全和生态协同也是它的底气。蚂蚁本身就是做金融出身,对数据安全很重视,咱们用它生成金融相关的工具,比如记账软件,输入的收入支出数据不会随便

上一页 目录 +书签 下一页