多模态智能:通向AGI的钥匙?
最近人工智能圈里最火的莫过于多模态大模型了! 话说在2025世界人工智能大会上,商汤科技发布的“日日新V6.5”大模型,真是让人眼前一亮。这玩意儿竟然能像人一样,把图片和文字结合起来思考,这在国内可是头一份儿!
商汤的创始人林达华大佬亲自撰文,深度解析了多模态智能背后的逻辑、技术实现,以及攻克“图文交错思维链”这项黑科技的关键。简单来说,大佬认为,光靠语言模型搞不定真正的AGI(通用人工智能),必须得让AI像人一样,能看、能听、能感受,才能真正理解世界。
所以,多模态信息感知与处理能力,是通往AGI的必经之路。而且,在实际应用中,光靠文字描述不够,还得结合图像、视频等多种信息,才能做出更准确的判断。
商汤的多模态进阶之路
商汤是怎么一步步打造出这么厉害的多模态智能的呢?
林达华大佬说了,人工智能的发展是数据驱动的,每次进步都离不开数据的突破。想想也对,没数据,啥也白搭!
商汤的智能进化之路分成了四步走:
- Transformer:实现了长序列建模,让AI能记住更长的信息。
- 语言和视觉融合:实现了多模态理解,让AI能看懂图片,听懂文字。
- 逻辑思维和形象思维结合:实现了真正的多模态推理,让AI能像人一样思考。
- 突破数字空间与物理空间的边界:让AI能和真实世界互动,也就是我们常说的“具身智能”。
商汤早在2023年初就推出了多模态模型,2024年突破了原生多模态融合训练技术,最近又实现了图文交错的思维链。所以,现在的日日新6.5才能具备真正的多模态思考能力。
为什么要做原生多模态?
多模态模型的训练分两种:一种是“适应训练”,相当于“后天补课”;另一种是“原生训练”,相当于“天生自带”。
现在国内很多大模型都用的是“适应训练”,成本低,见效快。但商汤认为,这种方式学到的东西不够深入,只是在模仿套路。所以,商汤选择了更难的“原生训练”。
经过几个月的实验,商汤确定了融合模型的技术路线:在预训练中段开始进行多模态融合训练,最终形成一个统一的原生多模态模型。这意味着,商汤以后只做多模态模型,不再单独搞语言模型了。
从日日新6.0开始,包括最新的6.5,都是多模态模型,没有单独的语言模型。这和国内其他厂商的路子不太一样。
图文交错:让AI像人一样思考
现在的大模型推理,主要靠“思维链”,也就是用文字一步步推导。但商汤认为,人的思考是跨模态的,是逻辑思维和形象思维的结合。所以,他们搞出了“图文交错思维链”,让AI能像人一样,结合图像和文字进行思考。
具体怎么做呢?商汤分了两步走:
- 先通过调用工具进行图像编辑,构建图文交错思维链。
- 再基于多模态理解生成统一的机制,实现内生的图文混合思考。
模型架构:效率才是王道
商汤在模型架构设计上也下了不少功夫,核心目标是提高效率。他们认为,“眼睛”和“大脑”的设计应该有所区别。视觉编码器应该专注于感知功能,而语言模型应该专注于语义层面的计算。
通过架构更新,日日新6.5可以更快地处理高分辨率大图和长视频,而且效率提升了3倍以上!
从多模态到具身智能
AI要从数字空间走向物理空间,和真实世界互动,首先要解决的是交互学习的效率问题。
商汤的做法是,通过一个虚拟系统模拟现实世界的交互,让AI在这个系统里学习。这个虚拟系统的核心就是“世界模型”,它的交互效率远高于真实环境。
商汤的“开悟世界模型”就是基于多模态模型能力构建起来的,并且通过智能汽车业务获得的大量真实场景数据进行加强,具备了很强的模拟和生成能力。
技术理想与商业价值
商汤始终坚持追寻AGI,但他们也知道,技术理想需要商业价值的支撑。所以,商汤确立了“基础设施 - 模型 - 应用”三位一体的总体战略。
一方面,商汤致力于打造业界领先的通用多模态大模型;另一方面,他们在应用上聚焦生产力和交互,构建端到端的产品技术竞争力。
总而言之,商汤正在一步一个脚印地朝着AGI的目标前进,并且在技术创新和商业落地之间找到了平衡点。未来,我们拭目以待!