商汤日日新V6.5：首个图文交错思维大模型，多模态AGI的未来？-AITOP100,AI资讯

多模态智能：通向AGI的钥匙？

最近人工智能圈里最火的莫过于多模态大模型了！话说在2025世界人工智能大会上，商汤科技发布的“日日新V6.5”大模型，真是让人眼前一亮。这玩意儿竟然能像人一样，把图片和文字结合起来思考，这在国内可是头一份儿！

商汤的创始人林达华大佬亲自撰文，深度解析了多模态智能背后的逻辑、技术实现，以及攻克“图文交错思维链”这项黑科技的关键。简单来说，大佬认为，光靠语言模型搞不定真正的AGI（通用人工智能），必须得让AI像人一样，能看、能听、能感受，才能真正理解世界。

所以，多模态信息感知与处理能力，是通往AGI的必经之路。而且，在实际应用中，光靠文字描述不够，还得结合图像、视频等多种信息，才能做出更准确的判断。

商汤是怎么一步步打造出这么厉害的多模态智能的呢？

林达华大佬说了，人工智能的发展是数据驱动的，每次进步都离不开数据的突破。想想也对，没数据，啥也白搭！

商汤的智能进化之路分成了四步走：

商汤早在2023年初就推出了多模态模型，2024年突破了原生多模态融合训练技术，最近又实现了图文交错的思维链。所以，现在的日日新6.5才能具备真正的多模态思考能力。

多模态模型的训练分两种：一种是“适应训练”，相当于“后天补课”；另一种是“原生训练”，相当于“天生自带”。

现在国内很多大模型都用的是“适应训练”，成本低，见效快。但商汤认为，这种方式学到的东西不够深入，只是在模仿套路。所以，商汤选择了更难的“原生训练”。

经过几个月的实验，商汤确定了融合模型的技术路线：在预训练中段开始进行多模态融合训练，最终形成一个统一的原生多模态模型。这意味着，商汤以后只做多模态模型，不再单独搞语言模型了。

从日日新6.0开始，包括最新的6.5，都是多模态模型，没有单独的语言模型。这和国内其他厂商的路子不太一样。

现在的大模型推理，主要靠“思维链”，也就是用文字一步步推导。但商汤认为，人的思考是跨模态的，是逻辑思维和形象思维的结合。所以，他们搞出了“图文交错思维链”，让AI能像人一样，结合图像和文字进行思考。

具体怎么做呢？商汤分了两步走：

商汤在模型架构设计上也下了不少功夫，核心目标是提高效率。他们认为，“眼睛”和“大脑”的设计应该有所区别。视觉编码器应该专注于感知功能，而语言模型应该专注于语义层面的计算。

通过架构更新，日日新6.5可以更快地处理高分辨率大图和长视频，而且效率提升了3倍以上！

AI要从数字空间走向物理空间，和真实世界互动，首先要解决的是交互学习的效率问题。

商汤的做法是，通过一个虚拟系统模拟现实世界的交互，让AI在这个系统里学习。这个虚拟系统的核心就是“世界模型”，它的交互效率远高于真实环境。

商汤的“开悟世界模型”就是基于多模态模型能力构建起来的，并且通过智能汽车业务获得的大量真实场景数据进行加强，具备了很强的模拟和生成能力。

商汤始终坚持追寻AGI，但他们也知道，技术理想需要商业价值的支撑。所以，商汤确立了“基础设施 - 模型 - 应用”三位一体的总体战略。

一方面，商汤致力于打造业界领先的通用多模态大模型；另一方面，他们在应用上聚焦生产力和交互，构建端到端的产品技术竞争力。

总而言之，商汤正在一步一个脚印地朝着AGI的目标前进，并且在技术创新和商业落地之间找到了平衡点。未来，我们拭目以待！