• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

商汤日日新V6.5:首个图文交错思维大模型,多模态AGI的未来?

商汤日日新V6.5:首个图文交错思维大模型,多模态AGI的未来?
元元
8小时前

多模态智能:通向AGI的钥匙?

最近人工智能圈里最火的莫过于多模态大模型了! 话说在2025世界人工智能大会上,商汤科技发布的“日日新V6.5”大模型,真是让人眼前一亮。这玩意儿竟然能像人一样,把图片和文字结合起来思考,这在国内可是头一份儿!

商汤的创始人林达华大佬亲自撰文,深度解析了多模态智能背后的逻辑、技术实现,以及攻克“图文交错思维链”这项黑科技的关键。简单来说,大佬认为,光靠语言模型搞不定真正的AGI(通用人工智能),必须得让AI像人一样,能看、能听、能感受,才能真正理解世界。

所以,多模态信息感知与处理能力,是通往AGI的必经之路。而且,在实际应用中,光靠文字描述不够,还得结合图像、视频等多种信息,才能做出更准确的判断。

商汤的多模态进阶之路

商汤是怎么一步步打造出这么厉害的多模态智能的呢?

林达华大佬说了,人工智能的发展是数据驱动的,每次进步都离不开数据的突破。想想也对,没数据,啥也白搭!

商汤的智能进化之路分成了四步走:

  1. Transformer:实现了长序列建模,让AI能记住更长的信息。
  2. 语言和视觉融合:实现了多模态理解,让AI能看懂图片,听懂文字。
  3. 逻辑思维和形象思维结合:实现了真正的多模态推理,让AI能像人一样思考。
  4. 突破数字空间与物理空间的边界:让AI能和真实世界互动,也就是我们常说的“具身智能”。

商汤早在2023年初就推出了多模态模型,2024年突破了原生多模态融合训练技术,最近又实现了图文交错的思维链。所以,现在的日日新6.5才能具备真正的多模态思考能力。

为什么要做原生多模态?

多模态模型的训练分两种:一种是“适应训练”,相当于“后天补课”;另一种是“原生训练”,相当于“天生自带”。

现在国内很多大模型都用的是“适应训练”,成本低,见效快。但商汤认为,这种方式学到的东西不够深入,只是在模仿套路。所以,商汤选择了更难的“原生训练”。

经过几个月的实验,商汤确定了融合模型的技术路线:在预训练中段开始进行多模态融合训练,最终形成一个统一的原生多模态模型。这意味着,商汤以后只做多模态模型,不再单独搞语言模型了。

从日日新6.0开始,包括最新的6.5,都是多模态模型,没有单独的语言模型。这和国内其他厂商的路子不太一样。

图文交错:让AI像人一样思考

现在的大模型推理,主要靠“思维链”,也就是用文字一步步推导。但商汤认为,人的思考是跨模态的,是逻辑思维和形象思维的结合。所以,他们搞出了“图文交错思维链”,让AI能像人一样,结合图像和文字进行思考。

具体怎么做呢?商汤分了两步走:

  1. 先通过调用工具进行图像编辑,构建图文交错思维链。
  2. 再基于多模态理解生成统一的机制,实现内生的图文混合思考。

模型架构:效率才是王道

商汤在模型架构设计上也下了不少功夫,核心目标是提高效率。他们认为,“眼睛”和“大脑”的设计应该有所区别。视觉编码器应该专注于感知功能,而语言模型应该专注于语义层面的计算。

通过架构更新,日日新6.5可以更快地处理高分辨率大图和长视频,而且效率提升了3倍以上!

从多模态到具身智能

AI要从数字空间走向物理空间,和真实世界互动,首先要解决的是交互学习的效率问题。

商汤的做法是,通过一个虚拟系统模拟现实世界的交互,让AI在这个系统里学习。这个虚拟系统的核心就是“世界模型”,它的交互效率远高于真实环境。

商汤的“开悟世界模型”就是基于多模态模型能力构建起来的,并且通过智能汽车业务获得的大量真实场景数据进行加强,具备了很强的模拟和生成能力。

技术理想与商业价值

商汤始终坚持追寻AGI,但他们也知道,技术理想需要商业价值的支撑。所以,商汤确立了“基础设施 - 模型 - 应用”三位一体的总体战略。

一方面,商汤致力于打造业界领先的通用多模态大模型;另一方面,他们在应用上聚焦生产力和交互,构建端到端的产品技术竞争力。

总而言之,商汤正在一步一个脚印地朝着AGI的目标前进,并且在技术创新和商业落地之间找到了平衡点。未来,我们拭目以待!

0
0
文章来源:AI TOP100
原文链接:https://36kr.com/p/3423876850060934
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 商汤日日新V6.5:首个图文交错思维大模型,多模态AGI的未来?

  • GPT-5发布一周:用户口碑两极分化,企业高歌猛进,AI未来怎么走?

  • 用户发的文章

  • 测试文章显示1111111

  • 测试文章

热点资讯

GPT-5发布一周:用户口碑两极分化,企业高歌猛进,AI未来怎么走?

8小时前
GPT-5发布一周:用户口碑两极分化,企业高歌猛进,AI未来怎么走?

商汤日日新V6.5:首个图文交错思维大模型,多模态AGI的未来?

8小时前
商汤日日新V6.5:首个图文交错思维大模型,多模态AGI的未来?
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有