• 首页
  • AI工具集
  • AI资讯
  • AI活动
  • AI社区
  • AI短剧
  • AI创作大赛
  • AI小说
  • AI绘画
    AI视频
    AI对口型
    视频转动漫风格
    AI创意二维码
    AI艺术字
    AI智能抠图
  • AI短视频创作热门-AI社区
AI 对话

蚂蚁集团Ling团队放大招!低成本也能训出3000亿参数大模型,国产GPU要火

蚂蚁集团Ling团队放大招!低成本也能训出3000亿参数大模型,国产GPU要火
元元
2025-03-25 10:17:58

最近啊,蚂蚁集团Ling团队在Arxiv预印版平台上发了一篇超牛的论文,名字就叫《每一个FLOP都至关重要:不用高级GPU也能搞定3000亿参数混合专家LING大模型》。这论文里,他们秀出了两款新研发的大语言模型,一个叫百灵轻量版(Ling-Lite),另一个叫百灵增强版(Ling-Plus)。这俩模型啊,设计得特别巧妙,能在性能一般的硬件上高效训练,成本一下子就降下来了。

蚂蚁集团

百灵轻量版呢,参数规模有168亿,激活参数是27.5亿。增强版更厉害,基座模型参数高达2900亿,激活参数也有288亿。这两款模型的性能啊,在行业里都是数一数二的。特别是增强版,它那3000亿参数的MoE模型,用国产GPU在低性能设备上训练,效果跟用高端英伟达芯片驱动的模型比起来,一点儿都不逊色。

以前啊,训练MoE模型都得靠那些贵得离谱的高性能GPU,像英伟达的H100和H800。这成本啊,高得吓人,而且芯片还经常短缺,资源受限的环境里根本就用不起。蚂蚁集团Ling团队呢,就给自己定了个新目标——不用高级GPU也能扩展模型,这样就能突破资源和预算的限制了。他们用了好多创新的训练策略,比如动态参数分配、混合精度调度,还有优化的训练异常处理机制。这些策略啊,能让中断响应时间变短,模型评估流程也更优化,验证周期直接压缩了超过50%。

在实验里,Ling团队用了9万亿个token来预训练Ling-Plus。结果呢,用高性能硬件配置训练1万亿token得花635万元人民币,但用蚂蚁的优化方法,在低规格硬件上训练就只要508万元左右,节省了将近20%呢!而且啊,这性能跟阿里通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat比起来,一点儿都不差。

要是这技术成果能广泛应用起来,那国产大模型就有更经济高效的解决方案了,也不用那么依赖英伟达芯片了。这啊,给未来人工智能的发展又开辟了一条新路!

0
0
文章来源:AI TOP100
免责声明:本文不代表本平台立场,且不构成投资建议,请谨慎对待。
全部评论
暂无评论
相关资讯
  • 用户发的文章

  • 测试文章显示1111111

  • 测试文章

  • 1

  • 每日AI资讯-2025年08月07日

热点资讯

Higgsfield AI消散特效制作完整教程:一键打造电影级Disintegration视觉效果

8天前
Higgsfield AI消散特效制作完整教程:一键打造电影级Disintegration视觉效果

测试文章

7天前
测试文章

FlowSpeech:全球首个“书面语变口语”的TTS,让AI语音更懂人情味

7天前
FlowSpeech:全球首个“书面语变口语”的TTS,让AI语音更懂人情味

测试文章显示1111111

7天前
测试文章显示1111111

每日AI资讯-2025年08月07日

7天前
每日AI资讯-2025年08月07日
分享
0
0

欢迎来到AI Top100!我们聚合全球500+款AI智能软件,提供最新资讯、热门课程和活动。我们致力于打造最专业的信息平台,让您轻松了解全球AI领域动态,并为您提供优质服务。

合作伙伴
联系我们
加入AITOP100社群
加入社群
AITOP100商务微信
商务微信
相关链接
服务及隐私政策
网站地图
关于我们
粤ICP备2022124843号-2粤公网安备44030002004505广播电视节目制作经营许可证:(粤)字第00712号Copyright © 华强方特(深圳)动漫有限公司 版权所有