

工具介绍
月之暗面将长文本技术称之为大模型“登月计划”的第一步。
- 支持更长的上下文意味着大模型拥有更大的“内存”,使大模型的应用更加深入和广泛。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等。
- 在推理层,Transformer模型中自注意力机制(Self Attention)的计算量会随着上下文长度的增加呈平方级增长,比如上下文增加32倍时,计算量实际会增长1000倍。同时,超长上下文也将带来显存与带宽压力。
对于长文本技术的开发,市场上出现了不同的技术路线。
但在杨植麟看来,这些路线几乎都是在牺牲一部分性能前提下的“捷径”。
杨植麟将其总结为三类:
“金鱼”模型,容易“健忘”。
通过滑动窗口等方式主动抛弃上文,只保留对最新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解。例如,无法从一篇10万字的用户访谈录音转写中提取最有价值的10个观点。
“蜜蜂”模型,只关注局部,忽略整体。
通过对上下文的降采样或者RAG(检索增强的生成),只保留对部分输入的注意力机制。模型同样无法对全文进行完整理解。例如,无法从50个简历中对候选人的画像进行归纳和总结。
“蝌蚪”模型,模型能力尚未发育完整。
- 通过减少参数量(例如减少到百亿参数)来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。
- 杨植麟认为,简单的捷径无法达到理想的产品化效果。因此,月之暗面的技术路线,就是不走捷径,踏实地解决算法与工程的双重挑战,在算力、存储、带宽等技术层面做了极致的优化。
可以直接总结网页或者PDF文档的信息:
可以直接根据财报总结关键信息:
月之暗面大模型体验地址: https://www.moonshot.cn/
评论

全部评论

暂无评论
热门推荐
相关推荐
书生大模型-上海人工智能实验室
上海人工智能实验室(又称浦江实验室)成立于2020年,由上海人工智能创新中心发起设立。 2021年,浦江实验室联合商汤、香港中文大学、上海交通大学发布通用视觉技术体系“书生”(INTERN)。到如今,书生大模型体系参数已达千亿级别,包括“书生·多模态”、“书生·浦语”和“书生·天际”等三大基础模型,以及面向大模型研发与应用的开源体系。文心一言大模型
百度“文心一言”为国内首个、全球大厂中首个生成式AI产品,于2023年3月16日开启邀测,基础模型文心大模型早在2019年就在国内率先发布,近期升级的文心大模型3.5也持续在十余个国内外权威测评中位居第一。抖音云雀豆包--AI大模型
抖音集团(前字节跳动)宣布开始对外测试AI对话产品“豆包”。据悉“豆包”是基于抖音云雀模型开发,提供聊天机器人、写作助手以及英语学习助手等功能。目前支持网页Web平台、iOS 以及安卓平台,用户可通过手机号、抖音或者Apple ID登录使用。MathGPT
MathGPT 是好未来自主研发的,面向全球数学爱好者和科研机构,以解题和讲题算法为核心的大模型。即梦ai
万兴天幕大模型,具有超强的音视频多媒体素材生成与理解能力,可实现跨模态的视频生成、音频生成、图文生成等应用。1序列猴子
语言驱动的深度学习大模型能够快速、准确地处理语言表达,支持多种交互方式,可以快速生成悦耳的语音、高质量的文本,以及与人机进行互动,以满足各种语音、文本和对话需求。这是看链接的工具
AI聚合平台,AI TOP100,ai搜索引擎,chatgpt,Midjourney,Stable Diffusion,Vega AI,文心一格,人工智能聚合平台,大语言模型,AI课程,AI工具集,华强方特,AI聚合平台-AI TOP100,提示词,prompt,关键词,提示词交易,ai咒语,AIG商汤-日日新大模型
今年4月,商汤推出日日新SenseNova”大模型。据悉,日日新大模型拥有提供自然语言、内容生成、自动化数据标注、自定义模型训练等多种能力,其中还包括商量SenseChat、秒画SenseMirage、如影SenseAvatar、琼宇SenseSpace、格物SenseThings、明眸等功能强大且易用的内容生成平台产品。目前,商汤最新版大模型“商量SenseChat 2.0版本”已发布,其参数达千亿级规模。
0
0