元始智能RWKV完成天使轮融资,挑战Transformer架构
据36氪报道,大模型架构创新公司元始智能(RWKV)于12月完成数千万人民币天使轮融资,投资方为天际资本。此轮融资后,公司估值较种子轮翻倍,资金将主要用于团队扩充、新架构迭代以及产品商业化落地。
自2022年11月OpenAI发布ChatGPT引发全球生成式AI浪潮以来,已过去两年多。支撑ChatGPT的Transformer架构和Scaling Law(缩放定律)成为技术发展主线。
大语言模型(LLM)的智能涌现,源于AI模型参数规模从亿级扩展至千亿、万亿级别,在学习大量数据后,模型才展现出智能。然而,大模型也存在“阿喀琉斯之踵”——幻觉和准确率问题难以根除。2024年,随着大模型迭代放缓,学界和工业界开始深入探讨Transformer架构和Scaling Law。
元始智能(RWKV)的成立旨在探索超越Transformer架构的新路径。“我们不仅是一家大模型公司,更是一家具备持续AI模型底层架构创新能力的‘黑科技’公司。”元始智能联合创始人罗璇表示。
RWKV创始人彭博毕业于香港大学物理系,曾是量化交易专家。自2020年起,彭博开始独立开发RWKV创新架构和开源项目。2022年底,RWKV发布首个模型,至2023年6月正式成立商业公司,团队已从最初3人扩展至近20人。
RWKV不同于依赖巨额算力和数据的Transformer架构,选择更注重效率和灵活性的技术路线。
“简单来说,主流的Transformer架构每次对话中,模型输出一个Token,都需要将前文全部‘读’一遍,并记录每个token的状态(即KV Cache)。”罗璇解释道。这使得Transformer并非高效的信息处理架构,且消耗大量算力。
RWKV的关键技术突破在于,模型无需始终记录每个Token的状态,即每次对话无需“从头读全文再给回复”,大大减少计算量,相当于结合了Transformer高效并行训练和RNN高效推理的优点。
RNN(循环神经网络)并非新技术。虽然其推理效率高于Transformer,但在RWKV之前,人们普遍认为RNN能力弱于Transformer。但RWKV的出现证明,改进后的RNN不仅效率高于Transformer,还具备强大的语言建模能力。
然而,更高效率的代价是:作为状态空间固定的RNN,无法将无限长度的前文全部压缩进状态空间。因此,RWKV会逐渐遗忘模型自动判断为“可遗忘的细节”,对重要细节则会持久记忆,相当于看一遍前文就回答问题,不再反复阅读。
彭博认为,这并非RWKV架构缺陷。正如人脑不具备完美记忆,但通过复习和外部记忆,同样拥有完美记忆。RWKV可引入强化学习(RL)方法,在必要时重新阅读前文,这比Transformer“强行记住一切”的效率更高。
此外,RWKV的特性有利于在写作、音乐生成等创意性场景应用,模型产出结果更具创新性,“AI味”更淡。
“在音乐生成等创意领域,RWKV架构更接近人脑的记忆演绎机制,不是简单检索过去的信息,而是通过不断更新和重组来‘演绎’,从而产生新的内容。”罗璇解释。
目前,RWKV已完成从0.1B到14B的模型训练,海外社区已发布32B的预览模型。在过去两年中,RWKV实现重要技术突破:架构从RWKV-4逐步迭代至RWKV-7。
最新发布的RWKV-7模型,在同等参数规模下,性能全面超越Transformer架构。其优势体现在多个方面:例如,在模型学习效率上,RWKV-7比充分优化的Transformer架构更快地提升准确度。使用相同参数和训练数据,在核心benchmark(如英语和多语言测试)中,RWKV-7表现更优。
来源:RWKV
RWKV-7的记忆力也显著增强。例如,0.1B的RWKV-7在4k上下文窗口下训练,就能自动解决16k的大海捞针问题。
“RWKV采用的类RNN架构更接近人脑和宇宙的运作方式,通过高效的信息压缩机制,使模型能够在有限资源下实现持续学习和进化。”罗璇表示。
持续学习是RWKV-7版本的另一重要技术突破。与主流模型采用的“训练-推理分离”机制不同,RWKV能够让模型“边推理边学习”,更好地学习前文规律。
RWKV高效推理机制尤其适合小模型、端侧等应用场景。大模型性能虽强,但在计算层面仍面临不少限制:无论手机还是电脑,硬件计算能力不足都无法让模型在本地运行,必须依赖云端计算,降低了用户体验。
目前,元始智能的业务分为两部分:一是模型开源,保持全开源和免费。在GitHub上,RWKV核心开源项目RWKV-LM已获得超过12900个star,并建立起开发者生态,包括腾讯、阿里、浙大、南方科技大学在内的多家高校和公司已使用RWKV;二是商业实体。2024年,RWKV在产品侧做了多项尝试,覆盖To B和To C。
在软件层面,RWKV面向C端市场推出了AI音乐生成应用。在To B领域,元始智能选择具身智能和新能源两大领域,为企业提供模型授权,目前合作客户包括国家电网、有鹿机器人等企业。
未来,元始智能计划在2025年推出70B及以上参数的RWKV-7和终端部署方案,结合新型推理框架和新型芯片,探索更大规模模型。罗璇表示,随着Scaling Laws转向,预计2025年上半年将迎来新架构爆发期,届时元始智能也将加速商业化落地。
欢迎关注