公司新闻
全球首款类脑脉冲大模型“瞬悉 1.0”问世,实现全流程国产化
【导语】9月8日消息,中国科学院自动化研究所李国齐、徐波团队联合沐曦MetaX,推出全球首款全流程国产化类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0),在国产千卡GPU算力平台实现超长序列推理效率数量级提升,同步开源相关模型及技术报告,标志着我国在类脑计算与大模型融合创新领域取得重大突破。
9 月 8 日消息,据中国科学院自动化研究所官方微信公众号消息,近日,中国科学院自动化研究所李国齐、徐波团队在发表原创内生复杂性理论系列论文的工作基础上,与沐曦 MetaX 合作,打造了类脑脉冲大模型“瞬悉 1.0”(SpikingBrain-1.0),在国产千卡 GPU 算力平台上完成全流程训练和推理,实现了大模型在超长序列推理上数量级的效率和速度提升,展示了构建国产自主可控的新型非 Transformer 大模型架构生态的可行性。研究团队开源了 SpikingBrain-1.0-7B 模型并开放 SpikingBrain-1.0-76B 测试网址,同步公开了经工业界大规模验证的类脑脉冲大模型 SpikingBrain-1.0 中英文技术报告。这是全球首款类脑脉冲大模型,实现了全流程国产化,标志着我国在类脑计算与大模型融合创新方面取得重要突破。
从官方介绍获悉,研发团队借鉴大脑神经元内部复杂工作机制提出“基于内生复杂性”的大模型构架方式,打造类脑脉冲大模型“瞬悉 1.0”( SpikingBrain-1.0),在理论上建立了脉冲神经元内生动力学与线性注意力模型之间的联系,揭示了现有线性注意力机制是树突计算的特殊简化形式,从而清晰地展示了一条不断提升模型复杂度和性能的新型可行路径。研发团队进而构建并开源了基于脉冲神经元、具有线性(SpikingBrain-1.0-7B)及混合线性复杂度(SpikingBrain-1.0-76B,激活参数量 12B)的新型类脑基础模型,开发了面向国产 GPU(沐曦 MetaX 曦云 C550)集群高效训练和推理框架、Triton 算子库、模型并行策略以及集群通信原语。
李国齐表示,这项成果不仅是我国在类脑脉冲大模型架构和国产算力全流程建设上的重大突破,更为法律、医疗、科学模拟等超长序列(liè)应(yīng)用(yòng)场(chǎng)景(jǐng)提(tí)供(gōng)了(le)更(gèng)高(gāo)效(xiào)的(de)建(jiàn)模(mó)工(gōng)具(jù),也(yě)将(jiāng)启(qǐ)迪(dí)下(xià)一(yī)代(dài)神(shén)经(jīng)形(xíng)态(tài)计(jì)算(suàn)理(lǐ)论(lùn)和(hé)芯(xīn)片(piàn)设(shè)计(jì)。