推广 热搜: 广州  SEO  贷款  深圳    医院  用户体验  网站建设  机器人  摩托车 

Meta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer(图)

   2024-04-18 14:28:55 互联网76
核心提示:谷歌和Meta相继在无限长上下文建模领域展开角逐。Transformer模型因二次复杂度及对长序列处理的局限性,尽管已有线性注意力和状态空间模型等次二次解决方案,但其预训练效率和下游任务准确性仍不尽人意

谷歌和meta相继在无限长上下文建模领域展开角逐。Transformer模型因二次复杂度及对长序列处理的局限性,尽管已有线性注意力和状态空间模型等次二次解决方案,但其预训练效率和下游任务准确性仍不尽人意。谷歌近期推出的Infini-Transformer通过创新方法,使大型语言模型能够处理无限长输入,且无需增加内存与计算需求,引发业界关注。

me<i></i>ta无限长文本大模型来了:参数仅7B,已开源

紧随其后,meta携手南加州大学、CMU、UCSD等研发团队,推出了名为MEGALODON的神经架构,同样致力于无限长文本的高效序列建模,上下文长度无任何限制。MEGALODON在MEGA架构基础上,引入了复数指数移动平均(CEMA)、时间步归一化层、归一化注意力机制及具备双特征的预归一化残差配置等技术组件,旨在提升模型能力和稳定性。

me<i></i>ta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

在与LLAMA2的对比试验中,拥有70亿参数、经过2万亿训练token的MEGALODON展现出超越Transformer的效率优势。其训练损失为1.70,介于LLAMA2-7B(1.75)与13B(1.67)之间。一系列基准测试进一步证实了MEGALODON在不同任务与模式中相对于Transformers的显著改进。

me<i></i>ta无限长文本大模型来了:参数仅7B,已开源 高效稳定,超越Transformer

MEGALODON的核心改进在于对MEGA架构的优化,利用门控注意力机制与经典指数移动平均法。为增强大规模长上下文预训练的能力与效率,研究者引入了CEMA,将MEGA中的多维阻尼EMA扩展至复数域;并设计了时间步归一化层,将组归一化应用于自回归序列建模,实现沿顺序维度的归一化。此外,通过预归一化与两跳残差配置调整,以及将输入序列分块为固定块,确保了模型训练与推理过程中的线性计算与内存复杂性。

 
免责声明:以上所展示的信息由网友自行发布,内容的真实性、准确性和合法性由发布者负责。 裹足不进网对此不承担任何保证责任, 裹足不进网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张(包括但不限于侵犯著作权、商业信誉等),请与我们联系并出示相关证据,我们将按国家相关法规即时移除。

本文地址:http://cn.gzbj58.com/news/128022.html

反对 0收藏 0 打赏 0
 
更多>同类资讯
推荐图文
推荐资讯
点击排行

网站首页  |  付款方式  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  RSS订阅  |  粤ICP备11090451号
免责声明:本站所有信息均来自互联网搜集,产品相关信息的真实性准确性均由发布单位及个人负责,请大家仔细辨认!并不代表本站观点,裹足不进网对此不承担任何相关法律责任!如有信息侵犯了您的权益,请告知,本站将立刻删除。
友情提示:买产品需谨慎
网站资讯与建议:1991659015@qq.com 客服QQ:1991659015点击这里给我发消息1991659015点击这里给我发消息