谷歌近日推出了一种新的压缩算法TurboQuant,旨在降低人工智能系统的内存需求。该算法特别针对大语言模型和向量搜索引擎中的键值缓存瓶颈问题。随着上下文窗口的增大,这些缓存成为主要的内存瓶颈。TurboQuant可以在无需重新训练或微调模型的情况下,将键值缓存压缩至3比特精度,并且基本保持模型准确率不受影响。
测试结果显示,TurboQuant对包括Gemma和Mistral在内的开源模型实现了约6倍的键值缓存内存压缩效果。在英伟达H100加速器上的测试中,与未量化的键向量相比,该算法最高可实现约8倍的性能提升。研究人员表示,这项技术不仅适用于AI模型,还能增强大规模搜索引擎的向量检索能力。谷歌计划在2026年4月的国际学习表征会议上展示这一技术。

![汕头一水泥路面因高温暴晒炸开 热浪导致村道爆裂[快讯]](http://cn.gzbj58.com/file/upload/202605/29/234637181.jpg)
![市民打12345求干预天气 当地回应 无法改变自然规律[快讯]](http://cn.gzbj58.com/file/upload/202605/29/235059331.jpg)

![山顶矿泉水1元1瓶:人工搬运无人售卖 良心景区获赞[快讯]](http://cn.gzbj58.com/file/upload/202605/29/005029401.jpg)