你可能没听说过“词元”这个词,但你几乎一定用过它,或许对它的英文名更熟悉——Token。

今天上午,国务院新闻办公室举行新闻发布会,介绍第九届数字中国建设峰会有关情况。国家数据局局长刘烈宏透露,截至今年3月,我国日均Token调用量已超过140万亿。他特意补充了一句——“也就是词元的调用量”。

不少业内人士认为这是一个标志性时刻:Token这个AI领域最核心的技术术语终于有了官方认可的中文名字。

140万亿是什么概念?Token又是什么?为什么它的调用量会被官方当作一个关键指标来发布?这些问题正悄悄揭开一个属于普通人的新世界。
什么是词元(Token)?国家数据局表示,词元是大模型处理信息的“最小信息单元”,具备可计量、可定价、可交易的核心特征。
对于不常接触AI领域的人来说,这段话还是有些抽象。可以这样理解:如果把大模型比作一个超级大厨,把要处理的信息比作食材,那么词元就是大厨眼中“一口能吃掉的最小单位”。词元是AI理解和生成信息的最小计量单位。你问AI一个问题,它“吃”进去多少个词元,又“吐”出来多少个词元,就是它的工作量。
也可以把Token想象成AI世界里的“字”或“词”,是对文字、符号甚至图片的一小段信息的切分结果。比如你跟AI说一句话:“今天天气不错。”在AI内部,这句话会被拆成几个词元:“今”“天”“天气”“不”“错”“。”这些词元就是AI用来理解和生成内容的“最小砖块”。AI不会直接读整句话,而是按词元为单位去计算、匹配、生成。

![[快讯]4岁男孩花2万6练T台几节课受不了 退费要分期?](http://cn.gzbj58.com/file/upload/202603/24/223733831.jpg)
![[快讯]老挝多家电动车卖到断货 现严重缺货 燃油短缺引发购买热潮](http://cn.gzbj58.com/file/upload/202603/24/005404571.jpg)
![[快讯]知情人士:“梅姨”长相变化很大 真实样貌大不同](http://cn.gzbj58.com/file/upload/202603/22/005305201.jpg)
![[快讯]欧盟峰会在比利时布鲁塞尔举行 聚焦中东局势与俄乌冲突](http://cn.gzbj58.com/file/upload/202603/21/011122621.jpg)