meta FAIR团队在最近的一篇论文中介绍了一种名为CRV的新方法,能够实时观察AI的思考过程。通过替换模型内部的MLP模块,研究者可以追踪每一步推理,并且这种现象是可量化的。这项技术让错误检测精度提升到92.47%,并首次让人们看到AI是如何出错的。
研究员Jackson Atkins在社交媒体上发布了一条推文,称meta的新技术可以让机器的思维“透明化”。这不仅意味着能看到模型在想什么,还能看到它在哪一步彻底“想错”。在论文中,CRV被比喻为一台“AI脑部X光机”,能追踪语言模型的每一次推理、记录每一条电流路径,甚至捕捉到思维崩溃的瞬间。当电路图从整洁的网状变成混乱的线团时,研究者第一次看到了AI思维崩溃的过程。
这项技术的核心在于将传统MLP模块替换为一种可解释的稀疏结构——Transcoder层。每个Transcoder都像一组带标签的神经元,能代表特定的语义特征,如加法、乘法等。这样,研究者就能在推理过程中看到哪些神经元被激活、何时点亮以及如何传递信息。这一过程被称为“X-Ray”,即为模型安装一层“透视皮肤”。
当模型执行推理时,系统会绘制一张归因图,节点代表被激活的特征,边表示它们之间的信息流动。这张图随推理动态变化,形成“思维轨迹”。当模型出错时,路径就会打结、分叉、环绕,像一条错乱的神经信号。研究者发现,这些图结构的特征可以用来预测模型是否即将犯错。例如,在算术推理实验中,关闭一个错误激活的乘法特征神经元后,模型立即修正了计算。