循环变换器的逐步解析数据归因

Gemini AI生成的图像
研究人员开发了一种新方法,称为步骤分解影响(Step-Decomposed Influence, SDI),用于分析单个训练样本在循环计算中对循环变换器的影响。与现有方法只提供单一影响评分不同,SDI提供了每次迭代的详细影响轨迹。该方法通过使用TensorSketch实现,避免了生成每个样本的梯度,从而使其在变换器模型中具备可扩展性。实验结果表明,SDI与传统的全梯度方法高度一致,同时在算法推理任务中提升了数据归因和可解释性。
新方法增强了循环变压器中的数据归因
研究人员开发了一种新颖的方法,称为分步分解影响(Step-Decomposed Influence,SDI),旨在改善对单个训练示例如何影响循环变压器计算的理解。这一进展解决了现有方法的一个重大局限性,即仅提供一个聚合所有迭代影响的单一标量评分,模糊了示例相关性的时机。
SDI 将现有估计器(如 TracIn)归因的影响分解为一个详细的影响轨迹,该轨迹贯穿整个循环迭代的长度。通过展开循环计算图,这种新方法允许将影响精确归因于特定的循环迭代,从而提供了更清晰的变压器模型推理过程的全貌。
实验验证
使用循环 GPT 风格模型在各种算法推理任务上进行了广泛实验。结果表明,SDI 有效地扩展,并与完整梯度基线高度一致,保持了低误差率。这一性能展示了 SDI 作为机器学习中数据归因和可解释性的可靠工具的潜力。
相关主题:
循环变换器逐步分解影响TracIn影响轨迹数据归因
📰 原始来源: https://arxiv.org/abs/2602.10097v1
所有权利和署名均属于原出版商。