应用介绍
上图对比了 GCA 与传统检索方式的运作区别。传统方式中 (a), 检索模块检索并返回相关 chunk,但检索分只用于挑选 chunk 完全不参与 forward 运算,因此无法获得梯度,无法学习。GCA 的核心创新在于通过一种两阶段的注意力机制,使得每个 chunk 的检索分能参与到自回归预测中,如图中(b)所示。
上图对比了 GCA 与传统检索方式的运作区别。传统方式中 (a), 检索模块检索并返回相关 chunk,但检索分只用于挑选 chunk 完全不参与 forward 运算,因此无法获得梯度,无法学习。GCA 的核心创新在于通过一种两阶段的注意力机制,使得每个 chunk 的检索分能参与到自回归预测中,如图中(b)所示。