应用介绍
值得一提的是,本工作 24 年 10 月在 arXiv 公开后,国产之光 DeepSeek 在 25 年初公开了 NSA,两者思路都是通过挑选过去 chunk 并 attention 的方式实现性能优化。但各有侧重,GCA 核心亮点在于超长的长度泛化,NSA 通过巧妙的 kernel 设计实现了逐 token 的稀疏 attention。受 NSA 的启发,GCA 的后继工作 HSA (https://arxiv.org/abs/2504.16795) 结合了两者的优点进行了融合。
值得一提的是,本工作 24 年 10 月在 arXiv 公开后,国产之光 DeepSeek 在 25 年初公开了 NSA,两者思路都是通过挑选过去 chunk 并 attention 的方式实现性能优化。但各有侧重,GCA 核心亮点在于超长的长度泛化,NSA 通过巧妙的 kernel 设计实现了逐 token 的稀疏 attention。受 NSA 的启发,GCA 的后继工作 HSA (https://arxiv.org/abs/2504.16795) 结合了两者的优点进行了融合。