矩阵分块思想实现高效多头注意力算法
最近阅读了Sebastian的《LLM From Scratch》,探讨了两种多头注意力机制的实现。第一种是独立计算多个注意力头并拼接输出;第二种则利用单头注意力和矩阵分块方法达成等效性能,显著提高计算效率,减少资源重复利用。
1743 字
|
9 分钟