批量厄米矩阵特征值分解的GPU算法

Jisuanji kexue(2023)

引用 0|浏览0
暂无评分
摘要
批量矩阵计算问题广泛存在于科学计算与工程应用领域.随着性能的快速提升,GPU已成为解决这类问题的重要工具之一.矩阵特征值分解属于双边分解,需要使用迭代算法进行求解,不同矩阵的迭代次数可能不同,因此,在GPU上设计批量矩阵的特征值分解算法比设计LU分解等单边分解算法更具挑战性.文中针对不同规模的矩阵,基于Jacobi算法设计了相应的批量厄米矩阵特征值分解GPU算法.对于共享内存无法存储的矩阵,采用矩阵"块"操作技术提升计算强度,从而提高GPU的资源利用率.所提算法完全在GPU上运行,避免了 CPU与GPU之间的通信.在算法实现上,通过kernel融合减少了kernel启动负载和全局内存访问.在V100 GPU上的实验结果表明,所提算法优于已有工作.Roofline性能分析模型表明,文中给出的实现已接近理论上限,达到了 4.11TFLOPSo
更多
查看译文
关键词
hermitian matrix|eigenvalue decomposition|batch computing|roofline model|performance evaluation
AI 理解论文
溯源树
样例
生成溯源树,研究论文发展脉络
Chat Paper
正在生成论文摘要