Chrome Extension
WeChat Mini Program
Use on ChatGLM

一种面向神威·太湖之光的通用并行卷积算法

Jiaming SHU, Hong AN,Zheng WU,Junshi CHEN

Computer Engineering(2019)

Cited 0|Views10
No score
Abstract
神威·太湖之光深度学习库中的并行卷积算法存在批量受限的问题,且传统gemm卷积算法在其硬件架构上效率较低.基于申威异构众核处理器,提出一种无批量限制的通用并行卷积算法.结合异步DMA访存操作和从核间的寄存器通信,使用数据重用和软件流水等方法降低从核访存开销,利用手动向量化的方法充分发挥从核浮点的计算能力.实验结果表明,与基础7层循环算法、gemm算法和Intel平台上的MKL-DNN算法相比,该算法的加速性能较好.
More
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined