基于3D可扩展PE阵列CNN加速器的设计

Computer Engineering and Science(2021)

Cited 0|Views2
No score
Abstract
卷积神经网络具有参数大、运算量大的特点,当将其具体应用在移动端设备时,需要在满足帧率(速度)的前提下,尽量减少功耗与芯片面积.考虑满足现有移动端网络的兼容性、性能和面积等因素,设计一个基于3D可扩展PE阵列的CNN加速器.该加速器兼容3×3卷积、3×3深度可分离卷积、1×1卷积和全连接层,其PE阵列能根据具体应用的网络和硬件约束,设定3个维度上最优的并行度参数,以达到更优的性能.该CNN加速器在512个PE下运行yolo-v2达到76.52 GOPS、74.72% 的性能效率,在512个PE下运行mobile-net-v1达到78.05 GOPS、76.22% 的性能效率.最后应用CNN加速器构建了一个实时目标检测系统,将yolo-lite网络部署至XILINX Zynq-7000 SoC ZC706硬件开发平台上,其CNN运算性能达到了53.65 fps.
More
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined