卷积神经网络处理的多线程CGRA
卷积神经网络(CNN)是在各种机器学习应用(例如图像识别和自然语言处理)中实现高精度的基本模型。 具有高能效和处理性能的CNN加速的重要问题之一是,通过利用固有的数据局部性来实现有效的数据重用。 在本文中,我们提出了一种新颖的具有时域多线程的CGRA(粗粒度可重配置阵列)架构,以利用输入数据的局部性。 每个处理元素上的多线程使输入数据可以在多个计算周期内重复使用。 本文介绍了所提出的架构的加速器设计性能分析。 我们检查内存子系统的结构以及计算阵列的体系结构,以最小的性能开销提供所需的数据。 我们根据现代CNN配置的特点探索有效的架构设计替代方案。 评估结果表明,当输出平面较宽时(在许多CNN的
下载地址
用户评论