程序员为什么还要刷题 transpose timing tests 转置时间测试
程序员常刷题分析GPU上时序位矩阵转置的结果我们目前正在试验使用GPU作为快速2D渲染的通用设备。特别是,我们的渲染内核之一需要快速转置32x32位矩阵。通常,可以使用两种类型的程序在GPU上解决位矩阵转置问题:基于经典线程组(“warp”、“工作组”)的程序,依赖于线程组中处理器(“线程”)可用的共享内存。基于SIMD (“子组”、“波前”)的程序依赖于SIMD组中处理器(“通道”)之间寄存器存储的快速共享。我们研究了使用SIMD技术的内核与“经典”线程组技术的性能比较。通过性能,我们特指时间性能:矩阵可以多快转置?我们的结果提供了有关使用SIMD技术提高性能如何取决于设备选择和算法选择的见解。 SIMD简介1966年,Michael J. Flynn提出了计算机体系结构的分类(“Flynn的分类法”)。这个分类有四类:单指令流、单数据流(SISD)单指令流、多数据流(SIMD)多指令流、单数据流(MISD)多指令流、多数据流(MIMD)一个计算设备是SISD,如果在每个,它从单个指令流中获取一条指令,
下载地址
用户评论