4.7 本章总结
本章我们使用了一些著名的数据并行算法,将其使用OpenCL实现。直方图的例子展示了如何使用局部内存,并在执行阶段使用了适当的同步。旋转和卷积例子使用了图像对象和采样器。卷积例子中使用了C++ API,并将卷积核放置到常量内存中。生产者-消费者例子中,使用管道为两个内核传递所需的数据,并使用了多设备的方式实现。
虽然,这些OpenCL例子都是正确的,不过其性能还可以进一步提高——有些例子可以有很大的提升。在对应硬件平台上的性能优化,将是后面章节讨论的核心。
当前内容版权归 xiaoweiChen 或其关联方所有,如需对内容或内容相关联开源项目进行关注与资助,请访问 xiaoweiChen .