Maximizing Memory Throughput
2019. 5. 14. 10:27
Memory Throughput을 높이는 방법은 Memory Access Pattern과 관련이 있다. 하나의 warp는 32개의 thread로 구성되어 있다. 따라서 동시에 32개의 요청이 발생할 수 있다. 이 요청의 방식에 따라 성능이 크게 달라질 수 있다. 예를들어 4개의 스레드가 요청이 왔을 때 위 모양보다 아래 모양에서 더 효율적인 성능이 나올 수 있을 것이다. Global Memory를 살펴보자면 Global Memory의 transcation은 L2 Cache를 통해 이루어지는데 L2 Cache는 최대 32-byte memory를 활용할 수 있다. (최근에는 L1 Cache를 활용하는 것도 있다. - 128-byte) 그렇다면 Global Memory의 접근 방법을 살펴보자. Aligned ..