CUDA 병렬 프로그래밍 (20121023)
CUDA 병렬 프로그래밍, 정영훈 저, 이한디지털리
2. CUDA의 기본
- 하나의 SP(CUDA 코어)는 4개의 스레드를 처리
- G80/GT200은 하나의 SM에 SP가 8개 (32개의 스레드)
- G80은 하나의 TPC에 2개의 SM (64개의 스레드)
- GT200은 하나의 TPC에 3개의 SM (96개의 스레드)
- GT200은 하나의 SM에 SP가 10개
- 페르미 GF100는 TPC가 사라지고 1개의 SM에 32개의 SP (128개의 스레드)
3. 프로그래밍 준비
- __global__ 디바이스에서 실행, 호스트에서 호출 가능, 디바이스에서 호출 불가능, 함수내 static 변수 불가, 호출 즉시 반환하여 비동기 동작
4. 스레드 블록 아키텍쳐
- __global__ void kernel<<<Dg, Db, Ns, S>>>();
Dg : Dimensions of the grid
Db : Dimensions of the block
Ns : Number of bytes shared memory dynamically allocated per block
S : associated cudaStream_t - 문맥교환을 최소로 하기 위하여 남는 레지스터를 실행하지 않는 스레드가 사용할 수 있도록 할당하고, 스위칭 없이 스레드를 다 처리하고 다음 스레드를 처리하는 구조
- 동시에 실행하는 스레드 간에는 똑같은 연산을 동시에 실행하며 진행하는 구조. 따라서 분기가 발생하면 하나의 조건을 실행할 동안 다른 조건에 해당하는 스레드는 쉬고 있다. if(a % 32 == 0) 이런 구조의 분기는 1/32의 효율을 가져올 것.
- 워프 : 하나의 SM에서 처리되는 스레드들. 따라서 코드는 워프단위로 실행된다.