기술

하루에도 수만개의 글자를 읽고 있습니다. 하루에도 수백장의 종이를 들춰 읽습니다.
이것은 그 읽기에 대한 일기입니다.

CUDA 병렬 프로그래밍 (20121023)

10월 24th, 2012 Posted by 룬룬

CUDA 병렬 프로그래밍, 정영훈 저, 이한디지털리

2. CUDA의 기본

하나의 SP(CUDA 코어)는 4개의 스레드를 처리
G80/GT200은 하나의 SM에 SP가 8개 (32개의 스레드)
G80은 하나의 TPC에 2개의 SM (64개의 스레드)
GT200은 하나의 TPC에 3개의 SM (96개의 스레드)
GT200은 하나의 SM에 SP가 10개
페르미 GF100는 TPC가 사라지고 1개의 SM에 32개의 SP (128개의 스레드)

3. 프로그래밍 준비

__global__ 디바이스에서 실행, 호스트에서 호출 가능, 디바이스에서 호출 불가능, 함수내 static 변수 불가, 호출 즉시 반환하여 비동기 동작

4. 스레드 블록 아키텍쳐

__global__ void kernel<<<Dg, Db, Ns, S>>>();
Dg : Dimensions of the grid
Db : Dimensions of the block
Ns : Number of bytes shared memory dynamically allocated per block
S : associated cudaStream_t
문맥교환을 최소로 하기 위하여 남는 레지스터를 실행하지 않는 스레드가 사용할 수 있도록 할당하고, 스위칭 없이 스레드를 다 처리하고 다음 스레드를 처리하는 구조
동시에 실행하는 스레드 간에는 똑같은 연산을 동시에 실행하며 진행하는 구조. 따라서 분기가 발생하면 하나의 조건을 실행할 동안 다른 조건에 해당하는 스레드는 쉬고 있다. if(a % 32 == 0) 이런 구조의 분기는 1/32의 효율을 가져올 것.
워프 : 하나의 SM에서 처리되는 스레드들. 따라서 코드는 워프단위로 실행된다.

Add a Comment Trackback