1 2D-Heat equation. 2 Überblick Definition Diskretisierung Iterationsverfahren Mapping auf Cuda...

2D-Heat

< CUDA implementatio

equation

Überblick

Definition Diskretisierung Iterationsverfahren Mapping auf Cuda Implementierung Optimierung Performance Vergleiche Probleme Demo

Definition Mathematische Definition (2D):

Beschreibt den Temperaturverlauf der - Fläche über der Zeit .

Anwendungen in: Finanz Mathematik Statistik Physik, Chemie

Überblick

Diskretisierung Diskretisierung des Gebietes

Finite Differenzen Methode (FDM)

Überblick

Iterationsverfahren Einsetzen in die DGL ergibt finiten Differenzenstern

Filtern des „Bildes“ mit diesem Filterkernel ergibt einen Zeitschritt

Berechnungsverfahren: Jacobiverfahren gut parallelisierbar Gauß-Seidel Verfahren schlecht parallelisierbar

Überblick

Mapping auf Cuda Durch Jacobiverfahren können viele Pixel unabhängig

voneinander berechnet werden

Kernel (Thread) berechnet ein gefiltertes Pixel Benötigt 4 umliegende Werte und sich selbst

Grid berechnet eine Iteration (einen Filterdurchlauf)

Bild wird in Blöcke zerlegt

Anzahl der Iterationen (Filteraufrufe)bestimmt die simulierte Zeit der zulösenden heat equation

Überblick

heat.cu

void heat() {// Kernel Konfigurationdim3 block(BLOCK_SIZE_X, BLOCK_SIZE_Y, 1);dim3 grid(width / block.x, height / block.y, 1);

// Filteraufruf for(i = 0; i < iterations; i++) {

filter<<<grid, block>>>(d_src, d_dst, width, height);filter<<<grid, block>>>(d_src, d_dst, width, height);

// Pointeraustauschtmp = d_src;d_src = d_dst;d_dst = tmp;

heat_kernel.cu (global)

__global__ void filter_global(float* d_src, float* d_dst, int width, int height) {

// Referenz ist linke obere Ecke des Filter Kernelsint x = blockIdx.x * blockDim.x + threadIdx.x;int y = blockIdx.y * blockDim.y + threadIdx.y;int i = y * width + x;

if(x < width - 2 && y < height - 2) {float sum = 0.0;// obensum += 0.25 * d_src[i + 1];// linkssum += 0.25 * d_src[i + width];// rechtssum += 0.25 * d_src[i + width + 2];// untensum += 0.25 * d_src[i + 2 * width + 1];

// Mitte schreibend_dst[i + width + 1] = sum;

__shared__ float img_block[BLOCK_SIZE_X + 2][BLOCK_SIZE_Y + 2];

img_block[tx + 1][ty + 1] = d_src[i]; // Mitte lesen

__syncthreads();

if(x > 0 && x < width - 1 && y > 0 && y < height - 1) {//Bildrand nicht if(tx == 0) { verändern

img_block[tx][ty + 1] = d_src[i - 1]; // links} else if(tx == blockDim.x - 1) {

img_block[tx + 2][ty + 1] = d_src[i + 1]; // rechts}if(ty == 0) {

img_block[tx + 1][ty] = d_src[i - width]; // oben} else if(ty == blockDim.y - 1) {

img_block[tx + 1][ty + 2] = d_src[i + width]; // unten}

__syncthreads(); // Rechnenfloat sum = 0.0;sum += 0.25 * img_block[tx][ty + 1];sum += 0.25 * img_block[tx + 2][ty + 1];sum += 0.25 * img_block[tx + 1][ty];sum += 0.25 * img_block[tx + 1][ty + 2];d_dst[i] = sum; // Zurückschreiben

heat_kernel.cu (shared)

Überblick

Optimierung

Speicherzugriffe zw. Host u. DeviceSpeicherzugriffe zw. Host u. Device Durch umbiegen der Zeiger minimiert

Shared memory verwendetShared memory verwendet Coalscaled Speicherzugiff

- 32 * 4 Byte = 128 Byte werden pro Warp linear gelesen- Startadresse des source-images ist ganzzahliges Vielfaches von 128

Rechnen auf Shared Memory schneller

Occupancy maximiertOccupancy maximiert Beste Kernel Konfiguration für unser Problem gefunden

Überblick

Messungen Global Memory

8X – 8Y

Bildgröße Zeit [ms]

64 x 6464 x 64 0.0139128 x 128128 x 128 0.0532256 x 256256 x 256 0.2200512 x 512512 x 512 0.9000

1024 x 10241024 x 1024 3.60002048 x 20482048 x 2048 14.4000

16X – 8Y

64 x 6464 x 64 0.0129128 x 128128 x 128 0.0478256 x 256256 x 256 0.1897512 x 512512 x 512 0.7576

1024 x 10241024 x 1024 3.05002048 x 20482048 x 2048 12.2200

16X – 16Y

64 x 6464 x 64 0.0130128 x 128128 x 128 0.0500256 x 256256 x 256 0.1900512 x 512512 x 512 0.7560

1024 x 10241024 x 1024 3.03002048 x 20482048 x 2048 12.2700

Messungen Shared Memory

8X – 8Y

64 x 6464 x 64 0.0083128 x 128128 x 128 0.0280256 x 256256 x 256 0.1160512 x 512512 x 512 0.4540

1024 x 10241024 x 1024 1.80002048 x 20482048 x 2048 7.3000

16X – 8Y

64 x 6464 x 64 0.0044128 x 128128 x 128 0.0096256 x 256256 x 256 0.0260512 x 512512 x 512 0.0940

1024 x 10241024 x 1024 0.36902048 x 20482048 x 2048 1.4700

16X – 16Y

64 x 6464 x 64 0.0044128 x 128128 x 128 0.0100256 x 256256 x 256 0.0270512 x 512512 x 512 0.0980

1024 x 10241024 x 1024 0.38002048 x 20482048 x 2048 1.5540

Global vs. Shared

Global Memory (16X – 8Y)

64 x 6464 x 64 0.0129128 x 128128 x 128 0.0478256 x 256256 x 256 0.1897512 x 512512 x 512 0.7576

1024 x 10241024 x 1024 3.05002048 x 20482048 x 2048 12.2200

Shared Memory (16X – 8Y)

64 x 6464 x 64 0.0044128 x 128128 x 128 0.0096256 x 256256 x 256 0.0260512 x 512512 x 512 0.0940

1024 x 10241024 x 1024 0.36902048 x 20482048 x 2048 1.4700

GPU vs. CPU

Device GFLOPS

Single CoreSingle Core ~ 0.084

Dual CoreDual Core ~ 0.384

Quad CoreQuad Core ~ 0.225

GPUGPU ~ 22.78

Single Core (faui07g)Single Core (faui07g) : Intel Pentium 4 → 2.4 GHzDual Core (faui08)Dual Core (faui08) : AMD Opteron → 2.2 GHzQuad Core (faui06i):Quad Core (faui06i): Intel Q6600 → 2.4 GHz

Speedup

GPU vs. Dual Core GPU vs. Quad Core GPU vs. Single Core

Überblick

Probleme

Bildgrößen nur als Vielfaches von Blockgröße möglich

Zeiten messen Timer in cuda hat inkonsistente Zeiten geliefert Profiler liefert bessere Ergebnisse

Teilweise Branching und Bankkonflikte nicht vermeidbar

Überblick

Demo Sascha …

0,0000

2,0000

4,0000

6,0000

8,0000

10,0000

12,0000

14,0000

64x64 128x128 256x256 512x512 1024x1024 2048x2048

→→?

1 2D-Heat equation. 2 Überblick Definition Diskretisierung Iterationsverfahren Mapping auf Cuda...

Documents

Transcript of 1 2D-Heat equation. 2 Überblick Definition Diskretisierung Iterationsverfahren Mapping auf Cuda...

Algorithmik kontinuierlicher Systeme - cs10.tf.fau.de · SS 2018 Diskretisierung und Quantisierung (2) Prof. U. Rüde - Algorithmik kontinuierlicher Systeme • Diskretisierung ‣

Digitale Signalverarbeitung, Vorlesung 10 - Diskrete ... · Diskret im Zeit- und Frequenzbereich ! Endliche Datenmenge durch Diskretisierung E ziente Algorithmen zur Berechnung und

Fakultät für Informatik und Mathematik · 6 Vergleich von CUDA und OpenCL 55 ... Diesen Ansatz macht man sich beim GPU-Computing zunutze. ... Abschließend vergleichen wir CUDA

CUDA - reneschimmelpfennig.de€¦ · 3 gpgpu 6 3.1 geschichtliches 6 3.2 opencl 7 4 cuda 8 4.1 hardwareseitig 8 4.2 softwareseitig 10 5 beispiel – matrizenmultiplikation 12 5.1

Bachelor Thesis: CUDA Geometry Sensor Service · 2012-04-13 · Bachelor Thesis: CUDA Geometry Sensor Service Handed in: 22.10.2008 by Christopher Bolte Research Group Programming

Rechenverfahren zur Diskretisierung von Strömungen in ...digbib.ubka.uni-karlsruhe.de/volltexte/fzk/6596/6596.pdf · Rechenverfahren zur Diskretisierung von Strömungen in komplexer

Datenverarbeitung in der Geophysik Digitalisierung, Diskretisierung Seismische Zeitreihen -> Seismogramme Samplingrate, Taktfrequenz Nyquistfrequenz zeitliche,

Uber die aus monoton zerlegbaren Operatoren gebildeten ......Computing 6, 161-172 (1970) (Q by Springer-Verlag 1970..-. Uber die aus monoton zerlegbaren Operatoren gebildeten Iterationsverfahren

Modulhandbuch - FAU · 2020. 11. 6. · 6 1 Modulbezeichnung Modul AM: Angewandte Mathematik ECTS 5 2 Lehrveranstaltungen 1. Diskretisierung und numerische Optimierung 2. Robuste

Eﬃziente Diskretisierung von statischen Fluid-Struktur ... · Eﬃziente Diskretisierung von statischen Fluid-Struktur-Problemen bei großen Deformationen Zur Erlangung des akademischen

GPU-Computing mit CUDA und OpenCL in der Praxis

GPU-Programmierung: OpenCL€¦ · Einsatzgebiete von GPU-Computing Entwicklung von GPU-Computing 2 OpenCL Entwicklung Architektur Spracheigenschaften Vergleich mit CUDA Beispiel

Diskretisierung Elliptischer Steuerungsprobleme · 2006-09-12 · Diskretisierung Elliptischer Steuerungsprobleme DISSERTATION zur Erlangung des akademischen Grades doctor rerum naturalis

Effiziente Diskretisierung von statischen Fluid-Struktur-Problemen ...

GPGPU-Programmierungls12-€¦ · Einführung von CUDA ... CUDA – Inline Assembly PTX-Code kann direkt im Kernel benutzt werden Code meist effizienter PTX-Instruktionen keine Hardwarebefehle

CUDA und Python - uni-hamburg.deseppke/...2013/12/12 · Nutzung als GPGPU wird erm oglicht Nutzung der Special Function Units Programmierung in CUDA C/C++ oder CUDA Fortran Bindings

RA, 5. Vorles. - Lehrstuhl 12: Home · Einführung von CUDA ... CUDA – Inline Assembly PTX-Code kann direkt im Kernel benutzt werden Code meist effizienter PTX-Instruktionen keine

Realtime Radiosity mit Nvidia CUDA - …users.informatik.haw-hamburg.de/~abo781/abschlussarbeiten/ba... · Lars Nielsen Thema der Arbeit RealtimeRadiositymitNvidiaCUDA Stichworte

1 CUDA. 2 Compute Unified Device Architecture Was ist CUDA? Was ist CUDA? Hardware – Software Architektur Ermöglicht general-purpose computing auf einer.

Wissenschaftliches Programmieren mit CUDA Christian Renneke Daniel Klimeck Betreuer: Dipl.-Ing. Bastian Bandlow.