作者a4g5i6sefben (a4g5i6)
看板Fortran
标题[问题] 请问各位利用CUDA把FORTRAN CODE加速的一些问题
时间Sun Jul 3 04:43:28 2011
不好意思,我想请问一下各位有使用过GPU平行化的程式(CUDA),
利用此功能能让我们的code加快多少倍
能请各位给我您所使用的
GPU型号(例如Tesla C1060,C2050.C2070.....)
code是计算什麽的(例如积分.解矩阵或积分.....)
用几个核心来跑code
来做参考(如果有一些小细节会些微影响跑的时间,那些可以不用理会)
在我的想法中,理论上用多少核心跑,我们所要平行化的部分就会加快多少,
但也要考虑电脑可能会delay,所以会延迟一下,因此我才想问实际是跑多快
我会问这个的原因是因为我是一个研究生,
我们实验室目前是用openmp加速,也就是利用CPU来加速,但CPU的核心数不会比GPU来的多,
假如用4个CPU跑积分最多才加速2~3.4倍,并不会完全增加4倍,我们实验室想买GPU,
现在还在评估阶段,但怕GPU的加快速度比CPU还来的差,目前没有机台可供我们测试,
因此来此板问各位用过GPU的大大,能让我回报我们教授,感谢各位的帮助
P.S.假如各位有其他想法可以回复告知我,谢谢!!(我们实验室用的程式是FORTRAN)
--
※ 发信站: 批踢踢实业坊(ptt.cc)
◆ From: 140.113.128.39
1F:推 Semisphere:一切看演算法可供平行化的部份多不多,若真要研究请先 07/03 16:33
2F:→ Semisphere:把既有的演算法搞懂才能知道GPU加速程度,另也可前往 07/03 16:34
3F:→ Semisphere:c++版 /openmp,有很多资讯可供参考 07/03 16:35
4F:推 callmei:CUDA不是这样设计的 跟一般多核心平行化会有些不太一样 07/03 17:56
5F:→ callmei:如果照本宣科把CPU平行化的演算法套到GPU上 不一定会较快 07/03 17:58
6F:→ callmei:简单说就是很可能要重新设计演算法 很难这样简单地去比较 07/03 17:59
7F:→ Semisphere:看到有人推文,我才发现打错关键字 /cuda 07/03 18:33
8F:推 callmei:补充一下 GPU程式写得好真的会很快XDDDD 只有一个爽字!!! 07/03 19:15
9F:推 kusork:n个CPU不可能跑出n倍速度 资料传递也是要时间的 07/03 19:48
10F:→ blc:cpu好像有个共用记忆体的架构,不过不熟… 07/03 22:47
11F:推 acyang:请问callmei或Semisphere大大,如果有mpi开发经验 07/04 09:16
12F:→ acyang:是不是比较容易入门CUDA? 07/04 09:17
13F:推 meteorology:快4~6倍 07/04 19:57
14F:推 callmei:不晓得耶~我觉得CUDA的grid/block/thread蛮像电脑丛集的 07/04 23:24
15F:→ callmei:所以我想有用MPI开发过电脑丛集程式 应该是有帮助的 07/04 23:25
16F:→ callmei:只是一个是计算时脉低 平行单元多 资料传输快 07/04 23:26
17F:→ callmei:一个是计算时脉高 平行单元少 资料传输慢 07/04 23:26
18F:→ callmei:所以开发程式时该顾虑的点会不太一样 而且CPU快取也较大 07/04 23:27
19F:→ callmei:而且我不是大大 我现在还在练习把小程式改成CUDA的阶段 07/04 23:29
20F:→ callmei:蛮希望有高手出来教学一下的 自己找资料摸索真的太累了.. 07/04 23:30
21F:→ onezillion:乱入一问:记忆体部分若要用到超过20G怎麽办 07/06 09:39
22F:→ onezillion:使用外部ram吗?还是只能用GDDR? 07/06 09:40
23F:推 callmei:可能得做多次的数据交换和分批计算吧??或是用很多张显卡?? 07/11 04:21
24F:→ callmei:不过我不知道CUDA架构下 显卡串联 记忆体有没有共享就是了 07/11 04:22