算子平台

LeaWron · 发表于 2024-11-29 14:33:16

kouryoubon 发表于 2024-11-29 14:24
但如果接口不能动，评测也直接调用接口，不就不能自定义BlockSize和GridSize了吗？ ...

只是声明部分不能动，body随便改

kouryoubon · 发表于 2024-11-29 14:40:42

本帖最后由 kouryoubon 于 2024-11-29 14:43 编辑

LeaWron 发表于 2024-11-29 14:33
只是声明部分不能动，body随便改

针对lab3，这里的接口指的是kernel函数还是main.cpp里调用的函数（这个函数里面调用kernel）？如果是后者那我之前没改这个接口而只是在这个host函数里调用另一个kernel并launch了不同的block和grid，结果运行时间就到了4s多；如果是前者那么评测系统直接调用kernel函数不也相当于固定了launch的block和grid。
然后我两点交的代码现在还在排队，这系统是真的

LeaWron · 发表于 2024-11-29 14:45:53

kouryoubon 发表于 2024-11-29 14:40
针对lab3，这里的接口指的是kernel函数还是main.cpp里调用的函数（这个函数里面调用kernel）？如果是后者 ...

两个都是，host的call_kernel和global的kernel都是，具体到 lab3 就是

void macaTranspose(const float *d_input, float *d_output, int n) {
//body
gpuTransposeKernel<<<your_grid, your_block, your_sharedsize>>>(input, output, n);
// ...
}
__global__ void gpuTransposeKernel(const float *input, float *output, int n) {
//body
}

复制代码

大概是这么个结构