Optimize OpenCL Addition #3408

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

Sign up for GitHub

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Jump to bottom

Open

gkisalapl wants to merge 3 commits into nnstreamer:main from gkisalapl:add_cl

Contributor

gkisalapl commented Aug 12, 2025 •

edited

Loading

Optimize OpenCL Addition

Unify opencl addition for FP16/32
Add possibility to pass nullptr as local work size

Speedup:

Before:
FP32 ADD : N: 12 C: 1 H: 2048 W: 2048

time : CPU = 14135 us
time : GPU = 114108 us

After:
FP32 ADD : N: 12 C: 1 H: 2048 W: 2048

time : CPU = 13866 us
time : GPU = 74545 us

github-actions bot added the Need Review label

gkisalapl force-pushed the add_cl branch from a6b2355 to b9da07d Compare

August 13, 2025 07:19

gkisalapl marked this pull request as ready for review

August 13, 2025 07:31

gkisalapl requested review from myungjoo, jijoongmoon, again4you, jaeyun-jung, leemgs, wooksong, gichan-jang, anyj0527, lhs8928, songgot, jihochu, DonghakPark, SeoHyungjun, baek2sm, skykongkong8, djeong20, EunjuYang, dkjung and haehun as code owners

August 13, 2025 07:31

gkisalapl changed the title ~~OpenCL Add experiments~~ Optimize OpenCL Addition

gkisalapl force-pushed the add_cl branch from b9da07d to c912f66 Compare

August 13, 2025 14:57

songgot reviewed

View reviewed changes

nntrainer/opencl/opencl_command_queue_manager.h Outdated

Comment on lines 197 to 201

+                 * @param kernel OpenCL kernel
+                 * @param global_work_size Total number of work items that will execute the
+                 * kernel function
+                 * @param local_work_size Number of work items that make up a work group

Contributor

songgot Aug 13, 2025

The description of the work_dim parameter is missing.

djeong20 reviewed

View reviewed changes

Contributor

djeong20 left a comment

Please review the comments and implement the recommended changes.

nntrainer/opencl/opencl_command_queue_manager.cpp Outdated

+                  return false;
+                }
+                clFinish(command_queue_);

Contributor

djeong20 Aug 14, 2025

let's use clWaitForEvents instead.

nntrainer/tensor/cl_operations/blas_kernels_templates.h Outdated

Comment on lines 272 to 274

+                  blas_cc->command_queue_inst_.enqueueSVMMap(const_cast<float *>(input),
+                                                             dim1_size, false);
+                  blas_cc->command_queue_inst_.enqueueSVMMap(res, dim2_size, false);

Contributor

djeong20 Aug 14, 2025

This is incorrect. SVMMap is used to enable the host side to use the allocated SVM.

Suggested change

      
                blas_cc->command_queue_inst_.enqueueSVMMap(const_cast<float *>(input),
          
                                                           dim1_size, false);
          
                blas_cc->command_queue_inst_.enqueueSVMMap(res, dim2_size, false);
          
                blas_cc->command_queue_inst_.enqueueSVMUnmap(input);
          
                blas_cc->command_queue_inst_.enqueueSVMUnmap(res);

nntrainer/tensor/cl_operations/blas_kernels_templates.h Outdated

Comment on lines 332 to 336

+                if (use_svm) {
+                  blas_cc->command_queue_inst_.enqueueSVMUnmap(const_cast<float *>(input));
+                  blas_cc->command_queue_inst_.enqueueSVMUnmap(res);
+                } else {
+                  auto &clbuffInstance = ClBufferManager::Global();
+                  result = clbuffInstance.getOutBufferA()->ReadDataRegion(
+                    blas_cc->command_queue_inst_, dim2_size, res);

Contributor

djeong20 Aug 14, 2025

If you plan to map or read data from a buffer after execution, there is no need to use DispatchCommandAndWait. This means that clFinish or clWaitForEvents is unnecessary.

djeong20 mentioned this pull request

Fix and optimize rmsnorm OpenCL implementation, inspired by GGML opecl kernel. #3415

Merged

gkisalapl force-pushed the add_cl branch 3 times, most recently from f44547f to 4d83229 Compare

August 20, 2025 19:41

gkisalapl force-pushed the add_cl branch 2 times, most recently from e8b01eb to c8f25c1 Compare

August 22, 2025 07:09

mwlasiuk suggested changes

View reviewed changes

nntrainer/layers/cl_layers/swiglu_cl.cpp


		} while (false);
		std::array<size_t, 3> global_work_size = {dim, 1, 1};

Contributor

mwlasiuk Aug 22, 2025

/home/m.wlasiuk/Desktop/nntrainer-mw/nntrainer/layers/cl_layers/swiglu_cl.cpp:161:45: error: narrowing conversion of ‘dim’ from ‘int’ to ‘long unsigned int’ [-Werror=narrowing]
161 | std::array<size_t, 3> global_work_size = {dim, 1, 1};

nntrainer/layers/cl_layers/swiglu_cl.cpp

+                      nullptr, 0, nullptr, &swiglu_wait)) {
+                }
+                cl_context->command_queue_inst_.waitForEvent(1, &swiglu_wait);

Contributor

mwlasiuk Aug 22, 2025

release events after use

Contributor

mwlasiuk commented Aug 22, 2025

[==========] Running 19 tests from 1 test suite.
[----------] Global test environment set-up.
[----------] 19 tests from blas_kernels
[ RUN      ] blas_kernels.dotCL_sgemv_M_1_1
[       OK ] blas_kernels.dotCL_sgemv_M_1_1 (874 ms)
[ RUN      ] blas_kernels.dotCL_sgemv_M_1_2
[       OK ] blas_kernels.dotCL_sgemv_M_1_2 (42 ms)
[ RUN      ] blas_kernels.dotCL_sgemv_N_1_1
[       OK ] blas_kernels.dotCL_sgemv_N_1_1 (38 ms)
[ RUN      ] blas_kernels.dotCL_sgemv_N_1_2
[       OK ] blas_kernels.dotCL_sgemv_N_1_2 (39 ms)
[ RUN      ] blas_kernels.dotCL_sgemv_n
[       OK ] blas_kernels.dotCL_sgemv_n (34 ms)
[ RUN      ] blas_kernels.dotCL_sgemv_N_1_M_1_1
[       OK ] blas_kernels.dotCL_sgemv_N_1_M_1_1 (4 ms)
[ RUN      ] blas_kernels.dotCL_sgemv_N_1_M_1_2
[       OK ] blas_kernels.dotCL_sgemv_N_1_M_1_2 (0 ms)
[ RUN      ] blas_kernels.dot_gemm_50_768_1024_noTrans
[       OK ] blas_kernels.dot_gemm_50_768_1024_noTrans (44 ms)
[ RUN      ] blas_kernels.dot_gemm_50_768_2048_transB
[       OK ] blas_kernels.dot_gemm_50_768_2048_transB (88 ms)
[ RUN      ] blas_kernels.dot_gemm_50_768_1024_transA
[       OK ] blas_kernels.dot_gemm_50_768_1024_transA (25 ms)
[ RUN      ] blas_kernels.dot_gemm_50_768_2048_transAB
[       OK ] blas_kernels.dot_gemm_50_768_2048_transAB (40 ms)
[ RUN      ] blas_kernels.addition_i
FP32 ADD : N: 1 C: 1 H: 3072 W: 3072
 - time : CPU = 4502 us
 - time : GPU = 64 us
[       OK ] blas_kernels.addition_i (452 ms)
[ RUN      ] blas_kernels.addition_i_svm
FP32 ADD : N: 1 C: 1 H: 3072 W: 3072
 - time : CPU = 5221 us
 - time : GPU = 5103 us
[       OK ] blas_kernels.addition_i_svm (383 ms)
[ RUN      ] blas_kernels.l2norm
[       OK ] blas_kernels.l2norm (13 ms)
[ RUN      ] blas_kernels.absolute_sum
[       OK ] blas_kernels.absolute_sum (0 ms)
[ RUN      ] blas_kernels.rmsnorm_fp32
FP32 RMSNORM : N: 1 C: 1 H: 3072 W: 3072
 - time : CPU = 2747898 us
 - time : GPU = 873 us
[       OK ] blas_kernels.rmsnorm_fp32 (2957 ms)
[ RUN      ] blas_kernels.rmsnorm_fp32_svm
FP32 RMSNORM : N: 1 C: 1 H: 3072 W: 3072
 - time : CPU = 2702493 us
 - time : GPU = 156278 us
[       OK ] blas_kernels.rmsnorm_fp32_svm (3022 ms)
[ RUN      ] blas_kernels.swiglu_layer_fp32
FP32 SWIGLU : N: 1 C: 1 H: 3072 W: 3072
 - time : CPU = 296745 us
 - time : GPU = 147 us
[       OK ] blas_kernels.swiglu_layer_fp32 (570 ms)
[ RUN      ] blas_kernels.swiglu_layer_fp32_svm
FP32 SWIGLU : N: 1 C: 1 H: 3072 W: 3072
 - time : CPU = 419297 us
 - time : GPU = 35503 us
[       OK ] blas_kernels.swiglu_layer_fp32_svm (672 ms)
[----------] 19 tests from blas_kernels (9314 ms total)

[----------] Global test environment tear-down
[==========] 19 tests from 1 test suite ran. (9314 ms total)
[  PASSED  ] 19 tests.

gkisalapl force-pushed the add_cl branch from c8f25c1 to 7b7ef81 Compare

August 22, 2025 08:11

mwlasiuk reviewed

View reviewed changes

nntrainer/layers/cl_layers/swiglu_cl.cpp

+                  set_result &= kernel->SetKernelArguments(0, &bufferInA, sizeof(cl_mem));
+                  set_result &= kernel->SetKernelArguments(1, &bufferInB, sizeof(cl_mem));
+                  set_result &= kernel->SetKernelArguments(2, &bufferOutA, sizeof(cl_mem));
+                  if (!set_result) {

Contributor

mwlasiuk Aug 22, 2025

missing ml_loge message

Contributor Author

gkisalapl Aug 26, 2025

I think that we should change SetKernelArguments to throw in case of error instead of return bool in some next PR. This way we will avoid need of checking ret value all the time

nntrainer/layers/cl_layers/swiglu_cl.cpp Outdated

+                if (!cl_context->command_queue_inst_.enqueueKernel(
+                      kernel->GetKernel(), global_work_size.size(), global_work_size.data(),
+                      nullptr, 0, nullptr, &swiglu_wait)) {

Contributor

mwlasiuk Aug 22, 2025

missing return + message

nntrainer/layers/cl_layers/swiglu_cl.cpp

+                if (!use_svm) {
+                  auto &clbuffInstance = ClBufferManager::Global();
+                  if (!clbuffInstance.getOutBufferA()->ReadDataRegion(
+                        cl_context->command_queue_inst_, dim * sizeof(float), vecYdata)) {

Contributor

mwlasiuk Aug 22, 2025

message

Contributor Author

gkisalapl Aug 26, 2025

Read data region already log error messages

nntrainer/tensor/cl_operations/blas_kernels_templates.h

-                if (!result) {
-                  return;
-                }
+                if (use_svm) {

Contributor

mwlasiuk Aug 22, 2025

from here on - message if failed

Contributor Author

gkisalapl Aug 26, 2025

I think that we should change SetKernelSVMArguments to throw in case of error instead of return bool in some next PR. This way we will avoid need of checking ret value all the time

nntrainer/tensor/cl_operations/blas_kernels_templates.h Outdated

                 if (!result) {
                   return;
                 }
-                result = clbuffInstance.getOutBufferA()->ReadDataRegion(
-                  blas_cc->command_queue_inst_, dim2_size, res);
+                blas_cc->command_queue_inst_.waitForEvent(1, &addition_wait);

Contributor

mwlasiuk Aug 22, 2025

release event

gkisalapl force-pushed the add_cl branch 8 times, most recently from 56e8460 to d110098 Compare

August 26, 2025 06:39

mwlasiuk approved these changes

View reviewed changes

nntrainer/opencl/opencl_loader.h

Comment on lines +215 to +218

+              typedef cl_int(CL_API_CALL *PFN_clWaitForEvents)(cl_uint num_events,
+                                                               const cl_event *event_list);
+              typedef cl_int(CL_API_CALL *PFN_clReleaseEvent)(cl_event);

Contributor

mwlasiuk Aug 26, 2025

Previous declarations have parameter names commented out. These 2 - one has type + name and second has only type for parameter.

Contributor Author

gkisalapl Aug 26, 2025

I've added only clReleaseEvent function and I would suggest to stick with types only in the future

gkisalapl added 3 commits

August 27, 2025 11:40


          Optimize OpenCL Addition

6e0ada5

Unify opencl addition for FP16/32
Add possibility to pass nullptr as local work size
Add SVM option

**Self-evaluation:**
1. Build test: [X]Passed [ ]Failed [ ]Skipped
2. Run test:   [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Grzegorz Kisala <[email protected]>


          Add svm indicator to mamory pool

a8e5acc

Add flag to indicate that memory pool data was created
using SVM

**Self-evaluation:**
1. Build test: [X]Passed [ ]Failed [ ]Skipped
2. Run test:   [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Grzegorz Kisala <[email protected]>


          Make swiglu and rmsnorm svm optional

00213c6

Modify swiglu and rmsnorm cl implementations to work with both
svm allocated tensors and buffers

**Self-evaluation:**
1. Build test: [X]Passed [ ]Failed [ ]Skipped
2. Run test:   [X]Passed [ ]Failed [ ]Skipped

Signed-off-by: Grzegorz Kisala <[email protected]>

gkisalapl force-pushed the add_cl branch from d110098 to 00213c6 Compare

August 27, 2025 10:09

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Reviewers

songgot songgot left review comments

djeong20 djeong20 left review comments

myungjoo Awaiting requested review from myungjoo myungjoo is a code owner

jijoongmoon Awaiting requested review from jijoongmoon jijoongmoon is a code owner

again4you Awaiting requested review from again4you again4you is a code owner

jaeyun-jung Awaiting requested review from jaeyun-jung jaeyun-jung is a code owner

leemgs Awaiting requested review from leemgs leemgs is a code owner

wooksong Awaiting requested review from wooksong wooksong is a code owner

gichan-jang Awaiting requested review from gichan-jang gichan-jang is a code owner

anyj0527 Awaiting requested review from anyj0527 anyj0527 is a code owner

lhs8928 Awaiting requested review from lhs8928 lhs8928 is a code owner

jihochu Awaiting requested review from jihochu jihochu is a code owner

DonghakPark Awaiting requested review from DonghakPark DonghakPark is a code owner

SeoHyungjun Awaiting requested review from SeoHyungjun SeoHyungjun is a code owner

baek2sm Awaiting requested review from baek2sm baek2sm is a code owner

skykongkong8 Awaiting requested review from skykongkong8 skykongkong8 is a code owner

EunjuYang Awaiting requested review from EunjuYang EunjuYang is a code owner

dkjung Awaiting requested review from dkjung dkjung is a code owner

haehun Awaiting requested review from haehun haehun is a code owner

+1 more reviewer

mwlasiuk mwlasiuk approved these changes

At least 3 approving reviews are required to merge this pull request.

Labels