@@ -211,14 +211,14 @@ void main()
211211 afpvec8 v;
212212#if ncnn_vendorID == 4318
213213 // out of index load cause stall on nvidia
214- v[0].r = mask.r ? buffer_ld1(bottom_blob_data, v_offset.r) : value;
215- v[0].g = mask.g ? buffer_ld1(bottom_blob_data, v_offset.g) : value;
216- v[0].b = mask.b ? buffer_ld1(bottom_blob_data, v_offset.b) : value;
217- v[0].a = mask.a ? buffer_ld1(bottom_blob_data, v_offset.a) : value;
218- v[1].r = mask2.r ? buffer_ld1(bottom_blob_data, v_offset2.r) : value;
219- v[1].g = mask2.g ? buffer_ld1(bottom_blob_data, v_offset2.g) : value;
220- v[1].b = mask2.b ? buffer_ld1(bottom_blob_data, v_offset2.b) : value;
221- v[1].a = mask2.a ? buffer_ld1(bottom_blob_data, v_offset2.a) : value;
214+ v[0].r = mask.r ? buffer_ld1(bottom_blob_data, v_offset.r) : afp( value) ;
215+ v[0].g = mask.g ? buffer_ld1(bottom_blob_data, v_offset.g) : afp( value) ;
216+ v[0].b = mask.b ? buffer_ld1(bottom_blob_data, v_offset.b) : afp( value) ;
217+ v[0].a = mask.a ? buffer_ld1(bottom_blob_data, v_offset.a) : afp( value) ;
218+ v[1].r = mask2.r ? buffer_ld1(bottom_blob_data, v_offset2.r) : afp( value) ;
219+ v[1].g = mask2.g ? buffer_ld1(bottom_blob_data, v_offset2.g) : afp( value) ;
220+ v[1].b = mask2.b ? buffer_ld1(bottom_blob_data, v_offset2.b) : afp( value) ;
221+ v[1].a = mask2.a ? buffer_ld1(bottom_blob_data, v_offset2.a) : afp( value) ;
222222#else
223223 v[0].r = buffer_ld1(bottom_blob_data, v_offset.r);
224224 v[0].g = buffer_ld1(bottom_blob_data, v_offset.g);
0 commit comments