(此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE,更多详见PaddlePaddle Hackathon)
【任务说明】
-
任务标题:基于 PaddleNLP 语义索引实现 Gradient Cache 策略,实现超大 batch 语义索引模型训练
-
技术标签:python、语义索引
-
任务难度:困难
-
详细描述:语义索引模型的效果受 batch_size 影响很大,一般 batch_size 越大模型效果越好,但是受限于 GPU 显存大小,batch_size 在普通硬件上往往无法开到很大;这篇 paper(Paper: https://arxiv.org/pdf/2101.06983.pdf) 提出的 Gradient Cache 算法可以有效扩展 batch_size , 在显存较小条件下也能实现大 batch 语义索引模型训练。
【提交内容】
【技术要求】
-
熟练掌握 python
-
理解深度学习模型原理
-
了解语义索引模型基础算法(非必须)
【参考资料】