【PaddlePaddle Hackathon】50、基于 PaddleNLP 语义索引实现 Gradient Cache 策略，实现超大 batch 语义索引模型训练

（此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE，更多详见[PaddlePaddle Hackathon](https://www.paddlepaddle.org.cn/PaddlePaddleHackathon)）

【任务说明】

- 任务标题：基于 PaddleNLP 语义索引实现 Gradient Cache 策略，实现超大 batch 语义索引模型训练

- 技术标签：python、语义索引

- 任务难度：困难

- 详细描述：语义索引模型的效果受 batch_size 影响很大，一般 batch_size 越大模型效果越好，但是受限于 GPU 显存大小，batch_size 在普通硬件上往往无法开到很大；这篇 paper(Paper: https://arxiv.org/pdf/2101.06983.pdf) 提出的 Gradient Cache 算法可以有效扩展 batch_size , 在显存较小条件下也能实现大 batch 语义索引模型训练。

【提交内容】

- 任务 PR 到 [PaddleNLP](https://github.com/PaddlePaddle/PaddleNLP)

- 相关技术文档（模型效果验证符合预期）

【技术要求】

- 熟练掌握 python

- 理解深度学习模型原理

- 了解语义索引模型基础算法(非必须)

【参考资料】

- paper: https://arxiv.org/pdf/2101.06983.pdf

- github: https://github.com/luyug/GradCache

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

【PaddlePaddle Hackathon】50、基于 PaddleNLP 语义索引实现 Gradient Cache 策略，实现超大 batch 语义索引模型训练 #1080

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

【PaddlePaddle Hackathon】50、基于 PaddleNLP 语义索引实现 Gradient Cache 策略，实现超大 batch 语义索引模型训练 #1080

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions