Skip to content

【PaddlePaddle Hackathon】50、基于 PaddleNLP 语义索引实现 Gradient Cache 策略,实现超大 batch 语义索引模型训练 #1080

@TCChenlong

Description

@TCChenlong

(此 ISSUE 为 PaddlePaddle Hackathon 活动的任务 ISSUE,更多详见PaddlePaddle Hackathon

【任务说明】

  • 任务标题:基于 PaddleNLP 语义索引实现 Gradient Cache 策略,实现超大 batch 语义索引模型训练

  • 技术标签:python、语义索引

  • 任务难度:困难

  • 详细描述:语义索引模型的效果受 batch_size 影响很大,一般 batch_size 越大模型效果越好,但是受限于 GPU 显存大小,batch_size 在普通硬件上往往无法开到很大;这篇 paper(Paper: https://arxiv.org/pdf/2101.06983.pdf) 提出的 Gradient Cache 算法可以有效扩展 batch_size , 在显存较小条件下也能实现大 batch 语义索引模型训练。

【提交内容】

  • 任务 PR 到 PaddleNLP

  • 相关技术文档(模型效果验证符合预期)

【技术要求】

  • 熟练掌握 python

  • 理解深度学习模型原理

  • 了解语义索引模型基础算法(非必须)

【参考资料】

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions