Skip to content

[S2T] aishell/asr1 训练过程卡住不动 #2459

@Tian14267

Description

@Tian14267

你好,我发现一个问题,对于ASR训练(文件夹:examples/aishell/asr1),训练到中间部分的时候,就直接卡住不动了,主要有以下情况:
1:单卡训练的时候,训练到中间部分,训练就卡住了,GPU也完全不动了,GPU内存却正常占用;
image
打印的日志只更新到26号,训练epoch到25就不动了(设置的epoch是30);

2: 双卡训练的时候,也一样的情况。重启之后,1个epoch都没训练就卡住了。状态和上面一样。
image
image
这两张卡一直处于静止状态。请问这个问题是什么情况啊

Metadata

Metadata

Assignees

Labels

Type

No type

Projects

No projects

Milestone

No milestone

Relationships

None yet

Development

No branches or pull requests

Issue actions