Skip to content

tanh算子x86架构循环尾部 avx512 mask 优化 #6061

@nihui

Description

@nihui

IssueShoot

  • 预估时长:1.5
  • 期望完成时间:2025-12-31
  • 开发难度:高
  • 参与人数:1
  • 需求对接人:nihuini
  • 验收标准:实现期望改造效果,提 pr 并通过测试
  • 备注:参考commit 6fa649f 在avx512中,mask是一组专门的寄存器,它们配合普通的向量指令使用,可以在同一条指令中对每个元素单独开启或关闭执行。在处理长度非16整数倍的循环时,掩码就特别有用:你可以不拆尾判断,也不用处理「剩n个元素」的标量路径,直接在最后一次向量操作里把多余的lane(元素)屏蔽掉

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions