九游体育娱乐网这里采选tensor步地和mix级-九游体育「中国」Ninegame官方网站-登录入口
一、问题描画
1.在进行sam模子迁徙到昇腾的时辰存在精度问题,模子采集:
https://github.com/facebookresearch/segment-anything
2 .两台机器上锤真金不怕火loss图对比,发现从一出手锤真金不怕火的时辰就出现了分袂,从图中对比看出来npu第一步就出手莫得向下料理,而gpu是向下料理。

二、问题分析经过
1.准备dump精度对比望望区别,使用Ascend开源仓的msprobe器用进行精度对比
debug/accuracy_tools/msprobe/docs/01.installation.md · Ascend/mstt - Gitee.com
器用装配号令:
pip install mindstudio-probe
2.然后在锤真金不怕火剧本部分加代码,按照示例添加代码
使用示例可参见Ascend开源仓的PyTorch 场景的精度数据收集示例代码 2.1 快速上手和 2.2 收集齐备的前反向数据。
3.添加start函数
功能讲明:启动精度数据收集,在模子运回荡之后的位置添加,需要与 stop 函数沿途添加在 for 轮回内。
debugger.start(model=None)
model:指定具体的 torch.nn.Module,默许未竖立,level 竖立为"L0"或"mix"时,必须在该接口或 PrecisionDebugger 接口中竖立该参数。 本接口中的 model 比 PrecisionDebugger 中 model 参数优先级更高,会遮掩 PrecisionDebugger 中的 model 参数。
4.添加stop函数
功能讲明:住手精度数据收集,在 start 函数之后的自便位置添加,若需要 dump 反向数据,则需要添加在反向筹谋代码(如,loss.backward)之后。
debugger.stop()from msprobe.pytorch import PrecisionDebuggedebugger = PrecisionDebugger(config_path='./config.json')debugger.start() # 一般在锤真金不怕火轮回起头启动器用 # 轮回体debugger.stop() # 一般在锤真金不怕火轮回末尾规则器用debugger.step() # 在锤真金不怕火轮回的临了需要重置器用,非轮回场景不需要
这里的config.json也不错开采许多种类型,这里采选tensor步地和mix级。
{ "task": "tensor", "dump_path": "/home/data_dump", "rank": [], "step": [], "level": "mix", "tensor": { "scope": [], "list":[], "data_mode": ["all"] }}
5.平直运行锤真金不怕火剧本,在数据dump下来之后 跟gpu的精度进行对比。

npu在这里丢了image_embedding的梯度,因为该模子用到了Reg_op(RepeatInterleaveGrad)这个算子,接下来分析cann包是否有这个算子 发现是有的 可是通过插足python后调用torch_npu.repeat_interleave_backward_tensor这个函数,发现调用失败。


调用失败露馅 :AttributeError: module 'torch_npu' has no attribute 'repeat_interleave_backward_tensor'
6.检讨torch_npu版块,发现是2.1post3和pytorch2.1版块不配套。
三、处治纪律
通过检讨昇腾torch_npu的版块与pytorch的配套表,遴荐对应的torch_npu版块:https://gitee.com/ascend/pytorch
采选配套版块后九游体育娱乐网,函数调用生效,loss图也平淡。