算子规格输入
Op Spec
算子名称
算子类型
输入 Tensors
输出 Tensors
Tiling 参数
M_tile
N_tile
K_tile
L1 reuse
附加约束
生成代码
填写左侧规格,点击「AI 生成算子代码」
生成 impl.py 后自动生成对应 test.py
AI 助手
计算图
精度调试工作台
选中算子
← 点击计算图中的算子节点
精度风险矩阵
修复策略推荐
P1
frontend.jit 装饰
在 kernel 函数上添加
@pypto.frontend.jit,触发编译器精度优化路径P2
inplace=False
为 inplace 算子添加
inplace=False 参数,避免数据覆盖精度损失P3
unroll_list=[1]
关闭 loop unroll 展开,消除浮点累积误差
P4
submit_before_loop=True
在循环前强制 pipeline submit,确保中间结果刷写
P5
+0.0 精度技巧
关键累加点插入
tensor = tensor + 0.0 强制类型提升P6
Shape 调整
调整 tile shape 使边界对齐 32B,消除 padding 引入的精度问题
精度分析助手
任务配置
Profile 数据源
拖拽 profile JSON/CSV
或点击上传
或点击上传
AIC 核数
AIV 核数
高亮模式
核利用率
—
Bubble 率
—
最长任务
—
负载方差
—
任务泳道图
DMA
Cube
Vector
Bubble
优化建议
—
点击「AI 分析性能瓶颈」后查看优化建议
AI 性能助手