26.03 【AI Inference】AI推理可观测-用于权重分发加速模块的网络侧指标 转测 一、度量数据 代码检视缺陷密度目标:16个/KLOC 说明:代码提交前,通过检视发现的代码缺陷; 主要来源:PR中的comment; 导向:发现缺陷,积极提交comment,做到端到端可追溯 开发者测试缺陷密度目标:4个/KLOC 说明:代码提交后转测前,通过开发者测试发现的代码缺陷; 主要来源:转测前issue单(缺陷) 导向:发现缺陷,积极提交issue,做到无issue,不PR,端到端可追溯。 责任人 代码类型 代码量(KLOC) 有效缺陷数 检视缺陷密度(数量/代码量) 说明(未达目标则需进行异常原因说明) 发现缺陷数 缺陷密度(个/KLOC) 说明(未达目标则进行异常原因说明) 后台[16,13,19] 前台[13,10,16] [4,2,8] 朱雪仪 前端 / / / / / / / 朱雪仪 后端 0.7k 10 14 达标 3 4.3 达标 朱雪仪 测试 2.6k / / / / / / 二、特性转测checklist 要求 评估项 评估责任人 评估结果 备注 完成了代码Review和开发自测,特性开发质量指标满足质量要求(或提供了合理的原因说明,或补充了质量活动) 要求DT行覆盖率>50%; 推荐DT行覆盖率>80% 朱雪仪 是/否(覆盖率%) UT覆盖率为85.5% 编译构建错误清零 是/否/不涉及 无编译构建错误 开源义务履行:SCA问题清零; 是/否/不涉及 无SCA问题 Issue解决:上版本遗留问题100%按计划解决;严重及以上问题清零; 是/否/不涉及 无上版本遗留问题 设计完备性 提供社区需求设计文档链接:需求设计完成sig组内评审、遗留问题闭环; 朱雪仪 是/否/不涉及 《ofep-0026-AI推理可观测》 https://gitcode.com/openFuyao/ofep/pull/49 提供社区继承需求、新增需求完整清单; 是/否/不涉及 已交付: 【SR20251022732668】提供硬件级异常检测分析模块,能够识别节点或设备故障并输出决策建议,为后续修复或隔离提供依据 【SR20251022732581】通过底层接口直接采集NPU等算力设备的资源使用情况与健康状态等15+关键指标,支撑后续硬件容灾落地 【SR20251022732436】采集AI推理框架自身暴露的运行态指标,秒级上报 【SR20251022732178】采集AI推理框架自身暴露的指标,支撑AI推理实例的自动扩缩容 《ofep-0026-AI推理可观测》 https://gitcode.com/openFuyao/ofep/pull/49 -------------------------------------------------------------------------------- 本次交付: 【SR20260112628479】适配NPU A3代际硬件感知诊断、提供部分A5代际硬件感知诊断 提供特性级测试用例列表:需完成QA sig组评审和遗留问题闭环; 是/否/不涉及 测试用例已在SIG组评审通过,内容见附件表格 交付件完备性 提供交付件清单、未交付清单,及未交付件的未交付说明 朱雪仪 是/否/不涉及 已交付: 【SR20251022732668】提供硬件级异常检测分析模块,能够识别节点或设备故障并输出决策建议,为后续修复或隔离提供依据 【SR20251022732581】通过底层接口直接采集NPU等算力设备的资源使用情况与健康状态等15+关键指标,支撑后续硬件容灾落地 【SR20251022732436】采集AI推理框架自身暴露的运行态指标,秒级上报 【SR20251022732178】采集AI推理框架自身暴露的指标,支撑AI推理实例的自动扩缩容 提案: 《ofep-0026-AI推理可观测》 https://gitcode.com/openFuyao/ofep/pull/49 用户指南: - https://gitcode.com/openFuyao/sig-ai-inference/blob/openFuyao-v25.12/docs/zh... 镜像: - cr.openfuyao.cn/openfuyao/eagle-eye-hardware-monitor:0.21.1 - cr.openfuyao.cn/openfuyao/eagle-eye-hardware-diagnosis:0.21.1 Chart包: - 仓库Chart包地址: https://gitcode.com/openFuyao/eagle-eye/tree/release-0.21.x/charts/eagle-eye - Chart包地址:oci://cr.openfuyao.cn/charts/eagle-eye:0.21.1 代码地址: - https://gitcode.com/openFuyao/eagle-eye/tree/release-0.21.x --------------------------------------------------------------------------------------------- 本次交付: 【SR20260112626000】提供可观测系统指标观测大类定义、提供面向AI推理场景系统性业务运行、系统运行、硬件健康相关指标,提供场景可观测关键数据采集和管理组件、兼容主流开源软件的交互模式 - 【AR20260123925638】刷新AI推理可观测提案 《ofep-0026-AI推理可观测》 https://gitcode.com/openFuyao/ofep/pull/49 【SR20260112628479】适配NPU A3代际硬件感知诊断、提供部分A5代际硬件感知诊断 - 采集节点的RDMA网卡理论传输速度、PCIe带宽以及NPU卡侧RoCE网卡的总带宽,并通过标签形式将这些指标附加到节点上 镜像: - cr.openfuyao.cn/openfuyao/npu-feature-discovery:latest Chart包: - 仓库Chart包地址:https://gitcode.com/openFuyao/npu-feature-discovery/tree/master/charts/npu-f... - Chart包地址:oci://cr.openfuyao.cn/charts/npu-feature-discovery:0.0.0-latest 代码地址: - https://gitcode.com/openFuyao/npu-feature-discovery/tree/master 提供特性描述文档、接口说明文档等测试支撑资料 是/否/不涉及 特性资料在转测后补齐 功能完备性 提供本特性已交付需求/本次交付需求/未交付需求清单、及未交付需求的相关说明 朱雪仪 是/否/不涉及 已交付: 【SR20251022732668】提供硬件级异常检测分析模块,能够识别节点或设备故障并输出决策建议,为后续修复或隔离提供依据 【SR20251022732581】通过底层接口直接采集NPU等算力设备的资源使用情况与健康状态等15+关键指标,支撑后续硬件容灾落地 【SR20251022732436】采集AI推理框架自身暴露的运行态指标,秒级上报 【SR20251022732178】采集AI推理框架自身暴露的指标,支撑AI推理实例的自动扩缩容 提案: 《ofep-0026-AI推理可观测》 https://gitcode.com/openFuyao/ofep/pull/49 用户指南: - https://gitcode.com/openFuyao/sig-ai-inference/blob/openFuyao-v25.12/docs/zh... 镜像: - cr.openfuyao.cn/openfuyao/eagle-eye-hardware-monitor:0.21.1 - cr.openfuyao.cn/openfuyao/eagle-eye-hardware-diagnosis:0.21.1 Chart包: - 仓库Chart包地址: https://gitcode.com/openFuyao/eagle-eye/tree/release-0.21.x/charts/eagle-eye - Chart包地址:oci://cr.openfuyao.cn/charts/eagle-eye:0.21.1 代码地址: - https://gitcode.com/openFuyao/eagle-eye/tree/release-0.21.x --------------------------------------------------------------------------------------------- 本次交付: 【SR20260112626000】提供可观测系统指标观测大类定义、提供面向AI推理场景系统性业务运行、系统运行、硬件健康相关指标,提供场景可观测关键数据采集和管理组件、兼容主流开源软件的交互模式 - 【AR20260123925638】刷新AI推理可观测提案 《ofep-0026-AI推理可观测》 https://gitcode.com/openFuyao/ofep/pull/49 【SR20260112628479】适配NPU A3代际硬件感知诊断、提供部分A5代际硬件感知诊断 - 采集节点的RDMA网卡理论传输速度、PCIe带宽以及NPU卡侧RoCE网卡的总带宽,并通过标签形式将这些指标附加到节点上 镜像: - cr.openfuyao.cn/openfuyao/npu-feature-discovery:latest Chart包: - 仓库Chart包地址:https://gitcode.com/openFuyao/npu-feature-discovery/tree/master/charts/npu-f... - Chart包地址:oci://cr.openfuyao.cn/charts/npu-feature-discovery:0.0.0-latest 代码地址: - https://gitcode.com/openFuyao/npu-feature-discovery/tree/master 开发已完成该特性级需求基本功能验证,且验证结论为通过。 是/否/不涉及 特性级测试用例执行通过,且无严重及以上问题。 提供遗留问题清单,遗留问题需经过sig组评审通过 是/否/不涉及 无遗留问题 测试完备性 特性级测试用例自动化率>80% 朱雪仪 是/否(覆盖率%) 自动化测试在转测后补齐 三、测试关注 测试建议 部分测试用例未给出结果,因为缺少相应的服务器资源 四、转测验收结果 要求 评估项 评估责任人 评估结果 备注 转测特性初验结果 按提供的资料操作能成功完成该版本安装、升级和调试。 <测试> 是/否/不涉及 <转测时不填> <转测时不填> 执行系统级测试用例,验收未发现严重及以上程度的特性质量问题 是/否/不涉及 <转测时不填> <转测时不填>