26.06 【AI Inference】Infernex-一键式安装部署 转测 | ||||||||
一、度量数据 | ||||||||
| 代码检视缺陷密度目标:16个/KLOC 说明:代码提交前,通过检视发现的代码缺陷; 主要来源:PR中的comment; 导向:发现缺陷,积极提交comment,做到端到端可追溯 | 开发者测试缺陷密度目标:4个/KLOC 说明:代码提交后转测前,通过开发者测试发现的代码缺陷; 主要来源:转测前issue单(缺陷) 导向:发现缺陷,积极提交issue,做到无issue,不PR,端到端可追溯。 | ||||||
责任人 | 代码类型 | 代码量(KLOC) | 有效缺陷数 | 检视缺陷密度(数量/代码量) | 说明(未达目标则需进行异常原因说明) | 发现缺陷数 | 缺陷密度(个/KLOC) | 说明(未达目标则进行异常原因说明) |
后台[16,13,19] 前台[13,10,16] | [4,2,8] | |||||||
张仕畅 | 后端(Inference-backend) | 0.8 | 11 | 13.75 | 2 | 2.5 | ||
二、特性转测checkli | ||||||||
要求 | 评估项 | 评估责任人 | 评估结果 | 备注 | ||||
完成了代码Review和开发自测,特性开发质量指标满足质量要求(或提供了合理的原因说明,或补充了质量活动) | 要求DT行覆盖率>50%; 推荐DT行覆盖率>80% | <开发> | 是/否/不涉及 | 本特性为helm chart开发,主要语言类型为yaml,不涉及UT/DT | ||||
编译构建错误清零 | 是/否/不涉及 |
| ||||||
开源义务履行:SCA问题清零; | 是/否/不涉及 | |||||||
Issue解决:上版本遗留问题100%按计划解决;严重及以上问题清零; | 是/否/不涉及 |
| ||||||
设计完备性 | 提供社区需求设计文档链接:需求设计完成sig组内评审、遗留问题闭环; | <开发> | 是/否/不涉及 | - 提案设计:本特性变更粒度较小,Sig组决定在InferNex仓库提交RFC:https://gitcode.com/openFuyao/InferNex/issues/42 - SIG评审:在AI Inference SIG 4/25例会完成评审 - 会议纪要:https://etherpad.openfuyao.cn/p/sig-ai-inference | ||||
提供社区继承需求、新增需求完整清单; | 是/否/不涉及 | - 26.03版本: AI推理服务化框架组件端到端helm包一键部署(https://gitcode.com/openFuyao/ofep/pull/63) | ||||||
提供特性级测试用例列表:需完成QA sig组评审和遗留问题闭环; | 是/否/不涉及 | 测试用例已在AI Inference SIG组会经过QA SIG成员评审通过,测试文件见附件表格 | ||||||
交付件完备性 | 提供交付件清单、未交付清单,及未交付件的未交付说明 | <开发> | 是/否/不涉及 | 本次交付:
本特性交付为InferNex LWS推理后端改造,规格详见附件。 | ||||
提供特性描述文档、接口说明文档等测试支撑资料 | 是/否/不涉及 | 特性资料交付用户手册,计划在转测后一周补齐 | ||||||
功能完备性 | 提供本特性已交付需求/本次交付需求/未交付需求清单、及未交付需求的相关说明 | <开发> | 是/否/不涉及 | 【IR】InferNex:端到端一键式推理服务优化,增加基于LWS/RBG主流资源抽象的部署形式,增加与KServe对接插件,支持通过Kserve拉起的InferNex推理服务 本次交付: 1.【SR】LWS部署:新增基于LWS资源抽象的部署形式,并在该部署形态下支持使用Elastic scaler进行扩缩容 未交付: 无 | ||||
开发已完成该特性级需求基本功能验证,且验证结论为通过。 | 是/否/不涉及 | P0/P1特性级测试用例通过,且无严重及以上问题。 测试结果详见附件表格。
本次转测测试用例表格如下测试用例因当前无可用NPU机器环境(4台机器集群)暂未验证:
| ||||||
提供遗留问题清单,遗留问题需经过sig组评审通过 | 是/否/不涉及 | 1. https://gitcode.com/openFuyao/InferNex/issues/43 验证过程中发现存在异常扩缩容情况,定位原因为缺少 Prometheus 部分组件导致 HPA 算法输出与 RSG 组件不兼容,经AI Inference Sig 组讨论后将该问题转为需求单。 | ||||||
测试完备性 | 特性级测试用例自动化率>80% | <开发> | 是/否(覆盖率%) | 端到端自动化测试用例计划在转测后补齐 | ||||
三、测试关注 | ||||||||
测试建议 | 1.InferNex默认部署的推理引擎是vllm-ascend v0.18.0,如果用户想要使用其他版本vllm-ascend,部分与引擎强相关的配置(如connector)需要参考vllm-ascend目标版本的文档配合改动。 2.InferNex默认部署模型为Qwen3-8B - 且支持用户配置其他模型。模型通过hostpath方式挂载进运行容器,使用时需要确认宿主机有足够空间存放模型权重文件,特别是大模型。 - InferNex默认部署模型为Qwen3-8B,vllm 在 v0.14.0 后不支持非 moe 模型配置 data-parallel-size>1, 需变为配置 data-parallel-size=1,并将 prefill/decode/aggregated.replica配置为原先目标 dp 数值。 3.PD-orchestrator 组件的 elastic-scaler支持APA算法与 rsg 组件搭配(InferNex默认部署方式)扩缩容 LWS 资源推理后端;以及elastic scaler 支持HPA算法直接管理 LWS 资源推理后端扩缩容;暂不支持elastic-scaler的HPA算法与 rsg组件搭配扩缩容 LWS 资源推理后端(已记录为遗留问题)。 | |||||||
四、转测验收结果 | ||||||||
要求 | 评估项 | 评估责任人 | 评估结果 | 备注 | ||||
转测特性初验结果 | 按提供的资料操作能成功完成该版本安装、升级和调试。 | <测试> | 是/否/不涉及 <转测时不填> | <转测时不填> | ||||
执行系统级测试用例,验收未发现严重及以上程度的特性质量问题 | 是/否/不涉及 <转测时不填> | <转测时不填> | ||||||
欢迎大家对转测邮件、特性转测质量要求提出建议!