## InferNex 规格说明

每个 **InferNex 大版本**发布时，会同步给出该版本下各配套组件的**理论支持版本范围**及**已验证组合**说明。**核心理念**是：以 **InferNex 发行版本为锚点**，其余配套如推理引擎、智能路由、编排器、观测、芯片与 Kubernetes 等在规格表中声明其相对该锚点的支持关系；集成部署时以本表为优先参照。

> 表中「验证情况」为 **是** 表示已在对应组合上完成过有效验证；为 **否** 表示**暂未验证**（仍可能可用，但不作为已验收承诺）。**以下组件版本皆为理论支持范围**，除非备注另有说明。

### 组件规格

下列为 InferNex 0.23.0 所依赖或集成的**软件组件**及其相对锚点版本的支持边界。

| 组件 | 版本 | 验证情况 | 备注 |
|------|------|----------|------|
| 推理引擎（vllm-ascend） | v0.19.1rc1 | 是 | |
| 推理引擎（vllm-ascend） | v0.18.0 | 是 | 计划InferNex 0.23.0 版本默认提供 |
| 推理引擎（vllm-ascend） | v0.17.0rc1 | 否 | |
| 推理引擎（vllm-ascend） | v0.16.0rc1 | 否 | |
| 推理引擎（vllm-ascend） | v0.15.0rc1 | 否 | |
| 推理引擎（vllm-ascend） | v0.14.0rc1 | 是 | |
| 推理引擎（vllm-ascend） | v0.13.0 | 是 | 默认版本提供 |
| 推理引擎（vllm-ascend） | v0.12.0rc1 | 否 | |
| 推理引擎（vllm-ascend） | v0.11.0 | 是 | 需修改使用 MooncakeStoreConnector 以配置 Mooncake Store 能力 |
| 推理引擎（vllm-ascend） | v0.10.2rc1 | 否 | 不支持 Mooncake Store 能力 |
| 推理引擎（vllm-ascend） | v0.10.1rc1 | 否 | 不支持 Mooncake Store 能力 |
| 推理引擎（vllm-ascend） | v0.10.0rc1 | 否 | 不支持 Mooncake Store 能力；LWS 多 DP 相关 CLI 最低要求 |
| 开源网关（Istio） | 1.29.0 | 否 | |
| 开源网关（Istio） | 1.28.0 | 是 | |
| 智能路由（Hermes-router） | 0.21.0 | 是 | |
| cache-indexer | 0.21.1 | 是 | |
| PD-Orchestrator | 0.21.1 | 是 | |
| PD-Orchestrator | 0.21.0 | 是 | |
| PD-Orchestrator | 0.20.0 | 是 | |
| eagle-eye | 0.22.0 | 是 | |
| eagle-eye | 0.21.0 | 是 | |

### 硬件规格

下列为 InferNex 所面向的**推理加速硬件**型号及验证情况（与组件、环境、模型规格正交，可独立组合）。

| 硬件型号 | 验证情况 | 备注 |
|----------|----------|------|
| 昇腾 910B4 | 是 | 0.22.2 / 0.23.0 默认 chart 目标硬件 |
| 昇腾 910B3 | 是 | |
| 昇腾 310P | 否 | |

### 环境规格

下列为运行 InferNex 所需的**集群与平台环境**（含本 RFC 引入的 LWS 依赖）。

| 环境项 | 版本 / 要求 | 验证情况 | 备注 |
|--------|-------------|----------|------|
| Kubernetes | 1.34.0 | 是 | |
| Kubernetes | 1.33.0 | 是 | |
| Kubernetes | 1.29.0 | 否 | |
| LeaderWorkerSet（LWS Operator） | v0.8.0 | 是 | InferNex 0.23.0（LWS）前置依赖；chart 使用 `leaderworkerset.x-k8s.io/v1`；安装见 [LWS 官方文档](https://lws.sigs.k8s.io/docs/installation/) |

### 模型规格

下列为 InferNex 在**默认 chart/values 与 LWS 多 DP 场景**下计划覆盖的模型支持范围；按用途分层，便于与组件、硬件、环境规格对照。MoE 类模型通常需配合 `dataParallelSize` / `dataParallelSizeLocal` 等多 DP 配置（见「验证与测试计划」基线）。

| 分层 | 模型 | 验证情况 | 备注 |
|------|------|----------|------|
| 默认稠密基线 | Qwen3-8B | 是 | 0.23.0 默认 values 推荐起步模型；aggregated / PD 均可 |
| 基础 MoE | Qwen3-Coder-30B-A3B（及 `-Instruct` 变体） | 是 | 本 RFC 验证用例基线模型 |
| 主流 MoE 大模型 | MiniMax-M2.7 | 否 | 计划验证 MiniMax-M2.7-w8a8-QuaRot |
| 主流 MoE 大模型 | GLM-5.1 | 否 | 计划验证GLM-5.1-w8a8 |
| 主流 MoE 大模型 | DeepSeek-V4-Flash | 否 | 计划验证 DeepSeek-V4-Flash-w8a8-mtp |

### 多组件集成规格表

下列为各 InferNex 发行版在**默认 chart/values 组合**下声明的配套组件版本，与上一节「单组件规格表」互补：前者描述**发行默认集成快照**，后者描述**单组件可验证版本边界**。若与正式发行说明不一致，以发行说明为准。

| 名称 | InferNex 0.22.2 默认配置 | InferNex 0.23.0 默认配置（LWS 版本开发中） |
|----------|--------------------------|-------------------------------------------|
| 推理引擎（vllm-ascend） | v0.13.0 | v0.13.0 |
| 开源网关（Istio） | 1.28.0 | 1.28.0 |
| 智能路由（Hermes-router） | 0.21.0 | 0.21.0 |
| cache-indexer | 0.21.1 | 0.21.1 |
| PD-Orchestrator | 0.21.1 | 0.22.0 |
| eagle-eye | 0.22.0 | 0.22.0 |
| Kubernetes | 1.34.0 | 1.34.0 |
| 默认硬件 | 910B4 | 910B4 |
| 默认稠密模型 | Qwen3-8B | Qwen3-8B |
| 验证基线 MoE 模型 | — | Qwen3-Coder-30B-A3B-Instruct |