技术参数 | 设备硬件参数:
设备硬件参数如下:1)GPU:配备48G及以上显存的GPU卡×4;
2)内存:采用DDR5 256G及以上;
3)存储:支持3TB以上的NVMe存储空间;
4)处理器:支持单NUMA架构,具备12个物理核心,主频2.4GHz以上;
5)系统盘:SSD容量480G以上;
6)网卡:配置2个千兆电口和2个万兆光口。
设备功能点:
功能与服务要求如下:
1)模型兼容能力:预置国际国内不少于6个开源模型,参数量级覆盖7B、8B、14B、32B、70B、671B,支持多种主流开源大模型管理,包括但不限于LLama系列、Qwen系列、DeepSeek系列模型;
2)模型运行性能:支持671B模型运行,并发请求数≥4、吞吐≥20 token/s,总预填充速度≥200 token/s;70B模型并发请求≥20、系统总吞吐≥1200 token/s;32B模型并发请求≥30、系统总吞吐≥3000 token/s;14B模型并发请求≥100、系统总吞吐≥10000 token/s;
3)模型并行能力:支持不同规模模型同时运行,如671B与32B模型并行;
4)模型精度:量化精度不低于Q4;
5)接口支持:支持OpenAI标准chat completions接口;
6)流量控制:支持对不同模型接口的并发请求数进行限制;
7)统计:支持统计不同模型的访问请求数及生成token数量;
8)安全控制:所有模型访问请求需经认证,禁止未认证请求直接通过端口访问;
9)模型切换:支持快速切换使用模型;
10)智能体创建与管理:内置配置完善的AI Agent,支持Agent创建、快速配置与修改;
11)数据文档库创建与管理:支持数据文档库的创建、解析及自动理解文档内容;
12)模型管理:支持模型简易部署、资源占用查看及上下线管理;
13)模型切换:支持测试适配阶段的快速模型切换策略;
14)模型测试:支持基础通用功能的大模型测试验证;
15)监控资源使用情况:支持监控显存、磁盘、CPU、内存等集群关键资源利用率,并可查看用户模型调用情况;
16)个人账户:支持个人账户管理,包括密码修改和登出操作。
2.2 其他:
1)服务:提供一年软件升级和三年产品质保;
2)演示:中标后5个工作日内提供满足参数的设备到客户现场演示;
3)定制化:支持软件名称及Logo信息的修改。
|