TrinityX Cluster Manager 是 由ClusterVision 开发的一款用于构建和管理 HPC 和 AI 系统的工具。 通过简化的配置管理、实时系统监控以及集成的用户门户,显着降低运营成本。
TrinityX Cluster Manager可实现从几个节点的小型系统到具有超过 1,000 个节点的大型集群系统的系统的高效构建和管理,从而显着节省运营成本。也可以轻松构建和管理大规模的GPU集群系统。
在 HPC 和 AI 环境中,提供基于 Linux 的集群系统所需一站式服务。支持标准的操作系统管理(RHEL 和兼容发行版、Ubuntu)、作业调度系统(Slurm、PBS)、CUDA 和 InfiniBand 驱动程序和软件堆栈、用户门户(Open OnDemand)、并行存储(BeeGFS、Lustre、SpectrumScale)等。用户可以顺利、高效地构建系统,缩短系统架构时间,尽快开始系统运行。
Pacific Teck 承担有关 TrinityX 引入的技术咨询,包括初始设置和根据用户预期用途的配置。
TrinityX 提供了一个友好的用户界面,允许用户可以逐步构建和配置集群。 配置完成的环境不仅适用于传统的 HPC 环境,也适用于当今的 AI 应用。此外,还支持标准的多 GPU、InfiniBand/RDMA 架构、高速网络交换机的引入和监控配置等具有高导入门槛的配置。 使用 BitTorrent 协议进行配置,可以在几分钟内部署从小型(5 个节点)到大型(1000 多个节点)节点的 HPC/AI 环境。 此外,部署是通过受信任平台模块TPM (Trusted Platform Module) 管理的安全 PXE 启动完成。
配备行业标准 OpenOnDemand 作为文件输入/输出、作业提交和管理的用户门户,用户可以使用 VNC 和 Jupyter Notebooks 作为 slurm 作业提交远程桌面,通过控制节点的终端和在浏览器中启动。 此外,当使用管理员帐户连接时,可以通过用portal访问集群配置管理和监控等管理功能。
可以监控整个系统的健康和性能。 TrinityX 的仪表板对集群指标、资源利用率和工作负载分布实时可见,并且是完全可以定制。根据以上信息还可用于识别系统瓶颈并优化资源分配。
TrinityX 提供的信息可以有效管理集群资源,最大限度提高利用率。通过分配资源、设置资源配额和自动化资源调配等丰富的功能,最大限度地降低管理成本。
TrinityX 将 Slurm 和(open)PBSpro 纳入集群并作为标准进行监控。可以在整个集群中分散处理工作负载,并显示和分析队列中作业的积累情况历史,因此可以轻松调整与使用情况相匹配的调度设置。
TrinityX 是一个集群管理器,它结合了各种开源软件,为用户提供满足其独特需求所需的灵活性和可扩展性。模块化架构允许轻松定制扩展功能以及与其他工具和系统集成。此外,活跃的社区也确保了持续的开发和支持,使其成为可靠且不断发展的解决方案。
TrinityX 支持 HPC 中常用的 BeeGFS、Lustre 和 IBM Spectrum Scale (GPFS)的并行文件系统。
TrinityX 提供托管支持框架,支持 SLA 驱动的远程系统管理(PHASE III)。
TrinityX 商业版 | TrinityX 社区版 | |
---|---|---|
支持 | 强化的服务支持 | 用户自己管理 |
响应时间 | 下一个工作日 | – |
支持和讨论渠道 | 电子邮件、Microsoft Teams | GitHub |
TrinityX 代码支持 | 〇 | – |
TrinityX 集群管理Portal | 〇 | 〇 |
OpenHPC 和 OpenOnDemand 的整合※1 TrinityX | 〇 | 〇 |
GPU、InfiniBand、OpenHPC 工具:CUDA、ROCm、Slurm、MPI | 〇 | – |
健康检查和安装支持 | 〇 | – |
诊断、故障排错 | 〇 | – |
并行文件系统安装、调试和支持 | 可选服务 | – |
最终用户应用程序整合、调试和测试/ | 可选服务 | – |
数据备份设计、集成和支持 | 可选服务 | – |
彻底的管理人员和用户培训 | 可选服务 | – |
容量规划/用户应用基准测试 | 可选服务 | – |
※1 如果需要TrinityX 商业支持的 OpenOndemand,PacificTeck将提供单独的报价。
可根据客户要求进行定制。有关系统配置的信息,请随时与我们联系。 *必填字段