HPC 和机器学习专家
TrinityX Cluster Manager

TrinityX Cluster Manager(集群管理)

什么是 TrinityX 集群管理

TrinityX Cluster Manager 是 由ClusterVision 开发的一款用于构建和管理 HPC 和 AI 系统的工具。 通过简化的配置管理、实时系统监控以及集成的用户门户,显着降低运营成本。

大幅削减应用成本

TrinityXは運用コストを大幅に節約

TrinityX Cluster Manager可实现从几个节点的小型系统到具有超过 1,000 个节点的大型集群系统的系统的高效构建和管理,从而显着节省运营成本。也可以轻松构建和管理大规模的GPU集群系统。

即刻开始您的应用

TrinityXはすぐに運用開始が可能

在 HPC 和 AI 环境中,提供基于 Linux 的集群系统所需一站式服务。支持标准的操作系统管理(RHEL 和兼容发行版、Ubuntu)、作业调度系统(Slurm、PBS)、CUDA 和 InfiniBand 驱动程序和软件堆栈、用户门户(Open OnDemand)、并行存储(BeeGFS、Lustre、SpectrumScale)等。用户可以顺利、高效地构建系统,缩短系统架构时间,尽快开始系统运行。

TrinityX的特性

数千台服务器的一站式超级计算机环境

  • 超快速配置,允许一次构建多个节点
  • 预先配置Slurm 以充分利用集群
  • 提供基于Singularity和Docker的容器环境
  • 支持并行文件系统:BeeGFS、Lustre、Spectrum Scale (GPFS)

  • 完整的硬件集成管理(IPMI、InfiniBand、GPU等)
  • HPC用户环境(Open OnDemand、开发环境)、MPI库(OpenMPI、Intel MPI等)
  • 控制器、存储和登录节点的高可用性
  • 只需进行稍许调整即可连接到现有的身份验证系统

丰富的集群管理功能

  • 全面的监控和计量系统,用于跟踪关键事件和资源使用情况
  • 节点与交换机的整合,自动检测
  • 全面的GPU状态管理(负载、温度、故障监控)

导入咨询服务

Pacific Teck 承担有关 TrinityX 引入的技术咨询,包括初始设置和根据用户预期用途的配置。

详细的功能

无缝、安全的集群部署

TrinityX 提供了一个友好的用户界面,允许用户可以逐步构建和配置集群。 配置完成的环境不仅适用于传统的 HPC 环境,也适用于当今的 AI 应用。此外,还支持标准的多 GPU、InfiniBand/RDMA 架构、高速网络交换机的引入和监控配置等具有高导入门槛的配置。 使用 BitTorrent 协议进行配置,可以在几分钟内部署从小型(5 个节点)到大型(1000 多个节点)节点的 HPC/AI 环境。 此外,部署是通过受信任平台模块TPM (Trusted Platform Module) 管理的安全 PXE 启动完成。

提供用户portal

配备行业标准 OpenOnDemand 作为文件输入/输出、作业提交和管理的用户门户,用户可以使用 VNC 和 Jupyter Notebooks 作为 slurm 作业提交远程桌面,通过控制节点的终端和在浏览器中启动。 此外,当使用管理员帐户连接时,可以通过用portal访问集群配置管理和监控等管理功能。

TrinityX 機能 ユーザーポータルを提供

集群的监控和报告集中化管理

可以监控整个系统的健康和性能。 TrinityX 的仪表板对集群指标、资源利用率和工作负载分布实时可见,并且是完全可以定制。根据以上信息还可用于识别系统瓶颈并优化资源分配。

TrinityX 機能 クラスタのモニタリングとレポートの一元化
TrinityX 機能 クラスタのモニタリングとレポートの一元化

高效的电力资源管理

TrinityX 提供的信息可以有效管理集群资源,最大限度提高利用率。通过分配资源、设置资源配额和自动化资源调配等丰富的功能,最大限度地降低管理成本。

TrinityX 機能 効率的なパワーリソース管理
TrinityX 機能 効率的なパワーリソース管理

高级调度和负载平衡

TrinityX 将 Slurm 和(open)PBSpro 纳入集群并作为标准进行监控。可以在整个集群中分散处理工作负载,并显示和分析队列中作业的积累情况历史,因此可以轻松调整与使用情况相匹配的调度设置。

TrinityX 機能 高度なスケジューリングとロードバランシング
TrinityX 機能 高度なスケジューリングとロードバランシング

可扩展性和开源

TrinityX 是一个集群管理器,它结合了各种开源软件,为用户提供满足其独特需求所需的灵活性和可扩展性。模块化架构允许轻松定制扩展功能以及与其他工具和系统集成。此外,活跃的社区也确保了持续的开发和支持,使其成为可靠且不断发展的解决方案。

完整的存储支持

TrinityX 支持 HPC 中常用的 BeeGFS、Lustre 和 IBM Spectrum Scale (GPFS)的并行文件系统。

24/7 托管服务

TrinityX 提供托管支持框架,支持 SLA 驱动的远程系统管理(PHASE III)。

TrinityX 集群管理的支持级别

TrinityX 商业TrinityX 社区版
支持强化的服务支持用户自己管理
响应时间下一个工作日
支持和讨论渠道电子邮件、Microsoft TeamsGitHub
TrinityX 代码支持
TrinityX 集群管理Portal
OpenHPC 和 OpenOnDemand 的整合※1 TrinityX
GPU、InfiniBand、OpenHPC 工具:CUDA、ROCm、Slurm、MPI
健康检查和安装支持
诊断、故障排错
并行文件系统安装、调试和支持可选服务
最终用户应用程序整合、调试和测试/可选服务
数据备份设计、集成和支持可选服务
彻底的管理人员和用户培训可选服务
容量规划/用户应用基准测试可选服务

※1 如果需要TrinityX 商业支持的 OpenOndemand,PacificTeck将提供单独的报价。

TrinityX Cluster Manager 咨询

可根据客户要求进行定制。有关系统配置的信息,请随时与我们联系。 *必填字段