HPC 和机器学习专家
Slurmコマーシャルサポート

什么是slurm workload manager

Slurm 是一款面向人工智能(AI)、机器学习(ML)和高性能计算 (HPC) 的作业调度系统。它支持从小到大的 HPC 集群系统,以及当今的 GPU 集群系统。

尤其值得一提的是,我们扩展了对 NVIDIA GPU 的功能实现,使 Slurm 成为当今面向人工智能和机器学习的 GPU 集群系统的标准作业调度系统。它能够优化高性能系统上的工作负载,确保最佳性能和高效的资源利用率。

Slurmコマーシャルサポート 包括的なワークロード管理

全面的工作负载管理

Slurm 提供用于高效系统管理的工具和功能。从作业提交和监控到资源分配和统计,Slurm 提供全面的功能。

Slurmコマーシャルサポート 効率的なリソース割り当て

高效的资源分配

先进的调度算法可实现高效的资源分配,最大限度地提高资源利用率。它能够平衡集群系统间的工作负载,最大限度地减少空闲时间并提高吞吐量。

Slurmコマーシャルサポート 徹底的な監視とレポート

全面的监控和报告

Slurm 的监控和报告功能可提供性能和利用率的实时分析,使您能够使用各种指标查看信息,从而进一步优化工作负载。

可选插件提供诸如计费、资源限制、SLA/QoS、高级预留和回填调度等功能。我们可根据您的需求提供插件咨询服务。

在作业提交量大的环境中,比如在大型作业和小型作业同时存在,一个常见问题是大型作业可能无法启动,因为资源没有得到保障。Slurm 集成了多种功能来解决此问题,从而实现高效的作业调度,最大限度地提高资源利用率。

使用 Slurm 可带来诸多益处,包括更短的计算时间、更少的用户错误和更低的运营成本。我们的配置协助服务可以帮助您找到最适合您系统的配置方案。

user case

研究機関
研究机构
航空宇宙
航空航天
AI・機械学習​
人工智能与机器学习
自動車​ ・自動運転​
汽车与自动驾驶
バイオ・ゲノム
生物科学与基因组学

クラウド
云计算
エネルギー
能源
金融
金融
政府機関
政府机关
製造エンジニアリング
工程制造

Slurm 商业支持

Slurmコマーシャルサポート

Pacific Teck 已与 SchedMD 合作,为 Slurm Workload Manager 提供商业支持。

Slurm 虽然是开源解决方案,但其超过 95% 的源代码由 SchedMD 编写,这使我们能够提供对系统安全、持续运行至关重要的商业支持,例如在发生故障时提供补丁文件以及响应 CVE 漏洞。

Pacific Teck 将作为日本地区独家的 Slurm 技术支持中心,将需要 Slurm 修复的技术问题上报给 Slurm 的开发商 SchedMD。

如果作为系统核心的作业调度器停止工作,可能会导致这套昂贵的系统在一段时间内无法使用,从而造成重大损失。Slurm 商业支持让您安心无忧,即使在紧急情况下也能获得专业的 Slurm 支持。

SchedMDロゴ

SchedMD是一家美国公司,是Slurm的实际开发者,编写了超过95%的Slurm源代码。除了对Slurm的开发,他们还在系统出现故障的时候提供相关的技术支持,也会针对用户、管理员和系统集成商提供培训。

Slurm 商业支持菜单

Slurm 商业支持

Pacific Teck作为日本地区专门的 Slurm 商业支持窗口,并将与 Slurm 相关的技术问题上报给 Slurm 的开发商 SchedMD。

  • SchedMD 提供对 Slurm 最新版本以及上一版本的支持。
  • Slurm 每九个月发布一个新版本。
  • 主要版本发布主要内容,修复已知错误。维护版本大约每月发布一次。
  • 重要的BUG修复和安全性修复可在最新版本以及前一个版本中获得。
  • 新功能的实现以及对现有版本行为的变更,将在下一个主要版本中应用。
  • 升级路径支持从前两个版本中的任意一个版本进行升级。

◼︎支持等级

Slurm 商业支持根据您遇到的问题的严重程度提供支持。

Severity 1 : 重大影响

当前系统出现持续性问题,影响到许多终端用户。Slurm 的问题导致我们的系统宕机或无法访问,这种情况无法避免。

  • 初步响应:我们力争在工作时间内两小时内回复。
  • 状态更新:每日更新。
  • 持续支持:直至问题解决。

Severity 2: 高度影响

当前系统遇到一个影响严重的问题,导致间歇性服务中断或系统严重故障。该问题持续影响最终用户,使他们无法正常使用系统。

  • 初步响应:一个工作日内回复
  • 更新:每周更新
  • 持续响应:一个工作日内回复

Severity 3 : 中度影响

当前系统遇到一个影响程度中等到较大的问题,可能包括部分系统访问受限(非关键性)或某些系统运行中断,但最终用户可以通过变通方案继续使用系统。

  • 初步响应:Pacific Teck Japan将在下一个工作日内回复。
  • 状态通知:每月一次。
  • 后续响应:工作时间内回复。

Severity 4 : 轻度影响

当前系统中出现了一个小问题,导致功能损失有限或没有损失。(或者,您也可以在咨询配置问题或在测试系统上工作时使用此功能。严重级别 4 的问题也可以用作未来产品改进或修复的请求。)

  • 初步回复:Pacific Teck Japan 将在下一个工作日回复。
  • 状态通知:如有任何更新。
  • 后续回复:工作时间内回复(回复优先级低于严重级别 1-3)。

◼︎支持对应/响应时间

Pacific Teck Japan
周一至周五,上午 9:00 至下午 5:00(日本节假日及新年假期除外)

SchedMD(美国和欧洲)
周一至周五,MST (北美山区标准时间)凌晨 2:00 至下午 5:00(日本时间下午 5:00 至次日上午 9:00,美国节假日及新年假期除外)

日本营业时间结束后,欧洲和美国的营业时间依次开始,因此我们全天24小时营业,周六9:00至周一9:00除外(节假日及新年假期除外)。

*由于采用夏令时制度,从 3 月夏令时开始 起时间将 延后 1 小时,而在 11 月结束之后 则会 提前 1 小时(恢复为原来的时间)。有关每年夏令时的具体安排,请与我们联系。

Slurm 培训

SchedMD 的工程师将进行现场或在线培训,我们将根据您的需求为用户/管理员定制培训内容。

Slurm架构支持

为了帮助您充分利用 Slurm,我们的 Slurm 专家可以帮助您配置和设置系统,以满足您的需求。

Slurm咨询服务

如果您对 Slurm 的功能有任何需求,我们的 Slurm 专家将很乐意为您提供帮助。

Slurm 商业支持报价和咨询

我们可以根据您的需求定制系统。如有任何关于系统配置的问题,请随时联系我们。

如有任何疑问,请发送电子邮件至 info@pacificteck.com