什么是slurm workload manager

Slurm 是一款面向人工智能（AI）、机器学习（ML）和高性能计算 (HPC) 的作业调度系统。它支持从小到大的 HPC 集群系统，以及当今的 GPU 集群系统。

尤其值得一提的是，我们扩展了对 NVIDIA GPU 的功能实现，使 Slurm 成为当今面向人工智能和机器学习的 GPU 集群系统的标准作业调度系统。它能够优化高性能系统上的工作负载，确保最佳性能和高效的资源利用率。

全面的工作负载管理

Slurm 提供用于高效系统管理的工具和功能。从作业提交和监控到资源分配和统计，Slurm 提供全面的功能。

高效的资源分配

先进的调度算法可实现高效的资源分配，最大限度地提高资源利用率。它能够平衡集群系统间的工作负载，最大限度地减少空闲时间并提高吞吐量。

全面的监控和报告

Slurm 的监控和报告功能可提供性能和利用率的实时分析，使您能够使用各种指标查看信息，从而进一步优化工作负载。

可选插件提供诸如计费、资源限制、SLA/QoS、高级预留和回填调度等功能。我们可根据您的需求提供插件咨询服务。

在作业提交量大的环境中，比如在大型作业和小型作业同时存在，一个常见问题是大型作业可能无法启动，因为资源没有得到保障。Slurm 集成了多种功能来解决此问题，从而实现高效的作业调度，最大限度地提高资源利用率。

使用 Slurm 可带来诸多益处，包括更短的计算时间、更少的用户错误和更低的运营成本。我们的配置协助服务可以帮助您找到最适合您系统的配置方案。

user case

研究机构

航空航天

人工智能与机器学习

汽车与自动驾驶

生物科学与基因组学

云计算

能源

金融

政府机关

工程制造

Slurm 商业支持

Pacific Teck 已与 SchedMD 合作，为 Slurm Workload Manager 提供商业支持。

Slurm 虽然是开源解决方案，但其超过 95% 的源代码由 SchedMD 编写，这使我们能够提供对系统安全、持续运行至关重要的商业支持，例如在发生故障时提供补丁文件以及响应 CVE 漏洞。

Pacific Teck 将作为日本地区独家的 Slurm 技术支持中心，将需要 Slurm 修复的技术问题上报给 Slurm 的开发商 SchedMD。

如果作为系统核心的作业调度器停止工作，可能会导致这套昂贵的系统在一段时间内无法使用，从而造成重大损失。Slurm 商业支持让您安心无忧，即使在紧急情况下也能获得专业的 Slurm 支持。

SchedMD是一家美国公司，是Slurm的实际开发者，编写了超过95%的Slurm源代码。除了对Slurm的开发，他们还在系统出现故障的时候提供相关的技术支持，也会针对用户、管理员和系统集成商提供培训。

Slurm 商业支持菜单

Slurm 商业支持

Pacific Teck作为日本地区专门的 Slurm 商业支持窗口，并将与 Slurm 相关的技术问题上报给 Slurm 的开发商 SchedMD。

SchedMD 提供对 Slurm 最新版本以及上一版本的支持。
Slurm 每九个月发布一个新版本。
主要版本发布主要内容，修复已知错误。维护版本大约每月发布一次。
重要的BUG修复和安全性修复可在最新版本以及前一个版本中获得。
新功能的实现以及对现有版本行为的变更，将在下一个主要版本中应用。
升级路径支持从前两个版本中的任意一个版本进行升级。

◼︎支持等级

Slurm 商业支持根据您遇到的问题的严重程度提供支持。

Severity 1 : 重大影响

当前系统出现持续性问题，影响到许多终端用户。Slurm 的问题导致我们的系统宕机或无法访问，这种情况无法避免。

初步响应：我们力争在工作时间内两小时内回复。
状态更新：每日更新。
持续支持：直至问题解决。

Severity 2: 高度影响

当前系统遇到一个影响严重的问题，导致间歇性服务中断或系统严重故障。该问题持续影响最终用户，使他们无法正常使用系统。

初步响应：一个工作日内回复
更新：每周更新
持续响应：一个工作日内回复

Severity 3 : 中度影响

当前系统遇到一个影响程度中等到较大的问题，可能包括部分系统访问受限（非关键性）或某些系统运行中断，但最终用户可以通过变通方案继续使用系统。

初步响应：Pacific Teck Japan将在下一个工作日内回复。
状态通知：每月一次。
后续响应：工作时间内回复。

Severity 4 : 轻度影响

当前系统中出现了一个小问题，导致功能损失有限或没有损失。（或者，您也可以在咨询配置问题或在测试系统上工作时使用此功能。严重级别 4 的问题也可以用作未来产品改进或修复的请求。）

初步回复：Pacific Teck Japan 将在下一个工作日回复。
状态通知：如有任何更新。
后续回复：工作时间内回复（回复优先级低于严重级别 1-3）。

◼︎支持对应/响应时间

Pacific Teck Japan
周一至周五，上午 9:00 至下午 5:00（日本节假日及新年假期除外）

SchedMD（美国和欧洲）
周一至周五，MST (北美山区标准时间)凌晨 2:00 至下午 5:00（日本时间下午 5:00 至次日上午 9:00，美国节假日及新年假期除外）

日本营业时间结束后，欧洲和美国的营业时间依次开始，因此我们全天24小时营业，周六9:00至周一9:00除外（节假日及新年假期除外）。

*由于采用夏令时制度，从 3 月夏令时开始起时间将延后 1 小时，而在 11 月结束之后则会提前 1 小时（恢复为原来的时间）。有关每年夏令时的具体安排，请与我们联系。

Slurm 培训

SchedMD 的工程师将进行现场或在线培训，我们将根据您的需求为用户/管理员定制培训内容。

Slurm架构支持

为了帮助您充分利用 Slurm，我们的 Slurm 专家可以帮助您配置和设置系统，以满足您的需求。

Slurm咨询服务

如果您对 Slurm 的功能有任何需求，我们的 Slurm 专家将很乐意为您提供帮助。

Slurm 商业支持报价和咨询

我们可以根据您的需求定制系统。如有任何关于系统配置的问题，请随时联系我们。

如有任何疑问，请发送电子邮件至　info@pacificteck.com

什么是slurm workload manager

全面的工作负载管理

高效的资源分配

全面的监控和报告

user case

研究机构

航空航天

人工智能与机器学习

汽车与自动驾驶

生物科学与基因组学

云计算

能源

金融

政府机关

工程制造

Slurm 商业支持

Slurm 商业支持菜单

Slurm 商业支持

◼︎支持等级

Severity 1 : 重大影响

Severity 2: 高度影响

Severity 3 : 中度影响

Severity 4 : 轻度影响

◼︎支持对应/响应时间

Slurm 培训

Slurm架构支持

Slurm咨询服务

Slurm 商业支持报价和咨询

PARTNERS