日本語 English

TSUBAME3.0 / 東京工業大学

東工大 TSUBAME3.0

東京工業大学について

東京工業大学(東工大またはTITech)は、科学技術を専門とする日本で最大の高等教育機関であり、一般的に日本で最も権威のある大学の1つとされています。

東工大のメインキャンパスは、目黒と大田の境界にある大岡山にあり、正面玄関は大岡山駅に面しています。 その他のキャンパスはすずかけ台と田町にあります。 東工大は6つの学校に分かれており、その中に40以上の学部と研究センターがあります。 東工大は、2015年から2016年の間に、4,734人の大学生と1,464人の大学院生を登録しました。 約1,100人の教員を雇用しています。

プロジェクト背景

東京工業大学のTSUBAME3.0は、Univa Grid EngineBeeONDを使用ています。540ノードの環境にそれぞれ4つのNvidia Tesla P100 GPU(合計2,160)、2つの14コアIntel Xeon Processor E5-2680 v4(合計15,120コア)、4つのIntel Omni-Pathアーキテクチャー(インテルOPA)100シリーズホストファブリックアダプター(合計2,160ポート)、およびNVMeストレージデバイス用の2 TBのインテルSSD DC製品を使用しています。

使用事例

Univa Grid Engineにより、TSUBAME3.0はGPU、CPU、メモリ、およびOmni-Path相互接続からリソースグループを作成できます。 今日、他のジョブスケジューラにこの機能はありません。 Univa Grid EngineはDockerコンテナーを動的に作成および管理します。 BeeONDは、最大容量が1PBの計算ノードでNVMeを利用するファイルシステムのような一時的な高速スクラッチバーストバッファーを作成します。 オンデマンドファイルシステムのサイズは、ジョブがUniva Grid Engineによって開始されるときに決定されます。

Pacific Teckの役割

Pacific Teckは、東京工業大学のスタッフおよびシステムインテグレーターHPE(以前のSGI)と緊密に連携して、この挑戦的なプロジェクトが世界で最も高度なジョブスケジューリング機能のいくつかを提供するための要件を理解しました。 Pacific Teckは東京工業大学の要件をUniva Grid Engine開発チームに伝えました。 Univa Grid Engine 8.6の新バージョンがリリースされ、東京工業大学向けに開発された機能セットを一般市場で利用できるようになりました。 このプロジェクトにより、世界中のスーパーコンピュータの利用率を高めることができると確信しています。


Univa Grid Engine ジョブ管理システム

ジョブ管理システム

Univa Grid Engine

Univa Grid Engineは「ワークロードマネージャー」または「ジョブスケジューラ」と呼ばれ、複数のコンピュータで並列処理を行うクラスターコンピューティングで使用されます。


BeeOND

ストレージソフトウェア – パラレルファイルシステム

BeeOND

BeeONDはBeeGFS on Demandの略、BeeGFSを補完する製品です。他のファイルシステムでも使用可能です。 計算ジョブの実行中に計算ノードの内部SSD、NVMe、またはハードディスクを集約しパフォーマンスと容量を向上するために使用されます。パフォーマンス向上、スムーズなバーストバッファリングを提供します。計算ノード上にBeeGFSの1つまたは複数のインスタンスを作成し、「オンデマンド」で作成および破棄することで実現します。