Grid 環境における大規模クラスタ向け ジョブマネージメントアーキテクチャの実装及び性能評価 Implementation and Evaluation of a Scalable Job Management Architecture for Large-Scale PC Cluster on the Grid Environment 岩崎 聖^1,松岡 聡^1,曽田 哲之^2,平野 基孝^2,建部 修見^3,関口智嗣^3 Satoru Iwasaki, Satoshi Matsuoka, Noriyuki Soda, Motonori Hirano, Osamu Tatebe, Satoshi Sekiguchi 1 東京工業大学 Tokyo Institute of Technology E-mail: iwasaki@matsulab.is.titech.ac.jp, matsu@is.titech.ac.jp 2 (株)SRA Software Research Associates, Inc. E-mail: {soda,m-hirano}@sra.co.jp 3 産業技術総合研究所グリッド研究センター Grid Technology Research Center, National Institute of Advanced Industrial Science and Technology E-mail: {o.tatebe,s.sekiguchi}@aist.go.jp 概要 我々は Grid Data Farm (Gfarm) システム用のジョブ起動アーキテクチャの設 計・実装を行っている.Gfarm システムは数千から数万ノード規模の PC クラ スタで構成され,ノード間の通信・認証に GSI を用いている.このため, Gfarm システムでジョブを起動する際,ナイーブな実装を用いるとノード数に 比例した GSI 認証コストが発生し,数千プロセスからなるジョブの起動に数 千秒かかることが予想される.本稿で述べるアーキテクチャでは,あらかじめ 確立済みのコネクションを用いることで起動要求伝達時の認証コストを回避す る.実装中のシステムでジョブの起動に要する時間を計測した結果,15 ノー ドで 3.5 秒,63 ノードで 6 秒と想定したスケーラビリティは得られなかっ たが,これはジョブ起動プロトコルに問題があり,プロトコルを改善すること でさらなるスケーラビリティが得られると考えている. Abstract In this paper we describe the design and implementation of the job launch architecture for Grid Data Farm (Gfarm) system. Gfarm system is composed of PC clusters with ten thousands of nodes on the Grid. Gfarm system uses GSI for communication and authentication between nodes. Because of this, if an ingenuous method is used to start a job on the Gfarm system, the GSI authentication cost which is in proportion to the number of nodes occurs, and expects that the start of the job which consists of thousands of processes takes several thousand seconds. We avoid the authentication cost by using the connection which has been established in advance. Our system shows that the job launching time is 3.5 second with 15 nodes and 6 second with 63 nodes. We think that we can achieve more scalability by improving job-launching protocol.