Grid Datafarmにおけるスケジューリング・複製手法の性能評価 Performance Analysis of Scheduling and Replication Algorithms on Grid Datafarm Architecture for High Energy Physics Applications 竹房 あつ子^1 建部 修見^2 松岡 聡^3 森田 洋平^4 Atsuko Takefusa, Osamu Tatebe, Satoshi Matsuoka, Youhei Morita E-mail: takefusa@is.ocha.ac.jp, o.tatebe@aist.go.jp, matsu@is.titech.ac.jp, youhei.morita@kek.jp 1 お茶の水女子大学 Ochanomizu University 2 産業技術総合研究所 National Institute of Advanced Industrial Science and Technology 3 東京工業大学/国立情報学研究所 Tokyo Institute of Technology/National Institute of Informatics 4 高エネルギー加速器研究機構 High Energy Accelerator Research Organization 概要 グリッド技術を基盤にした大容量データに対する遍在するアクセスを可能にす る技術をデータグリッドと呼び,複数のシステムの設計・実装が行われている. しかしながら,それらは実験段階にあり,データグリッドアーキテクチャの設 計方針の妥当性や性能に関する議論は不十分である.本稿では,Bricksグリッ ドシミュレータにデータグリッドシステムに対する拡張を行い,Grid Datafarmアーキテクチャに基づくデータグリッドモデルとその性能について比 較・調査した.データグリッドモデルでは,CentralモデルとTierモデルを比 較し,Tierモデルでは様々なスケジューリングと複製手法を適用し,2007年に 開始されるCERNの高エネルギー物理実験を想定してその性能を評価した. ABSTRACT Data Grid is a Grid environment for ubiquitous access and analysis of large-scale data. Due to its early research status, the performance of petabyte-scale Data Grid models in a realistic data processing setting have not been well investigated. By enhancing our Bricks Grid simulator to be able to simulate Data Grid scenarios, we investigate and compare the performance of different Data Grid models in the Grid Datafarm architecture, mainly categorized into the central and the tier models but with varying scheduling and replication strategies, under realistic assumptions of job processing for the CERN LHC experiments.