広域大規模データ解析のためのGrid Datafarmアーキテクチャ Grid Datafarm Architecture for Petascale Data Intensive Computing 建部 修見^1,森田 洋平^2,松岡 聡^3,関口 智嗣^1,曽田 哲之^4 Osamu Tatebe, Youhei Morita, Satoshi Matsuoka, Satoshi Sekiguchi, Noriyuki Soda http://datafarm.apgrid.org/ 1 産業技術総合研究所情報処理研究部門 Information Technology Research Institute, National Institute of Advanced Industrial Science and Technology E-mail: \{o.tatebe,s.sekiguchi\}@aist.go.jp 2 高エネルギー加速器研究機構計算科学センター Computing Research Center, High Energy Accelerator Research Organization E-mail: youhei.morita@kek.jp 3 東京工業大学学術国際情報センター Global Scientific Information and Computing Center, Tokyo Institute of Technology E-mail: matsu@is.titech.ac.jp 4 (株)SRA Software Research Associates, Inc. E-mail: soda@sra.co.jp 概要 ペタバイトスケールデータインテンシブコンピューティングのためのGrid Datafarmアーキテクチャの設計と実装を行っている.Grid Datafarmは,PCク ラスタのローカルディスクを利用した広域データ並列ファイルシステムを提供 し,オンラインでペタバイト規模の大容量と,ローカルI/Oバンド幅を利用し たスケーラブルなI/Oバンド幅が特徴である.Gfarm並列I/O APIおよびGfarmコ マンドにより,単一システムイメージの操作を可能とする.ファイルの複製, ヒストリによる再生成などにより,自動的な耐故障性,負荷分散も目指してい る. Abstract Design of Grid Datafarm architecture for Petascale data intensive computing is described. Grid Datafarm provides global data parallel filesystems with online Petascale storage and scalable I/O bandwidth to exploit local disks of group of PC clusters on the Grid. Gfarm parallel I/O APIs and Gfarm commands provide a single system image for the filesystem. Automatic management of fault-tolerance and load balancing is also an important issue, which is done by file duplication and re-computation using a command history.