Gfarm: 広域大容量データ解析システム 建部 修見 関口 智嗣 産業技術総合研究所 情報処理研究部門 http://datafarm.apgrid.org/ はじめに 高エネルギー物理学,天文学,地球惑星物理学,人ゲノムなどの大規模データ 解析を必要とする研究分野では,ハイパフォーマンスコンピューティング,デー タインテンシブコンピューティング,ネットワーク技術が不可欠となってきた. 一つの例は,2006年より開始される予定になっているスイスCERNのLHC(Large Hadron Collider)実験プロジェクトである.LHC実験には4つの観測器,実験グ ループがあり,それらの観測器は毎年ペタバイトオーダの観測データを生成す る.それぞれの実験には数十ヶ国規模,数千人規模の素粒子物理学者が参加し, 実験データの解析において協力および競争することになる.MONARCプロジェク トでは,世界規模の階層的な地域センタの計算モデルについての研究が行われ た.この地域センタモデルでは,0層センタはCERNにおかれ,1 層センタはヨー ロッパ,アメリカ,アジアなど,2層センタは各国,3 層センタはそれぞれの 大学,研究所におかれる.広域に分散するため,グリッド技術はこれらの実装 のための鍵となっている. Gfarm(Grid Data Farm)はペタバイトスケールのデータインテンシブコンピュー ティング環境の構築のため,産業技術総合研究所(AIST),高エネルギー加速器研 究機構(KEK),東京大学素粒子物理国際研究センター(ICEPP),東京工業大学の共 同研究で始まった.目標は,LHCのATLAS実験による数百テラバイトから数ペタバ イト規模の実験データ解析環境の構築である.ICEPPとKEKは共同で日本にATLAS 実験の1層地域センタを構築することになっている.想定しているハードウェア は,それぞれのノードがテラバイト級のローカルディスクを持つ数千台規模のPC クラスタである.CERNからやってくる600Mbpsほどの実験データは並列に系統的 にそれらのディスクに格納され,それぞれのPCで処理される.Gfarm では,LHC 実験に加え,広くデータインテンシブコンピューティングのために以下の機能を 提供する. - ペタバイトスケールのファイルを扱うためのグローバル分散ファイルシステム - 並列I/Oと並列処理 - 世界規模の認証とアクセス制御 - 数千ノード,広域の資源管理とスケジューリング - 階層的データ共有と効率的アクセス - プログラム共有と管理 - システムモニタリングと管理 - 耐故障性 / 動的再配置 / 動的データ復元,再計算