[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[gfarm-discuss-ja:00641] 並列分散処理のプロセス数の制御とスプールディレクトリの共有



初めまして。
私は愛媛大学大学院 理工学研究科 D1の山本と申します。
現在、Gfarmを用いて衛星観測データの解析環境の構築を試みております。

Gfarm v1.2.9を使用しておりまして、
2点ほど質問させて頂く思い、投稿させて頂きました。

質問1.1台のファイルシステムノードで実行される並列分散処理のプロセス数
の制御
 複数の観測データファイルを1つのGfarmファイルにインポートして、
 並列分散処理させる試みを行っております。

 これまでに1年間の観測データファイル(ファイル数365)を1つのGfarmファ
イルとして扱い、
 並列分散処理させる試みを行いました。
 これには7台のファイルシステムノードを使用して、
 事前に365個のファイルを均等に7分割して格納しました。

 この状態で各ファイルを1つのGfarmファイルにインポートして並列分散処理
を行った場合に、
 1台のファイルシステムノードは各ローカルディスクにある
 約50個のファイルの処理を担当することになると思います。

 実際に並列分散処理中にgfpsコマンドやpsコマンドで見てみたところ、
 1台のファイルシステムノードに並列分散処理の実行プロセスが
 同時に複数立ち上がっている状態でありました。

 しかし、実行時間については、
 ローカルディスクに全データを格納して1ファイルずつ逐次処理させた場合の
方が速く、
 その原因の1つとして、並列分散処理の際に1台のファイルシステムノードに
 複数の並列分散処理プロセスが立ち上がってしまっているために、
 スワップを引き起こしてオーバーヘッドになっているからでないかと思いました。

 理想としましては、1台のファイルシステムノードがローカルディスクにある
複数のファイルを担当するのですが、
 その処理は1ファイルずつという風に、
 並列分散処理を行う場合に1台のファイルシステムノードで実行されるプロセ
ス数を制御することは可能でしょうか?


質問2.ファイルシステムノードのスプールディレクトリをNFSで共有できるか
 これは、ネットワークのトラフィックを軽減し、
 ディスクのローカルI/Oを積極に活用するというGfarmのコンセプトに反するか
もしれないのですが、
 質問1.で示した構築環境はローカルネットワーク内で行っており、
 ディスク容量の節約のためにリプリケートは使用せず、
 ファイルの分散ではなく、処理のみを並列分散させたいと思っております。

 この際に、ファイルノードのスプールディレクトリをNFSなどで共有して利用
することは可能でしょうか?
 メタデータサーバが管理している情報の整合が取れなくなったりはしないで
しょうか?


お忙しい中すみませんが、ご教示のほどよろしくお願いいたします。

-- 
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
山本 和憲  Kazunori YAMAMOTO
yamamoto@xxxxxxxxxxxxxxxxxxxxxxx
愛媛大学大学院 理工学研究科 電子情報工学専攻
応用情報工学講座 情報ネットワーク分野
http://www.infonet.cite.ehime-u.ac.jp/
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~