- 「メインフレーム・コンピューター」で遊ぼう - http://www.arteceed.net -

オープンバッチシステムの稼働状況把握手法

コンピュータシステムが稼働を始めた後、システムの増強や減設の判断をするために、稼働状態を常に把握する必要がある。コンピュータシステムを稼働させる際、多額の設備投資が必要となるため、将来のシステム利用を見越した設備増強が出来ないためである。

大量のデータベースを管理するデータベースコンピュータであれば、管理データの増減でディスクの増強や削減を検討できたり、クローズドバッチシステムであれば、業務処理時間の変化や実行する業務の増減で設備の変動を判断できるので、わかりやすいと言える

しかし、オープンバッチシステムの場合、利用者が多数に及ぶ事が多いため、ピークの時間を予測したり、負荷がかかる業務の組み合わせなどを把握するには時間がかかると同時に、クローズバッチシステムとは違う稼働状況を把握する方法が必要となる

コンピュータシステム稼働情報を取得する方法(VOS3)に以下のものがあります
1)SMS・・・バッチやTSSなどのジョブの実行結果、プリンタ出力枚数といった結果をSMSレコードとして出力。あとから本レコードを分析することでその時のシステムの稼働状態を把握できる
2)SAR・・・システム稼働中、常駐ジョブが稼働する。現在の状態を把握できるが、今では後述するSAR/D/ESに取って変わっている部分が多い
3)SAR/D/ES・・・VOS3のソフトウェアであり、SARと同様システム稼働中、常駐ジョブが稼働する。その常駐ジョブがCPU、メモリ、チャネルなどの利用状況を取得する。SARとの違いは、PRMF(論理資源分割)を考慮した稼働状況が把握できるため、PRMF運用をしているサイトではこちらの稼働状況を重視しているところが多い

オープンバッチの場合、業務が動く時間が変化している事、そして利用者が多数になるという事から稼働状況の把握はクローズドバッチなどの他のシステムよりもシビアで重要になってくると思われる。

クローズドバッチシステムなどでは定形業務のため、日々の業務の変化(処理時間の伸びや処理されるテープ本数、出力ページ数など)から把握しやすい。

しかしオープンバッチシステムでは日々の変化は一過性のものと考えて、その変化をロングスパン(半年、一年など)で見ていく必要がある。しかし、サイトによってはロングスパンでの稼働状況把握では設備投資の予算計上に間に合わず、設備投資が遅くなってしまう可能性があり、もっと短いスパンでの稼働状況把握が必要である

そこで、私が以前関わったサイトで行っていたのが、定型ジョブを定刻に実行させてその変化を把握するという手法だった。
CPUバウンドのジョブ、IOバウンドのジョブ、メモリバウンドのジョブを用意する。この3つのジョブをOSの自動コマンドに登録して、1時間の中で実行させるようにした。システムが12時間稼働の場合、当該ジョブが12回ずつ実行される事になる。このジョブの結果を集計して、設備増強の判断材料にしていた。

また、当該サイトではTSSのレスポンスを注視しており、TSSレスポンス測定専用端末を用意して、一定間隔でTSSのレスポンスを測定、上記の結果に加えていた

コンピュータ設備は、利用者や業務の増減によるシステム増強の検討も必要であるが、人間が設備を使っていくうちに、摩耗や劣化などで設備交換が必要な部分も出てくる。
昔であればエンジニアの一人として常にコンピュータルームを巡回したり、コンソールから流れてくるメッセージを見て、気になる部分をチェックして後から調べるといった”気配り”をしていたものだが、最近ではやれ”セキュリティ保護”とか”コンプライアンス遵守”などと言って、エンジニアであってもシステムに容易に触れさせないところが殆どになってしまいました

間違った方向に進んでいると感じるのは私だけだろうか、、

追伸。
最近、私の故郷の鉄道会社が安全管理の問題でマスコミを騒がせています
安全管理はコンピュータシステムであっても、鉄道であっても同じ事と思います。
使っていただくサイト(乗客)があってこその設備ではないのでしょうか。。

三波春夫は言いました「お客様は神様です」と、、