システム異常を見つけるには、平時を意識することが大事
以前勤めていた職場は、24時間365日稼働するシステムだった。定期保守作業も数多く行っていたので設備障害の対応は「慣れたもんだ!」、と言いたいところだが、実際は設備アラームが出ると、「あちゃー」と感じたものだった。同じアラームでも原因が同じとは限らないし、深夜の、人が少ない時間帯に起きるケースが多かったからだ。
1人でラック室に行くときは必ず無線機(トランシーバー)を持っていく。そして、ラック室に入ると必ず確認するルーチンがある。室温と空調の様子、特に風の強さ、あとは部屋の匂いである。アラームの箇所に行く前に、ラックの表面と裏面の状態を確認する。ラック室ではブザーが鳴っているので、まずはブザーを消す作業だが、ラック以外のところから異音が無いか?例えば、機械のファンが故障すると、ラックの周りが異常に熱くなっている。五感を使って奥にある監視端末に向かうのである。
実は、普段なんでもない時の状態(平時)を覚えていないと異常には気が付かないものだ。
僕は、異常に気が付くのが得意で、個人的な意見だが、整理整頓されたラック室では異常を見つけるスピードが速いと思っていた。ラック室で気をつけたいところは、使わない段ボール箱は早めに処分したほうがいいと思う。いつか使うと思って取っておくが、意外に使わないのである。また、工具類や、測定器は壁や床にビニテ(ビニールテープ)を貼って所定の場所に戻す習慣を身に付けていた。平時を意識することが有事の対応に役立つのである。
有事は自動運転を手動に切り替えた状態
通常、システム運用は自動運転モード(リモートモード)で動いている。この状態を平時とすれば、有事は自動運転モードから手動運転モードに切り替えた状態だ。全てではないが、マニュアルモード(エマージェンシー状態)の操作を間違いなくできるかは、訓練したことがあるか、普段から運用している人以外は不可能である。ましてや状況確認に時間がとられ、緊急対応に手間取ってしまい、パニックになるのが普通かもしれない。
緊急状態の場合は、状況判断が必要といったが、平時の時はどういう状態だったのか普通に考えても思い出すことはできない。ここで冷静になるためには、現状確認作業が必要である。
障害箇所を探すよりも、動作が確認できている箇所を特定することが大切である。できれば、チェックシートを使ったり、ホワイトボードにメモをするとよい。
緊急事態に遭遇した場合、どのような心構えが必要なのだろうか。
冒頭にラック室に入るときのルーチンの話をしたが、できれば今までの経験とか記憶を忘れてクリーンな頭で臨んでみてはどうだろうか。いろんなケースごとに頭を初期化して取り組むことが大切だと思う。もちろん知識を初期化しては元も子もない話だが、先入観を持たず、基本の動作をすることが、一番正確で速い対応につながった気がする。ただ、周りに人がいれば、複数人による声出し確認と指差し確認、状態を表示する名札とマーキングをすることで初心を忘れないことが必要なのである。
有事の時こそ、対応に加わりながら俯瞰的 に見るように心得る
有事の場合、最も心得なければならない一つに、状況を
そうすると、障害箇所の特定(切り離し)と、正常に動く箇所を持続させることが可能になるはずだ。さらに、切り離したことによって障害箇所の復旧作業ができるようになるため、効果的な対応につながるというわけである。必要なことは冷静な判断と正しい運用知識を持つことにつきる。
普段からネットワーク図面を見る癖をつけてもらいたい。僕は機能ごとに色鉛筆で分けてみたり、工夫をこらしていた。エンジニアによくあることなのかもしれないが、マニュアルとか図面は大好きだった。図面は自分でも書いたりするが、緊急対応マニュアルハンドブックを作ってみたり、平時との違いがわかる状態表示シートを作っていた。これをやることで有事の時に
分かっているが、できない課題
有事に備えた対応としては、最悪のことを想定し、体制と知識を構築しておくことが重要であり、訓練も数多くできればいいが、わずかな人員に負担を強いることで無理やり維持させ続けることは、情シスだけの問題ではないと思っている。全ての会社には当てはまらないが、重要な基幹システム運用をわずかな人員で回すことを強いているなら、情シスに対する経営者の認識不足が考えられるのではないだろうか。これが一番根深い問題かもしれない。企業の多くが、未だに情報システム業務を、付帯的で余分な業務だと考えているため、人やコストなどのリソースを掛けて十分な体制を作る意識に欠けている。
平時にシステムを把握して有事に備えることは分かっていても、組織を「ひとりの情シス」で回せていると、それで当たり前だと誤解されてしまいがちだ。担当者個人のノウハウやスキルを駆使して、何とか回せているうちはまだいいのだが、いずれ大きな問題へとつながるのではないかと思う。
慢性的な IT 人材不足は、業界だけの問題ではなく日本の企業全体の問題。外部からの人材を確保できなければ、組織内で何とか回すしかなく、既存の人材の中から任せられそうな人を選び出すにしても、誰かに兼務してもらう以外、方法がなかったり、緊急時でも1人で対応するしかないケースがある。インシデントへの対応や緊急対策、原因究明など、処理速度や対応できる量、正確性の点で限界があるため、やりたいこともできず、十分なスキルを磨く余裕が生まれないためキャリアの向上もできていないのが現状かもしれない。それでも情シスの仕事は誰にでもできるものではなく、属人的な企業内でのつながりが生まれていくのも事実。扱いにくい職場のイメージはここから生まれているのかもしれない。
<< 関連コラムはこちら >>
■情シス業務の醍醐味(全3話)
■有事に備えよ!(全3話)
■著者紹介■
熱海 徹(あつみ とおる) 氏
1959年7月23日、仙台市生まれ、東京都在住
40年近く日本放送協会 NHK に籍を置き、一貫して技術畑を歩んできた。転勤の数は少ないが、渡り歩いた部署数は軽く10を超えている。その中でも情シス勤務が NHK 人生を決めたと言っても過言ではない。入局当時は、放送マンとして番組を作るカメラマンや音声ミキサーに憧れていたが、やはり会社というのは個人の性格をよく見ていたんだと、40数年たった現在理解できるものである。20代の時に情シス勤務をしたが、その後に放送基幹システム更新、放送スタジオ整備、放送会館整備、地上デジタル整備等、技術管理に関する仕事を幅広くかかわることができた。今まで様々な仕事を通じてNHK内の人脈が自分としては最後の職場(情シス)で役に立ったのである。考えてみたら35年は経過しているので当たり前かもしれない。2016年7月には自ら志願して、一般社団法人 ICT-ISAC に事務局に出向し、通信と放送の融合の時代に適応する情報共有体制構築を目標に、放送・通信業界全体のセキュリティ体制整備を行った。ここでも今までの経験で人脈を作ることに全く抵抗がなかったため、充実した2年間になった。私の得意なところは、人脈を作るテクニックを持っているのではなく、無意識に出来ることと、常に直感を大切にしているところである。