TOP > コラム > システム障害などの緊急時における対応手順や対策まとめ

システム障害などの緊急時における対応手順や対策まとめ

公開日:2017/04/19   更新日:2022/04/14
緊急時における対応手順や対策

自然災害や人的ミスによるシステム障害は企業にとって死活問題です。たとえ軽微なシステム障害であっても、企業活動を停滞させたり、多大な損害をもたらしたりすることがあります。しかし、システム障害時の手順を把握しておくことにより、損害を最小限に食い止めることが可能です。
そこで今回は、システム障害などの緊急時における対応手順や対策についてご紹介します。

現状確認

システム障害が起きたとき、最初にすべきことは現状確認です。早く復旧しなければと焦る気持ちを抑えて、発生している障害を正確に把握することから始めましょう。どのネットワーク機器がダウンしているのか、機器からどのようなアラートが上がっているか、ログが残っていないかを確認します。
もし可能であれば、現場で機器の状態を確認してください。障害の影響を受けているユーザーがいる場合は、どのようなトラブルなのかヒアリングを行います。

関係者への連絡

関係者への連絡
自分の設定ミスによって引き起こされたシステム障害の場合、正直に伝えづらいこともあるとは思いますが、「現状確認」を通じて得られた情報は社内外の関係者に正確に伝えましょう。
時には自分1人では解決できないシステム障害もあります。そのような時は1人で問題を抱え込まずに、社内の詳しい人間に相談することも大切です。

システム復旧

システム復旧
現場は一刻も早いシステム復旧を望んでいます。原因を特定できるに越したことはありませんが、原因をすぐに特定できない場合は、原因の特定よりもシステム復旧を優先させます。意外なところに原因があるかもしれません。ネットワーク機器を再起動など、当たり前とされている作業から実施してみるということも1つの方法です。

過去の社内における障害事例が参考になるときもあります。過去のドキュメントが残されていないか探してみましょう。当時の担当者がいれば話を聞くことも有効です。インターネット上にも参考になる技術情報が見つかることもあります。
システム復旧後は関係者への連絡を忘れないようにします。保守ベンダーには取得したログの解析依頼をしましょう。

障害報告書の作成

労働災害の経験則の1つとして、1件の重大事故の背後には29件の小規模な事故と300件の事故につながりかねない事象があるという「ハインリッヒの法則(ヒヤリ・ハットの法則)」が挙げられます。

小さな障害から大きな障害まで、障害の規模はさまざまですが、しっかりと障害報告書を残すことで今回のシステム障害を今後に生かすことができます。
今回起きた障害が再び起きる可能性もあるため、システム復旧できたからといって障害報告書をなおざりにしてはいけません。次回障害が起きたときに、障害報告書が役に立つ場合もあります。

再発防止策の実施

「システム復旧」の段階では応急的な処置のみで、抜本的な対策をまだ講じていないかもしれません。障害報告書にまとめた再発防止策を基に、速やかに再発防止策を実施し、効果を検証します。また、システム障害時の手順書やマニュアルに今回の障害についての記述を盛り込むようにしましょう。

おわりに

大事なことは、システム障害が発生する前に障害時の連絡体制を確立しておくことです。システム障害時にシステム担当者が不在で、連絡できないという事態もあり得ます。このような事態を避けるため電話転送サービスを利用して、いつでも担当者に連絡がつながる体制をつくることをおすすめします。