システム管理者の憂鬱
[臼井 友章]
先週は23日にNTT東日本、NTT西日本が提供しているIP電話サービス「ひかり電話」に障害が発生、両社間をまたぐ通話ができなくなったり、27日に全日空の予約や搭乗手続きを行うシステムに障害が発生し、運行に影響が出るなど、システムトラブル関係の事故が多い1週間でした。
NTTの障害はコマンドの入力ミスと、ミス発生時に被害を最小限にとどめる仕組み(フェイルセーフ)の機能不全が原因とみられ、全日空の障害は原因が特定できていないものの、システムの更新の際に何らかのトラブルが発生したものとみられています。
規模の大小こそあれ、システムの管理を行っている身として、障害が発生したときの管理者の気持ちは察して余りあるものがあります。刻々と悪化する状況、原因がわからない焦り、周囲の視線…。逃げ出したくなる気持ちを抑えて、作業にあたらなければなりません。
よほど簡単に作られているシステムを除いて、大半のシステムはテストを経てから本番に移行します。障害が発生すれば、どれだけテストを行っていてもNGであることは言うまでもないのですが、本番とまったく同じ環境、まったく同じ負荷をかけてテストを行うことが不可能な場合が多く、加えて、クライアントがテストに時間やコストをかけることの重要性を理解していないことが多いため、どうしてもテストが不十分となってしまうという現実を考えると、システム管理を行う側だけでなく、社会全体の構造的な問題であるといえます。費用をかけずに作られたシステムのうえに成り立っている安価なサービスの提供を受ける代償として、発注元の企業やエンドユーザーは障害発生時にコストを支払っているのです。
思いのほか重い話になってしまいましたが、皆さんが使っているシステムの影では、システム管理者さんがいつ起こるとも知れない障害にどきどきしながら働いていることに、ちょっとだけ気を留めてもらえれば、と、同業人として思うのでした。