スマートフォン 表示
メールフォームでよろづ質問受付中
スマートフォン速度統計への人柱ご協力をお願いします。
2012/8/21 10:00 · 事業考察, 品質動向

ドコモの障害が増えていますね。なぜ障害が増えているか、という点については、障害が表面化する仕組みを考えてみればいいと思います。要するに、前に書いた通信事業における障害に対する考え方について辺りをおさらいしてみるといい感じかもしれません。

まず、「表面化する障害」とは何か、と言うことを考えています。障害が起こったとき、仮にどんな小さな障害でも出た瞬間に公表しなければならない、なんてことにはなっていません。と言うか、もしそんなことをしてしまうと、キャリアの障害情報ページはあっという間にぎっしりと埋まってしまいます。どんなに品質の良い機器を使っても、何しろ全国区の通信キャリアの使う機器数は膨大ですから、仮に障害率(ダウン率)1ppmだったとしても、毎日何十個という機器故障情報が障害リストを埋めてしまうことになります。

そんなわけで、実際には、加入者への影響度で公表有無を決めているようです。と言っても、各社の詳しい内規まではわかりませんが、一つの重要な基準として、「総務省への報告義務のある事故」の基準値があります。これが、「3万 以上 かつ 継続時間 2時間 以上」となっています。大体、各社ともおおむねこの基準かこの基準よりちょっと厳しいくらいの基準で、障害の公表有無を決めているようです。

ポイントは、「影響人数」と「継続時間」というところ。特に、「継続時間」については重要で、たとえば、機器故障でスタンバイ系に切り替わるときに1秒だけ影響があった、こういう場合は、障害とは言えませんね。つまり、どんなにドでかい障害であろうと、短期間で終息すればそれは障害発生と言えない、とさえ言えます。

これが、要するに対策至上主義の原典。起こってもいい。起こってから復旧までを極限まで短くせよ。

さて一方、ドコモやKDDIが採用しているのは、予防絶対主義。起こしてはならない、という考え方です。ただ、ここで短絡的に「予防絶対主義だから何かが起こってしまうと長期化してしまう」と結論してしまうのは、ちょっと違うと感じる方も多いでしょう。すなわち、「予防絶対主義と対策至上主義は両立しうるのではないか」と言う命題です。

出来うる限り完璧に予防する。同時に、何かが起きた時にも素早く復旧する技術を磨く。これは両立しそうに思えます。

結論から言うと、これは両立しないんですね。

なぜかと言うと、それは予防絶対主義の「障害時の初動対応」にあります。予防絶対主義の原典には「一度起こした障害を繰り返してはならない」というありがたい言葉が記されています。なので、万一の障害が起こった場合、その障害を繰り返さないための対応がまず最優先されるのです。すなわち、「調査のための現状保存」。

障害が起こりました。まずどのノードの障害かを突き止めます。次にそのノードの保守ベンダに連絡を入れ、調査のためのログ取りの準備をします。場合によっては現地に行く必要さえあるかもしれません。この間にたとえば「復旧のためにリセットしていいか」とベンダに聞いて、ベンダがダメーと返答したりなど無駄な時間を過ごします。ベンダがようやくログ取りをはじめ、必要なログがすべて取得出来たらようやく、リセットや電源入れ直しなどの対応を始めます。この間、おそらく1時間以上。下手すりゃ数時間です。[追記]実際の切り分けなんてやってないしログ取りなんて一瞬だろ、と言うご指摘をいただきましたが、一番時間がかかるのが、ログ取りを開始できるまでの手続きと手順です。実際に商用で運用されている装置に対してベンダがアクセスするためには膨大な儀式が必要なのです。入局作業ともなればなおさら。それが、この「無駄時間」の大半だったりします。

要するに、予防絶対主義を貫く限りは、障害に対する初動対応が「次の障害を起こさないための対策」で数時間遅れてしまう。となると、上の公表基準、報告基準であるところの「障害継続時間」が長時間化してしまうわけですね。

で、数年前まではこれでよかったんです。なぜなら、システムは比較的シンプルで、「手におえる」レベルだったから。数年に一度の大障害を糧に信頼性をグングン向上させられるシステムだったから。しかし、前にも書いた通り、新しい時代になり、いろんなシステムが複雑に絡み合い、もはや全体の把握は人間の手におえるレベルを超え始めています。システム自体が生き物のように毎日姿を変える、と言うと言い過ぎかもしれませんが、IPベースでアダプタビリティ・スケーラビリティが向上しているがために、ブラックボックス化した動作の機微がシステム全体にバタフライ効果的インパクトを与えうるものになってきています。大昔にやってたサイトで「フルIP化はシステム挙動をカオティックにするから嫌いだ」なんてことを書いた覚えがありますが、まさにそういったことが起こりつつあるというわけです。

なので、いくら予防を徹底しても、毎日のように新しい障害要因が生まれてくるわけです。もちろんその新しい障害要因のほとんどは日の目を見ずに潰されるわけですが、それをすり抜けたものが障害として花開くわけで、その新しい障害には対策できずに大障害として長時間継続を許してしまうのが、予防絶対主義、と言うことなのかなぁ、と思うわけです。

と言うことで、まぁとある筋から、なぜドコモやKDDIの障害は長時間化しやすいのか、なんていう与太話を聞いてこんな記事を書いてみたりしました。それでわ。

tweet TWEET

[Tweet]

2012/8/21 10:00 · 事業考察, 品質動向 · (No comments)
Written by


ケータイニュース.net
当サイトのニュースチェック用情報収集ポータルをコメント機能付きで開放中。

コメントをどうぞ

※ 次のタグが使えます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>

CAPTCHA