ちょっと前のドコモのSPモードメール障害の話、その他、スマートフォンの小さな不具合の数々を見るにつけ、障害、不具合に関する考え方、というものについて考えさせられてしまうわけで、今日はそんなお話。
最近、ドコモが障害や不具合を多発しているイメージが強く、一方、障害・不具合に関しては横綱級のソフトバンクについてはあまりそういう話を聞かない、この辺について、ちょっと思うところがあるんですよね。それは、両者の障害に対する考え方、ポリシーの違い。
ドコモの障害に対する考え方というのは、これこそ日本の通信事業者に特有の考え方なのかもしれませんが、まず最優先することが、「万一を起こさない」という予防絶対主義です。万一のことを起こしてしまったら負けであり、まず何をおいても万一を起こさないように鉄壁の運用をする、というのがドコモの考え方。
一方、ソフトバンクは、ボーダフォン時代の昔こそ万一を起こさないことを前提のポリシーでしたが、最近はむしろ「万一は起こるものである」「起こってからの対策が重要である」と考えているようです。対策至上主義。
どちらがいいのかというと、これまたどちらも善し悪しがあるのですが、複雑化・高度化するシステムに対しては、どうやら予防主義より対策主義の方が有効に働いていることが徐々に分かってきたようです。
古いシステムでは、起こりうる事象の組み合わせもシンプルで、障害を絶対に起こさないようにする、という運用も可能でした。予防絶対主義の原典にはこうあります。「たとえ1ミリ秒でも何らかの形でユーザに不都合を与えてはならない」と。つまり、ユーザにサービス断という形の影響をそもそも与えてはならない、というのが予防絶対主義の考え方で、この考え方は長らく主流でした。
対する対策至上主義は、ユーザに不都合を与えることは許容する代わり、その不都合の継続時間を閾値以下に抑えればよい、ということになります。
ドコモの予防絶対主義は、とにかくシステムの設計自体を鉄壁にしようとします。考えられるあらゆる不具合事象に対してあらかじめその起こる可能性を排除しようとします。障害の想定が思いつく中にすべて網羅されるならこれが最も良い考え方ですが、複雑化するシステムにおいては、「想定漏れ」の起こる確率が高まります。むしろ、最近の3G以降のシステムでは想定漏れが起こらない方が不思議なくらいです。
この場合、もしその「想定漏れ」の障害が起こると。そもそも、「想定できなかった」事象なので、当然ながら対策できません。何が起こっているのかわからないままずるずると時間がたち、結局、影響を与えるユーザ数が莫大な数に上ってしまうことになります。
一方、ソフトバンクは、とりあえずありもので海外などでよく運用された技術を使います。障害を起こさないように鉄壁にすべくシステムを作りこむ、ということも行いません。一方で、起こりうる障害の「結果」に対して、その対策(海外で有効に働いたもの)を網羅します。「障害の結果」というのは、システムが複雑化しても案外シンプルにまとまるものです。「つながらない」「切れる」「過課金」などなど、ということであれば、大体起こりうることはまとめられます。
そうして、それぞれの事象に対して対策を施します。「つながらない」ならとりあえずアクティブ系を全断して全シリーズをスタンバイ系に切り替えてみる、とか、過課金なら原因究明の前に返金処理システムを動かす、などなど、聞けば乱暴に思えるようなことを思い切ってやっちゃうわけです。
総務省などへの報告義務の基準などでもそうですが、結局、障害は影響人数と継続時間です。予防絶対主義はこれらをゼロとすることを目的とし、対策至上主義はゼロにはしないが最小化するという考え方。そして、複雑化するシステムで障害の発生をゼロにできないことが顕著になれば、当然後者の考え方の方が、障害影響を最小化するという目的には最適となっていくのは当然です。「障害ゼロは不可能」ということを受け入れられる思考・組織の柔軟性があるかどうかがポイントです。
ソフトバンクがボーダフォンから事業を継承してから2年くらい、あほみたいに影響の大きな障害が多発しましたが、最近それをあまり聞かないのは、障害が起こらなくなったからではなく、障害の影響が最小化されて総務省報告が必要ないレベルだったり報道されないレベルに抑え込めているから、ということです。障害に対するポリシーの転換が行われ、起こったことを最小化する(うやむやにする)、という仕組みがうまく回り始めたことを意味しています。
スマホの不具合に関してもそうで、とりあえずドコモは起こった不具合を完璧に潰そうとするし、完璧でなければ大仰にアナウンスしなければならない、というポリシーのため、外に見える不具合が非常に多いように見えますが、一方、ソフトバンクは兄弟機でおそらく同じ不具合が出ているはずのところを、不具合アナウンスをする前にサクサクとアップデートしちゃう。不具合があったのかどうかもわからないレベルの段階でさっさと対策を先にばらまく。これが結局、スマホの顕現した不具合件数の差として世間に認識されるわけです。
ユーザ体感としても、実際にソフトバンクの対策の方が理にかなっています。一部の声の大きなユーザこそ「不具合を認めて謝罪なりアップデートなりをしろ」と叫びますが、大半のユーザにとっては、あれ、ちょっと動きおかしかったかな?と思っても、アップデートで自然に現象が出なくなることですぐに忘れるような内容なんですよね。
で、このドコモ型の予防絶対主義、私の知るところでは、ドコモに加えてKDDIとウィルコム(旧)がこのタイプで、ソフトバンクは完全に対策主義、イーモバイルも対策主義に近い考え方です。ウィルコムもソフトバンク傘下になってだいぶ変わってきている感じがします。とにかく予防絶対主義を採用している事業者は、何しろ動きが遅いのが特徴。予防が完璧になるまでリリースしないし、障害が起こってからも、それに対する対策が「次の予防」に対して完璧であることを確認できるまで動けないイメージ。これはもう組織の作りの欠陥、お役所主義の弊害というしかないですね。
ここから原発云々の話に展開してもいいのですが、原発関連は宗教論争に発展するので触れません(苦笑)。ということで、障害に対する事業者の考え方についてのお話でした。
初めてコメントさせて頂きます。100yenです。
いつも感心して読んでいます。
これからもがんばってください。
[…] ドコモの障害が増えていますね。なぜ障害が増えているか、という点については、障害が表面化する仕組みを考えてみればいいと思います。要するに、前に書いた通信事業における障害に対する考え方について辺りをおさらいしてみるといい感じかもしれません。 […]
[…] ドコモの障害が増えていますね。なぜ障害が増えているか、という点については、障害が表面化する仕組みを考えてみればいいと思います。要するに、前に書いた通信事業における障害に対する考え方について辺りをおさらいしてみるといい感じかもしれません。 […]
初めてコメントさせていただきます
私は、その体制の被害をモロに受けています!
電話帳お預かりサービスで、自動同期を設定していますが「アプリパスワード未入力」という現象に悩んでいます。
151番では、報告がない・考えられないという返答ばかりで、ショップでの現象確認すら無視されています。
機種もN-04D・N-01D・F-05D・T-01D・T-02D・L-05Dでショップ内で現象が確認されていますが、全く改善がされません。
N-04Dは、9台の機体交換に基盤交換を3回していますが、ショップでの初期設定で現象がでてしまい、電話帳がダウンロードできない状態が続き、改善しようとする感じがまったくありません。