どうしてマクドのシステム障害は全世界に広がったのか？

Blog

トレンド

2024年3月21日

マクド全世界でのシステム障害：考察からの対策
システム障害の影響は！紙ナプキンでオーダーを取るなどアナログ対応へ
今後取りうることができる対応策は！？影響範囲を絞るこむこと
マクドナルドの全世界でのシステム障害は、多くの企業にとって重要な警鐘
- 可用性の基準
結論

マクド全世界でのシステム障害：考察からの対策

2024/3/15にマクドナルドのシステム障害が全世界で同時に発生した背景には、複数の要因が絡み合っている可能性があります！

以下に、そのような事態に至った原因を考察し、その影響や今後の対策についてのブログ形式での考察を展開します♩

①グローバルなシステム統合の複雑さ

マクドナルドは全世界に展開するグローバル企業であり、そのITシステムは膨大な規模と複雑性を持っています。

システム間の統合やデータの同期化には高度な技術が必要であり、ここに何らかのミスが生じた場合、全世界で影響が出る可能性があります。

②サイバーセキュリティ攻撃

近年、サイバーセキュリティ攻撃はより巧妙かつ複雑になっており、大手企業は特に高いリスクに晒されています。

マクドナルドのシステムが全世界で同時に障害を起こした背景には、サイバー攻撃が関与している可能性が考えられます。

追記：3/19に原因はサーバー攻撃ではなく、サードパーティーベンダーがシステム設定を変更した際のミスによるものだったと発表した。

③クラウドサービスの依存度の高さ

マクドナルドは、効率化とコスト削減のためにクラウドサービスに大きく依存していると考えられます。

もしクラウドサービスプロバイダーに障害が発生した場合、それが全世界のシステムに波及する可能性があります。

システム障害の影響は！紙ナプキンでオーダーを取るなどアナログ対応へ

今回のシステム障害では、以下のような影響がありました。

顧客体験の悪化
オンラインでの注文、店舗での支払いシステムが停止し、顧客満足度に大きな打撃を与えました。現金飲みでの決済に変更やメモでのオーダーなど一時的なアナログ対応に迫まれ、休業した店舗も多くありました。

収益の損失
システム障害により、一時的ながらも売り上げが大幅に減少しました。

ブランドイメージの毀損
このような大規模な障害は、ブランドに対する信頼性を損ねる可能性があります。

今後取りうることができる対応策は！？影響範囲を絞るこむこと

マクドナルドのシステムに限らず、どのようなシステムでも障害は発生します。

記憶に新しいところでは、全銀連（全国銀行データ通信システム）もまる1日システム障害が起こり、振込や決済に影響があり多くの顧客や関連業界に大きな不便と懸念を引き起こしました。

分散型アーキテクチャの採用
システムのリスクを軽減するために、分散型アーキテクチャを採用し、一点に障害が発生しても全世界に影響が出ないようにする。

システムを分散化し、影響範囲を絞り込むことで、障害の発生時に、影響範囲を狭め、マイナスの影響を限定させます。

そうすることで、障害時のアナログ対応の訓練対象を明確化させます。

当グループでも自社システムのサーバー構成で、障害時の影響範囲をより小さくできるように絞り込みや冗長化を行っております。

システムの冗長化
冗長化とは、システムの重要なコンポーネントを複製しておくことで、もし一つが故障した場合でも他のコンポーネントがその役割を引き継ぎ、システム全体の稼働を維持する仕組みです。

これにより、システムの可用性と信頼性が大幅に向上します。

サイバーセキュリティの強化
定期的なセキュリティチェックと、最新のセキュリティ技術の導入を通じて、サイバー攻撃からの保護を強化する。

復旧計画の策定と訓練
障害が発生した場合に迅速に対応できるよう、復旧計画を策定し、定期的に訓練を実施する。

マクドナルドの全世界でのシステム障害は、多くの企業にとって重要な警鐘

テクノロジーの進化とともに、その脆弱性に対する意識も高め、継続的な改善と対策を行うことが不可欠です。

システムは利便性は高まりますが、故障なく延々動き続けるなどということは一切ありません。
システムの平均稼働率、特にITシステムにおいては、「可用性」という指標で測定されます。

可用性は、システムが計画された時間内で実際に稼動している時間の割合を指し、通常はパーセンテージで表されます。
この値が高いほど、システムの信頼性が高いと言えます。

可用性の計算式

可用性（パーセンテージ）= (実際の稼働時間　/　計画された稼働時間)×100

可用性の基準

99%
これは「二つ星レベル」の可用性とも呼ばれ、月に約7.2時間のダウンタイムが許容されます。

99.9% (Three Nines)
「三つ星レベル」と呼ばれ、月に約43.2分のダウンタイムが許容されます。

99.99% (Four Nines)
「四つ星レベル」であり、月に約4.32分のダウンタイムが許容されます。

99.999% (Five Nines)
これは非常に高い可用性を意味し、「五つ星レベル」と呼ばれます。
月に約26.3秒のダウンタイムが許容され、ほとんどの時間でシステムが利用可能です。

「五つ星レベル」の可用性は、特に金融システムや緊急対応システムなど、高度に信頼性が求められる環境で目指される指標です。

しかし、これを実現するには高度な技術と投資が必要であり、システムの冗長化、定期的なメンテナンス、リアルタイムでの障害検知と迅速な対応など、複数の対策が必要となります。

結論

いくつかのシステムは非常に高い可用性を実現していますが、システムが延々と故障なく動き続けることは実際にはあり得ません。

どんなに高度な技術を用いたシステムであっても、自然災害、人的ミス、ハードウェアの故障、ソフトウェアのバグなど、予期せぬ障害が発生する可能性が常にあります。

そのため、高い可用性を維持するためには、予防策としてのシステム設計、迅速な障害対応、そして継続的な改善が不可欠です。

【世の中に絶対はありません！どのようなシステムもメンテナンスを怠らずいても止まるもんは止まるのです！】

失敗からどうリカバーするのか？
そのことを前提に行動していきましょう(^o^)／

この記事を書いた人

システム開発部：井上

業務システムの開発を担当しています。
2023年8月に育休から復帰し、仕事と育児の両立に奮闘中です💦
趣味は子供とペットの写真を撮ることです。
※子供は2歳、ペットは豆柴。

Blog TOP に戻る

Blog