Azure Storageのサービス中断に関するアップデート

Posted: 2014/11/20 カテゴリー: Uncategorized
タグ:, , , ,

太平洋標準時の昨日夜、米国、ヨーロッパ、アジアの一部にわたって、Azure Storageサービスでサービス中断が発生し、これによって、これらのリージョンで複数のクラウド サービスが影響を受けました。まず、今回の問題が引き起こした混乱に対して、心からお詫びしたいと思います。我々は、我々のお客様が我々を信頼していることを知っており、このことを真摯に受け止めています。今回発生した問題の背景をお伝えしたいと思います。

Azure Storageのパフォーマンス アップデートの一部に、Azure Storageを利用しているサービス (Virtual Machines、Visual Studio Online、Websites、Search、および他のMicrosoftサービス) にわたって、キャパシティの低下をもらたす問題が発見されました。パフォーマンス アップデートの適用前に、このアップデートは、顧客向けのStorageサービスの一部において、Azureテーブルに対して数週間にわたってテストされていました。あらゆるアップデートを幅広くデプロイする前に問題を識別するために作業するため、我々は通常、これを「フライティング」(flighting) と呼んでいます。フライティング テストは著しいパフォーマンス改善を実証し、我々はStorageサービス全体へのアップデートのデプロイに進みました。アップデートを展開している間に、我々は、フライティング中には検出されていなかった、Stotage BLOBフロント エンドが無限ループに入る問題を発見しました。結果として、フロント エンドがさらなるトラフィックを受け入れられなくなり、その上に構築されている他のサービスでも問題を引き起こしました。

我々は、この問題を検出後、変更を即座にロール バックしましたが、アップデートを完全に取り消すためには、Storageフロント エンドの再起動が必要でした。軽減手順がデプロイされると、影響を受けたリージョンにわたって、ほとんどのお客様は可用性の改善を確認し始めました。サービスは概してオンラインに戻った一方で、限られた一部のお客様では、依然として断続的に問題が発生していました。我々のエンジニアリングおよびサポート チームは、この期間中を通して、お客様を助けるために活発に作業をしています。

今回のようなインシデントが発生した際の我々の主要な焦点は、お客様のための迅速な修復時間ですが、何がうまくいかなかったのかを綿密に調査し、問題が二度と発生しないようにするための作業も行います。我々のプラットフォームにおけるお客様のエクスペリエンスを改善するために、我々は継続的に作業していきます。我々がどのように問題を解決したか、および今後行っていく改善について、お客様にご理解いただけるようにするため、このブログにRCA (根本原因分析) を掲載する予定です。

関連情報

(追記) Azure Blogに追記されたRCAも含め、日本語訳が完了し、Azure Japan Blogに掲載しました。

コメント
  1. […] (参考) ●Azure Storage サービスのサービス中断について(MSDN – Microsoft Azure) ●Microsoft Azureが10時間を超える障害。原因はストレージの性能改善のバグと運用のミスとの報告(Publickey) ●Azure Storageのサービス中断に関するアップデート(S/N RATIO (BY SATO NAOKI)) […]

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中