Microsoft Azureの信頼性の進展 (Advancing Microsoft Azure reliability)

Posted: 2019/08/16 カテゴリー: Uncategorized
タグ:, , , , ,

Advancing Microsoft Azure reliability


Mark Russinovich (Chief Technology Officer, Microsoft Azure)

世界中の業界、組織、人々にとって、クラウド サービスへの依存は拡大し続けています。なので、自分が依存しているクラウド ソリューションが、セキュアで、グローバルの標準やローカルの法令を順守しており、データをプライベートで保護された状態に保ち、根本的に信頼性のあるものだと信じられることが、現在はこれまで以上に重要です。Microsoftは、信頼される一連のクラウド サービスを提供し、クラウドの可能性を解き放つための自信を皆さんに与えることを約束しています。

Azureは、過去12か月にわたって、グローバル クラウド インフラストラクチャで、99.995%の平均アップタイムで中核のコンピューティング サービスを運用してきました。しかし、Azureが運用されている規模では、アップタイムだけでは一部始終を語ったことにはならないことを、我々は認識しています。我々は、過去12か月で、お客様に影響を与えた3つの独特で重大なインシデント (2018年9月の米国中南部リージョンのデータセンター停止、2018年11月のAzure Active Directory (Azure AD) Multi-Factor Authentication (MFA) の課題、2019年5月のDNSメンテナンスの問題) を経験しました。

進化しつつある数百のサービスで構成されている、54リージョンのグローバル クラウド インフラストラクチャの構築と運用は、巨大で複雑なタスクなので、我々は、各インシデントを重要な学びの機会として捉えています。停止や他のサービス インシデントは、すべてのパブリック クラウド プロバイダーにとっての課題です。我々は、運用プロセス、アーキテクチャ設計、ハードウェアの問題、ソフトウェアの欠陥、人的要因といった要因がつながってサービス インシデントを引き起こす複雑な方法の理解を、改善し続けます。前述の3つのインシデントはすべて、複雑な相互作用を通してのみお客様に影響を与える停止につながった、複数の障害の結果でした。我々は、それに応えて、プラットフォームの冗長性、リリース パイプライン全体にわたる品質保証、プロセスの自動化といった手順を通して、インシデントを緩和するより良い方法を作成しつつあります。継続的にリアルタイムに改善できる能力は、クラウド サービスの素晴らしい利点の1つです。我々は、決してこういったリスクのすべてを排除することはありませんが、お客様、パートナー、より幅広い業界に透明性を与えつつ、サービスの問題の頻度と影響の両方を減らすことに深く集中しています。

信頼性の保証は、あらゆるAzureエンジニアにとって基本的な責任です。この取り組みを強化するために、我々は、さらに信頼性の高いプラットフォームを提供するための新たなアプローチを開拓するために、サイト信頼性エンジニアリング (SRE) チームと一緒に働く、品質エンジニアリング (Quality Engineering) チームを、私のCTOオフィス内に新たに結成しました。信頼性を改善し続けるために、すでに進行中のいくつかの取り組みがあります。

  • 安全なデプロイのプラクティス – Azureは、すべてのコードや構成の変更が特定のステージのサイクルを通過するようにすることを目指す、安全なデプロイのプラクティス フレームワークを通して、変更の自動化に取り組んでいます。開発/テスト、ステージング、プライベート プレビュー、ハードウェア多様性パイロット、(リージョン ペアへのより幅広い展開の前の) より長い検証期間といったステージがあります。これは、ソフトウェアの変更が悪影響を与えるリスクを、劇的に減らしました。我々は、ネットワークやDNSといったソフトウェア定義インフラストラクチャの変更を含むように、このメカニズムを拡張しつつあります。
  • ストレージ アカウント レベルのフェールオーバー – 2018年9月のデータセンター停止の間、いくつかのストレージ スタンプが物理的に損傷を受け、即時のシャットダウンを必要としました。復元時間よりもデータ保持を優先するのが我々のポリシーのため、我々は、すべての顧客データを成功裏に復元できたことを確認するために、より長い停止に耐えることを選択しました。皆さんの多くは、自分の組織でこの決断を下すさらなる柔軟性が欲しいと、我々に伝えました。なので、我々は、ストレージ アカウント レベルで独自のフェールオーバーを開始できる機能のプレビューによって、お客様に力を与えています。

  • 可用性ゾーンの拡張 – 現在、10個の最大のAzureリージョンで可用性ゾーンが利用可能になっており、大部分のお客様にさらなる信頼性の選択肢を提供しています。また、今から2021年までの間に、次の10個の最大のAzureリージョンで可用性ゾーンを提供するために、作業が進行中です。

  • Project Tardigrade – 私は、先月のBuildで、Project Tardigradeについて話しました。これは、緩歩動物、クマムシとしても知られている、ほぼ破壊できない微小生物にちなんで名づけられた、新しいAzureサービスです。この取り組みは、Azureが仮想マシンを数秒間フリーズし、ワークロードを正常なホストに移動できるように、OSのクラッシュを引き起こす可能性のあるハードウェア障害やメモリー リークを、発生直前に検出します。

  • 影響の低い/影響のないメンテナンス – 我々は、ホット パッチ適用、ライブ マイグレーション、インプレース マイグレーションといった、影響のない/影響の低いアップデート テクノロジの改善に投資しています。我々は、過去1年間に、数十のセキュリティ/信頼性パッチをホスト インフラストラクチャにデプロイしてきました。それらのパッチの多くは、お客様への影響やダウンタイムなしに実装されました。我々は、その利点をさらに多くのAzureサービスに持ち込むために、これらのテクノロジに投資し続けます。

  • 故障注入とストレス テスト – 障害時にシステムが設計通りに実行されることの検証は、システムを障害にさらすことによってのみ、可能になります。我々は、サービス固有のロード ストレスと障害による小規模、プライベートのカナリア リージョンでのリージョン全体の障害、AZ (可用性ゾーン) の障害の訓練でリージョン/AZ規模の両方で、本番環境に向かう前に、ますます我々のサービスに故障を注入するようになっています。我々の計画は、最終的に、お客様が自分のアプリケーションやサービスで同じ検証を実行できるように、これらの故障注入サービスをお客様が利用できるようにすることです。

今後、我々が内部アーキテクチャ/運用のさらなる詳細を共有することを、期待していてください。我々が、基礎的な信頼性を改善するためのこれらの措置のすべてを講じている一方で、Azureは、皆さんのアプリケーションがビジネス可用性の要件、復旧目標を満たせるようにする、高可用性、ディザスター リカバリー、バックアップのソリューションを、皆さんに提供しています。我々は、(ベスト プラクティス、アーキテクチャ設計を含む) 信頼性の高いアプリケーションの設計、アプリケーション正常性の監視、障害や災害への対応に関する、詳細なガイダンスを提供しています。

信頼性は、コンプライアンス、セキュリティ、プライバシー、透明性とともに、我々の信頼されるクラウドの約束の中核的な理念であり、そうあり続けます。これらの領域のすべてにわたって、正しいことを言うことによってだけでなく正しいことをすることによって、お客様からの信頼が得られ維持されなければならないと、我々は知っています。信頼され責任があり包括的なクラウドは、我々がどのようにして企業として関与し、我々のテクノロジ、アドボカシーとアウトリーチを開発し、我々が運営するコミュニティの役に立つかに基づいていると、Microsoftは信じています。Microsoftは、信頼される一連のクラウド サービスを提供し、クラウドの可能性を解き放つための自信を皆さんに与えることを約束しています。

広告
コメント
  1. […] translation – S/N Ratio (by SATO Naoki (Neo)) > Microsoft Azureの信頼性の進展 (Advancing Microsoft Azure reliability)https://satonaoki.wordpress.com/2019/08/16/advancing-microsoft-azure-reliability/ […]

  2. […] Microsoft Azureの信頼性の進展 (Advancing Microsoft Azure reliability) […]

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google フォト

Google アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中