Linux上のHDInsightのGA (一般提供) と、新しいData Lakeサービスと言語を発表

本日、Linux上のHDInsightのGA (一般提供) や新しいAzure Data Lakeと言語サービスの導入といった、Azureのビッグ データ サービスへのいくつかの主要機能の追加を発表できて、嬉しく思います。

Linux上のHDInsightのGA (一般提供)

本日、Ubuntu Linux上のHDInsightサービスのGA (一般提供) を発表します。HDInsightによって、クラウドでマネージドなHadoopクラスターを簡単に実行できます。本日のリリースでは、Windows Server、UbuntuベースのLinuxの両方のOSを使って、クラスターを実行するように構成できるようになりました。

Linux上のHDInsightは、Hadoopエコシステム パートナー (英語 / 日本語) によるHDInsightのさらに幅広いサポートを可能にし、Hadoopワークロードを実行するための好みのツールやアプリケーションについて、より多くの選択肢を提供します。HDInsightのLinux、Windowsのクラスターは、同じ標準的なHadoopディストリビューション上に構築されており、同じ一連の高度な機能を提供します。

また、本日の新リリースは、クラスターのスケーリング (英語 / 日本語)仮想ネットワークの統合 (英語 / 日本語)スクリプト アクションのサポート (英語 / 日本語) といった追加機能に対応します。さらに、IoTアプリケーション構築 (英語 / 日本語 / 日本語) などのNoSQLやリアル タイム処理のニーズのために、Linux上でHadoopクラスターに加えてHBase (英語 / 日本語 / 日本語)Strom (英語 / 日本語 / 日本語) のクラスターを作成できるようになりました。

クラスターの作成

Azure管理ポータルの「データ + 分析」セクションで、Linuxを使って実行されるHDInsightクラスターを簡単に作成できるようになりました。「クラスターのオペレーティング システム」ドロップ ダウンでUbuntuを選択し、オプションとして作成したい「クラスターの種類」を選択するだけです (基礎のHadoop、および、Storm、Spark、HBaseなどが事前構成されたクラスターをサポートしています)。

image

Apache Ambariで、すべてのHDInsight Linuxクラスターを管理できます。Ambariは、Hadoopクラスターの構成設定をカスタマイズする機能、クラスターのパフォーマンスや状態の統合ビュー、HDInsightクラスターの監視とアラートを提供します。

image

追加のアプリケーションやHadoopコンポーネントのインストール

既定のHDInsightのデプロイに含まれていない追加のアプリケーションやHadoopコンポーネントをインストールすることで、HDInsight Windowsクラスターと同様に、Linuxクラスターをカスタマイズできるようになりました。スクリプト アクション (英語 / 日本語) 機能でBashスクリプトを使って、これを実現できます。例として、HDInsight LinuxクラスターにHueをインストールし (英語 / 日本語)、自分のワークロードで簡単にHueを使えるようになりました:

image

使い慣れたツールを使った開発

すべてのHDInsight Linuxクラスターで、既定でSSH接続が有効化されています。好みのSSHクライアントでクラスターに接続できます。さらに、ブラウザーからすべてのHadoop Webアプリケーションにリモート接続するために、SSHトンネリングを活用できます。

image

新しいAzure Data Lakeサービスと言語

我々は、慈善事業への寄付を増やすためのソーシャル グラフの分析放射線被曝の分析 (英語 / 日本語)、公益事業の顧客が毎月の料金を最適化する方法をシミュレーションするための数千のデバイスからの信号の使用といった、
Azureでビッグ データの驚くべきシナリオを可能にするお客様を見続けています。こういった使用事例や他の使用事例は、さらに多くのデータがAzureに収集されることを引き起こします。このようなデータのすべてに深くのめり込み、さまざまな方法でデータを分析するために、ビッグ データを簡単にする3つのサービスであるAzure Data Lake機能を使えるようになりました。

Azure Data Lakeファミリーの最初のサービスは、現在利用可能です。これは、洞察を見つけることに焦点を合わせ、クラスターを管理しなければならないことに時間を費やさなくてもよくする、Hadoopのマネージド サービスであるAzure HDInsightです。HDInsightによって、Linux、またはWindows上で稼働し、99.9%のSLAでMicrosoftが管理、監視、サポートするHadoop、Spark、Storm、HBaseのクラスターをデプロイできます。

次に紹介する他の2つのサービス、Azure Data Lake StoreとAzure Data Lake Analyticsは、現在、プライベート プレビューで利用可能であり、近いうちにパブリック プレビューとして幅広く利用可能になる予定です。

Azure Data Lake Store

Azure Data Lake Storeは、特にクラウドでのビッグ データ分析のワークロードのために設計された、ハイパー スケールのHDFS (Hadoop Distributed File System)リポジトリです。Azure Data Lake Storeは、あらゆる種類、サイズのデータを格納し、あらゆるスケールでそのデータを分析できるようにすることで、量、多様性、速度というビッグ データの課題を解決します。Azure Data Lake Storeは、IoT (Internet of Things) や巨大データ量に対するスループット集約型の分析といった、準リアル タイムのシナリオをサポートできます。また、Azure Data Lake Storeは、スキーマの事前定義や複数のデータのサイロの作成といった、従来型の分析インフラを制約する制限の多くを取り除くことで、多様な計算ワークロードをサポートします。データがAzure Data Lake Storeに配置されれば、Azure HDInsightなどのHadoopベースのエンジンは、新たな洞察を発見するために、そのデータを簡単にマイニングできます。

Azure Data Lake Storeの主要な機能は、次の通りです:

  • あらゆるデータ: データをそのネイティブ フォーマットで格納できる、分散ファイル ストア。Azure Data Lake Storeは、データを格納するために、変換したりスキーマを事前定義したりする必要をなくします。
  • あらゆるサイズ: Azure Data Lake Storeには、ファイルやアカウントのサイズに固定の上限がなく、KB (キロバイト) からEB (エクサバイト) までのデータを格納でき、即座に読み書きアクセスできます。
  • あらゆるスケール: EB (エクサバイト) のデータを分析するために必要となる高いスループットといった、分析システムの要求を満たすために、スループットをスケールできます。加えて、Azure Data Lake Storeは、低いレイテンシで大量の小さい書き込みを処理するために構築されており、Webサイト分析やIoT (Internet of Things) といった、準リアル タイムのシナリオに最適です。
  • HDFS準拠: Azure Data Lake Storeは、HDInsightなどの他のAzure Data Lakeサービスを含む、Hadoopエコシステムとともに追加設定なしで動作します。
  • Azure Active Directoryとの完全な統合: Azure Data Lake Storeは、すべてのデータに対するID/アクセス管理のために、Azure Active Directoryと統合されています。

Azure Data Lake AnalyticsとU-SQL

新しいAzure Data Lake Analyticsサービスによって、ビッグ データのジョブを作成、管理するのがずっと簡単になります。YARN (Yet Another Resource Negotiator) と、Office 365、XBox Live、Windows、Bing向けの分析パイプラインを実行する長年の経験の上に構築されたAzure Data Lake Analyticsサービスは、ビッグ データから洞察を得るための最も生産性の高い方法です。Azure管理ポータルで作業を開始し、BLOBストレージ、Azure Data Lake Store、Azure SQL Databaseのデータにわたってクエリできます。スライダーを移動するだけで、データ変換ジョブを実行したいコンピューティング パワーにスケール アップできます。

image

本日、使い慣れたSQL構文の進化にあたる、Azure Data Lake Analyticsサービスの新しいU-SQL機能 (英語 / 日本語) を導入します。U-SQLによって、宣言的にビッグ データのジョブを書き、ジョブの一部として独自のユーザー コードを含めることができます。Microsoft内部では、多数のEB (エクサバイト) 規模の巨大データ セットの操作の際に高い生産性を実現し、ミッション クリティカルなデータ パイプラインを処理するために、開発者はこの組み合わせを使ってきました。Azure管理ポータルで使いやすいエクスペリエンスを提供することに加えて、U-SQLジョブのデバッグと最適化のための高度な一連のVisual Studioツールを提供します。これによって、自分が必要とするリソースに対してだけ料金を払い、継続的に自分の操作をチューニングできるように、ビッグ データのジョブを再生、分析し、パフォーマンスと効率性を改善するためにボトルネックと機会を理解できます。

image

さらに学ぶ

さらなる情報と作業の開始については、次のリンクを確認してください:

関連情報

One thought on “Linux上のHDInsightのGA (一般提供) と、新しいData Lakeサービスと言語を発表

Leave a comment