Linux上のHDInsightのGA (一般提供) と、新しいData Lakeサービスと言語を発表

本日、Linux上のHDInsightのGA (一般提供) や新しいAzure Data Lakeと言語サービスの導入といった、Azureのビッグデータサービスへのいくつかの主要機能の追加を発表できて、嬉しく思います。

Linux上のHDInsightのGA (一般提供)

本日、Ubuntu Linux上のHDInsightサービスのGA (一般提供) を発表します。HDInsightによって、クラウドでマネージドなHadoopクラスターを簡単に実行できます。本日のリリースでは、Windows Server、UbuntuベースのLinuxの両方のOSを使って、クラスターを実行するように構成できるようになりました。

Linux上のHDInsightは、Hadoopエコシステムパートナー (英語 / 日本語) によるHDInsightのさらに幅広いサポートを可能にし、Hadoopワークロードを実行するための好みのツールやアプリケーションについて、より多くの選択肢を提供します。HDInsightのLinux、Windowsのクラスターは、同じ標準的なHadoopディストリビューション上に構築されており、同じ一連の高度な機能を提供します。

また、本日の新リリースは、クラスターのスケーリング (英語 / 日本語)、仮想ネットワークの統合 (英語 / 日本語)、スクリプトアクションのサポート (英語 / 日本語) といった追加機能に対応します。さらに、IoTアプリケーション構築 (英語 / 日本語 / 日本語) などのNoSQLやリアルタイム処理のニーズのために、Linux上でHadoopクラスターに加えてHBase (英語 / 日本語 / 日本語) やStrom (英語 / 日本語 / 日本語) のクラスターを作成できるようになりました。

クラスターの作成

Azure管理ポータルの「データ + 分析」セクションで、Linuxを使って実行されるHDInsightクラスターを簡単に作成できるようになりました。「クラスターのオペレーティングシステム」ドロップダウンでUbuntuを選択し、オプションとして作成したい「クラスターの種類」を選択するだけです (基礎のHadoop、および、Storm、Spark、HBaseなどが事前構成されたクラスターをサポートしています)。

Apache Ambariで、すべてのHDInsight Linuxクラスターを管理できます。Ambariは、Hadoopクラスターの構成設定をカスタマイズする機能、クラスターのパフォーマンスや状態の統合ビュー、HDInsightクラスターの監視とアラートを提供します。

追加のアプリケーションやHadoopコンポーネントのインストール

既定のHDInsightのデプロイに含まれていない追加のアプリケーションやHadoopコンポーネントをインストールすることで、HDInsight Windowsクラスターと同様に、Linuxクラスターをカスタマイズできるようになりました。スクリプトアクション (英語 / 日本語) 機能でBashスクリプトを使って、これを実現できます。例として、HDInsight LinuxクラスターにHueをインストールし (英語 / 日本語)、自分のワークロードで簡単にHueを使えるようになりました:

使い慣れたツールを使った開発

すべてのHDInsight Linuxクラスターで、既定でSSH接続が有効化されています。好みのSSHクライアントでクラスターに接続できます。さらに、ブラウザーからすべてのHadoop Webアプリケーションにリモート接続するために、SSHトンネリングを活用できます。

新しいAzure Data Lakeサービスと言語

我々は、慈善事業への寄付を増やすためのソーシャルグラフの分析、放射線被曝の分析 (英語 / 日本語)、公益事業の顧客が毎月の料金を最適化する方法をシミュレーションするための数千のデバイスからの信号の使用といった、
Azureでビッグデータの驚くべきシナリオを可能にするお客様を見続けています。こういった使用事例や他の使用事例は、さらに多くのデータがAzureに収集されることを引き起こします。このようなデータのすべてに深くのめり込み、さまざまな方法でデータを分析するために、ビッグデータを簡単にする3つのサービスであるAzure Data Lake機能を使えるようになりました。

Azure Data Lakeファミリーの最初のサービスは、現在利用可能です。これは、洞察を見つけることに焦点を合わせ、クラスターを管理しなければならないことに時間を費やさなくてもよくする、HadoopのマネージドサービスであるAzure HDInsightです。HDInsightによって、Linux、またはWindows上で稼働し、99.9%のSLAでMicrosoftが管理、監視、サポートするHadoop、Spark、Storm、HBaseのクラスターをデプロイできます。

次に紹介する他の2つのサービス、Azure Data Lake StoreとAzure Data Lake Analyticsは、現在、プライベートプレビューで利用可能であり、近いうちにパブリックプレビューとして幅広く利用可能になる予定です。

Azure Data Lake Store

Azure Data Lake Storeは、特にクラウドでのビッグデータ分析のワークロードのために設計された、ハイパースケールのHDFS (Hadoop Distributed File System)リポジトリです。Azure Data Lake Storeは、あらゆる種類、サイズのデータを格納し、あらゆるスケールでそのデータを分析できるようにすることで、量、多様性、速度というビッグデータの課題を解決します。Azure Data Lake Storeは、IoT (Internet of Things) や巨大データ量に対するスループット集約型の分析といった、準リアルタイムのシナリオをサポートできます。また、Azure Data Lake Storeは、スキーマの事前定義や複数のデータのサイロの作成といった、従来型の分析インフラを制約する制限の多くを取り除くことで、多様な計算ワークロードをサポートします。データがAzure Data Lake Storeに配置されれば、Azure HDInsightなどのHadoopベースのエンジンは、新たな洞察を発見するために、そのデータを簡単にマイニングできます。

Azure Data Lake Storeの主要な機能は、次の通りです:

あらゆるデータ: データをそのネイティブフォーマットで格納できる、分散ファイルストア。Azure Data Lake Storeは、データを格納するために、変換したりスキーマを事前定義したりする必要をなくします。
あらゆるサイズ: Azure Data Lake Storeには、ファイルやアカウントのサイズに固定の上限がなく、KB (キロバイト) からEB (エクサバイト) までのデータを格納でき、即座に読み書きアクセスできます。
あらゆるスケール: EB (エクサバイト) のデータを分析するために必要となる高いスループットといった、分析システムの要求を満たすために、スループットをスケールできます。加えて、Azure Data Lake Storeは、低いレイテンシで大量の小さい書き込みを処理するために構築されており、Webサイト分析やIoT (Internet of Things) といった、準リアルタイムのシナリオに最適です。
HDFS準拠: Azure Data Lake Storeは、HDInsightなどの他のAzure Data Lakeサービスを含む、Hadoopエコシステムとともに追加設定なしで動作します。
Azure Active Directoryとの完全な統合: Azure Data Lake Storeは、すべてのデータに対するID/アクセス管理のために、Azure Active Directoryと統合されています。

Azure Data Lake AnalyticsとU-SQL

新しいAzure Data Lake Analyticsサービスによって、ビッグデータのジョブを作成、管理するのがずっと簡単になります。YARN (Yet Another Resource Negotiator) と、Office 365、XBox Live、Windows、Bing向けの分析パイプラインを実行する長年の経験の上に構築されたAzure Data Lake Analyticsサービスは、ビッグデータから洞察を得るための最も生産性の高い方法です。Azure管理ポータルで作業を開始し、BLOBストレージ、Azure Data Lake Store、Azure SQL Databaseのデータにわたってクエリできます。スライダーを移動するだけで、データ変換ジョブを実行したいコンピューティングパワーにスケールアップできます。

本日、使い慣れたSQL構文の進化にあたる、Azure Data Lake Analyticsサービスの新しいU-SQL機能 (英語 / 日本語) を導入します。U-SQLによって、宣言的にビッグデータのジョブを書き、ジョブの一部として独自のユーザーコードを含めることができます。Microsoft内部では、多数のEB (エクサバイト) 規模の巨大データセットの操作の際に高い生産性を実現し、ミッションクリティカルなデータパイプラインを処理するために、開発者はこの組み合わせを使ってきました。Azure管理ポータルで使いやすいエクスペリエンスを提供することに加えて、U-SQLジョブのデバッグと最適化のための高度な一連のVisual Studioツールを提供します。これによって、自分が必要とするリソースに対してだけ料金を払い、継続的に自分の操作をチューニングできるように、ビッグデータのジョブを再生、分析し、パフォーマンスと効率性を改善するためにボトルネックと機会を理解できます。

さらに学ぶ

さらなる情報と作業の開始については、次のリンクを確認してください:

Linux上のHDInsightのGA (一般提供) と、新しいData Lakeサービスと言語を発表