Microsoftが、Spark for Azure HDInsightのリリースでビッグ データの対話型分析を提供

Posted: 2015/07/28 カテゴリー: Uncategorized
タグ:, , , , , , , ,

本日、Apache Spark for Azure HDInsightのパブリック プレビューが利用可能になったことを発表 (英語 / 日本語) できて、嬉しく思います。Apache Sparkは、Apacheエコシステムの人気が高まりつつあるオープン ソース プロジェクトです。このポストでは、この新サービスを詳しく紹介します。

Apache Sparkとは?

Apache Spark (英語 / 日本語) は、大規模データ分析アプリケーションをイン メモリで実行する、オープン ソースの処理フレームワークです。これによって、Sparkは、Azure Storageに格納されたデータに対するETL (抽出/変換/ロード) 処理、バッチ クエリ、対話型クエリ、リアル タイム ストリーミング、機械学習、グラフ処理といった多様なタスクのための共通実行モデルとともに、従来型のビッグ データ ソリューションに比べ最大100倍高速なクエリを提供できます。

image

Spark向けのMicrosoftのサービスとは?

Microsoftは、ビッグ データを簡単でより親しみやすいものにするための旅の途中です。本日、Microsoftは、Apache Spark for Azure HDInsightが利用可能になったことを発表することで、Azureのビッグ データ サービスを拡張します。HDInsightは、Sparkでのタスクのデプロイ、管理、実行に関連する重労働のほとんどを取り除くので、クラウドでビッグ データを処理することの意味のレベルを引き上げます。

お客様にとって、Sparkが状況を一変させられる3つのシナリオがあります:

  1. BIツールやオープン ソースのノートブックを使った、Hadoopでのビッグ データに対する対話型クエリの実行
  2. IoTやリアル タイム アプリケーション向けのストリーミング ソリューションの作成
  3. 自分の分析の結果を予測できるための、機械学習アルゴリズムの使用

BIツールやオープン ソース ノートブックを使った、ビッグ データに対する対話型クエリ

多様なソースからますます多くのデータが収集されるにつれて、企業は自社のビジネスに関する深い分析を行いたいと思っています。しかし、既存のビッグ データ テクノロジで欠けている1つの領域は、アナリストやデータ サイエンティストが、巨大なデータ セットに対してBIモデルやレポート対話的に探索、構築することです。Spark for HDInsightのリリースによって、アナリストやBIのプロは、好みのBIツールやオープン ソースのノートブックを使って、巨大な非構造化データを分析し、レポートを構築できます。

Power BIの使用

Sparkが利用可能になったことに加え、すぐに使えるSparkコネクターが含まれているPower BIが、7/24にGA (一般提供) になることも発表します。Power BIは、より早く、より効率的に、より深い理解で、誰もがデータを可視化、分析しできるようにする、クラウド ベースのビジネス分析サービスです。ユーザーは、Azure Storage内の非構造化/準構造化データから始め、Azure HDInsight上のノートブックを使ってデータをスキーマ化し、Microsoft Power BIを使ってデータ モデルを構築できます。Power BIのレポートは、自動リフレッシュ機能によって最新の状態に保たれます。

image

好みのBIツールの使用

また、Spark for Azure HDInsightは、他のBI/可視化ツールへの組み込みの接続性を提供しています。我々は、Tableau (英語 / 日本語)SAP (英語 / 日本語)、Qlikといった多数のサード パーティーのBIツール ベンダーと提携しています。各企業は、Spark for Azure HDInsightをサポートするようになった、一連の高度な可視化/レポート構築機能を提供しています。お客様は、HDInsightサービス内の任意のSparkクラスターに接続し、数TBのデータを視覚的に探索するために、Sparkの対話型クエリ機能を使えます。

image

オープン ソースのノートブックの使用

また、Spark for Azure HDInsight内のデータを可視化するために、ノートブックも使えます。ノートブックは、生のコード、統計式、説明文、可視化を組み合わせる機能をデータ サイエンティストに与える、オープン ソースのツールです。人気の高いノートブックであるJupyter (IPython)、Zeppelinが、Spark for Azure HDInsightで動作するようにしました。Jupyterは、標準のIPythonライブラリに同梱されており、Pythonでコーディングする人に最適です。Zeppelinは、Spark SQLとMarkdownもサポートしていますが、Scalaで書く人に最適です。

image

IoTやリアル タイム アプリケーション向けのストリーミング ソリューションの構築

また、Sparkは、バッチ クエリや対話型クエリを超えて、不正検出、クリック ストリーム分析、金融警告、接続済みセンサー/デバイス (IoT) からのテレメトリといった課題を解決できる、リアル タイム ソリューションの構築にも最適です。Spark for Azure HDInsightを使っているお客様は、データをSparkに投入し準リアル タイムで処理するために、Azure Event Hubsとの統合機能をすぐに使えます。結合やウィンドウといったストリーミング関数で表現された複雑なアルゴリズムを書くために、SparkストリーミングAPIを使えます。これによって、共通の実行モデルを使ってバッチ/対話型クエリとストリーミング関数の両方を処理する機能に関して、Sparkは独特なものになります。最後に、Kafka、Flume、Twitter、ZeroMQ、TCPソケットといった他のソースから、データを投入することもできます。お客様は、オープン ソースのApacheディストリビューションで、これらのコネクターを見つけられます。

分析で結果を予測するための、機械学習アルゴリズムの使用

お客様は、SparkでSpark MLibも使えます。これは、分類、回帰、クラスタリング、協調フィルタリング、次元削減や、基になる最適化といった、一般的な学習アルゴリズムとユーティリティで構成されるスケーラブルな機械学習ライブラリです。これによって、お客様は、自分のアプリケーションに予測分析機能を組み込めるようになります。機械学習ソリューションをさらに構築したいお客様にとっては、使いやすいエクスペリエンスと数分でMLモデルをフル マネージドのWebサービスとしてデプロイできる機能を持つAzure Machine Learning (英語 / 日本語) も、理想的なソリューションです。

Sparkを実行するために、なぜMicrosoftを選ぶのか?

Apacheエコシステムのオープン ソース プロジェクトであるSparkは人気を得つつあり、Sparkをサポートする多数のさまざまな機能があります。Microsoftは、ユーザーに最高のエクスペリエンスを提供し、エンド ユーザーを第一にし、ミッション クリティカル アプリケーション向けにSparkを堅牢にし、Sparkのデプロイを簡単にすることで、Sparkに大きな賭けをしてきています。

  • エンタープライズのミッション クリティカル配置のための、Sparkの堅牢化: SparkをAzureと統合することで、Sparkがミッション クリティカルな配置の要求を満たす準備ができるようにします。Azureは、継続性と障害に対する保護を確かにするために、GA (一般提供) 時には99.9%のSLAでSparkを実行できることを保証します。お客様は、Sparkが常に稼働するようにするための24/7のエンタープライズ サポートとクラスター監視によって、安心できます。また、並行クエリといった、オープン ソースのSparkでは利用できないプレミアム機能を有効化しました。これによって、1人からの複数のクエリや、さまざまなユーザーやアプリからの複数のクエリが、同じクラスターのリソースを共有できるようになります。最後に、メタデータ内容のすべてを外部化し、自分のノートブックを保存できるようにし、Sparkクラスターをステートレスに極めて近い状態にします。これによって、クラスターを削除、再作成し、中断したところから再開できるようになります。
  • デプロイの簡単さ: Spark for HDInsightでは、時間のかかるインストールや設定は不要です。あなたに代わって、Azureがそれを行います。新しいハードウェアや初期費用なしに、数分でSparkをデプロイできます。スケールする必要があれば、Azureでは、オン デマンドでビッグ データを処理するために、任意のサイズのより大きなクラスターを作成できます。選ぶのはあなたです。大量のSSDを活用するVMタイプや大量のRAMを持つVMタイプを選択できます。Sparkの実行時に、メモリー、またはSSDにデータをキャッシュできます。これによって、特定のワークロード向けに最適化するために、多様なアプリ内のリソースを簡単に調整できます。

作業を開始するには?

作業を開始するには、お客様はAzureサブスクリプション、またはAzureの無料評価版を持っている必要があります。これを持っていれば、この作業の開始ガイド (英語 / 日本語 / 日本語) に従うことで、Sparkクラスターを数分で稼働できるはずです。また、次のChannel 9にあるAzure Fridayのビデオもご覧ください:

image

概要

ドキュメントとハウツー

さらなるリソース

関連情報

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中