JFKファイルを探索するためにAzureとAIを活用 (Using Azure and AI to Explore the JFK Files)

Posted: 2018/02/17 カテゴリー: Uncategorized
タグ:, , , , , , , , , , , ,

このポストは、Corom Thompson (MicrosoftのPrincipal Software Engineer) によるものです。

1963年11月22日に、米国大統領のジョン・F・ケネディが暗殺されました。彼は、パレードでダラスの道路を車で走っている時に、単独の武装犯人リー・ハーヴェイ・オズワルドによって狙撃されました。この暗殺は多くの論争の的となったので、25年前 (1992年) に制定された法律で、この暗殺に関連するすべての文書を今年 (2017年) に公開することが命じられました。最初に公開された一連のファイルは6,000以上の文書であり、合計で34,000ページもありました。最後に公開されたファイルには、少なくともその2倍の文書が含まれていました。

我々は皆、その中に何があるか知りたいと思っていますが、すべてを読むには数十年かかるでしょう。我々は、この大量の文書から知識を抽出するために、Azure SearchとMicrosoft Cognitive Servicesを使うことで、未加工の文書を投入し、基になるデータを探索できるように、それを構造化情報に強化するという継続的プロセスを使って、洞察を得るというこの問題に取り組みました。

本日、Microsoft Connect(); 2017イベントで、図1に示した我々はデモWebサイト * を作成しました。これは、AzSearch.jsライブラリを使うWebアプリケーションであり、この莫大な情報についての興味深い洞察を得られるように設計されています。

図1 - 公開されたファイルを探索するために、JFKファイル Webアプリケーション

図1 – 公開されたファイルを探索するために、JFKファイル Webアプリケーション

左側では、文書から抽出されたエンティティによって、文書が分類されていることが分かります。これらの文書がJFK、CIA、FBIに関連していることを、我々はすでに知っています。OCR (光学文字認識)、コンピューター ビジョン、カスタム エンティティ リンキングといった、いくつかのMicrosoft Cognitive Servicesの活用して、我々は、検索可能なタグ インデックスを作成するために、すべての文書に注釈を付けることができました。

また、我々は、様々なタグやデータの間の関係を示すために、これらのリンクされたエンティティのビジュアル マップも作成することができました。図2は、このインデックスを「Oswald」(オズワルド) で検索した時の視覚化です。

図2 - 検索語「Oswald」での、エンティティがリンクされたタグのマッピングの視覚化

図2 – 検索語「Oswald」での、エンティティがリンクされたタグのマッピングの視覚化

さらなる調査とリンキングを通して、我々は、Microsoft Cognitive Servicesのエンティティ リンキングがウィキペディアとの関連で「Oswald」に注釈を付けたことも確認できました。そして、我々は、文書の中で特定された「Nosenko」(ノセンコ) が、実はCIAによって尋問されたKGBからの亡命者であり、実際の尋問の音声テープがあることを、迅速に把握できました。人がこの関連を見つけ出すには何年もかかるでしょうが、我々は、Azure Search、Microsoft Cognitive Servicesのおかげで、数分で見つけ出すことができました。

我々が学んだもう1つの面白い事実は、図3のアーキテクチャ図にあるように、1997年に、政府がこれらの文書を管理するために、SQL Serverとセキュアなアーキテクチャを使っていた、ということです。

図3 - これらの文書を管理するためにSQL Serverが使われていたことを示す、1997年のアーキテクチャ図

図3 – これらの文書を管理するためにSQL Serverが使われていたことを示す、1997年のアーキテクチャ図

我々は、この新しいAIを使ったアプローチが、どのようにデータのオーケストレーションを行い、データから洞察を引き出すかを示すために、独自のアーキテクチャ図を作成しました。図4をご覧ください。

これは、洞察力のあるWebアプリを作成すべく、最新で最高のAzureを使った開発者ツールを適用するために我々が使った、最新のアーキテクチャです。図4は、54年前と同じスタイルを使って、このアーキテクチャを示しています。

図4 - Azure SearchとMicrosoft Cognitive Servicesの最新のアーキテクチャ

図4 – Azure SearchとMicrosoft Cognitive Servicesの最新のアーキテクチャ

我々は、近いうちに、このコード、このソリューションの構築方法のチュートリアルを公開する予定です。このブログ ポストに追加される、さらなるアップデートとリンクに注目していてください。

元のブログ ポストへのアップデート: GitHubでコードを入手可能です

また、アプリケーションのオンライン バージョン * にアクセスし、独自の洞察を引き出すことができます!

Corom

* 使い始めるには、デモ サイト上部の検索バーにキーワード、たとえば「Oswald」を入力してみてください。


1992年、ジョージ・H・W・ブッシュ大統領は、25年以内に暗殺関連の機密文書を全面公開することを義務付ける法律に署名。その後、2017年にドナルド・トランプ大統領は当初は機密保持の延長をしないことを表明していたが、CIA等が公開延期を求めた一部の資料についての公開を180日後まで保留、法律の期限切れとなる10月26日に機密資料2891点が公開された[69]。

Channel 9 > Using Cognitive Search to Understand the JFK Documents (Microsoft Connect(); 2017)

広告
コメント
  1. […] translation – S/N Ratio (by SATO Naoki (Neo)) > JFKファイルを探索するためにAzureとAIを活用 (Using Azure and AI to Explore the JFK Files)https://satonaoki.wordpress.com/2018/02/17/gain-insights-into-the-jfk-files-with-azure-search-and-co… […]

  2. […] JFKファイルを探索するためにAzureとAIを活用 (Using Azure and AI to Explore the JFK&nb… 2018/02/17 […]

  3. […] JFKファイルを探索するためにAzureとAIを活用 (Using Azure and AI to Explore the JFK Fi… […]

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト /  変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト /  変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト /  変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト /  変更 )

%s と連携中