こんにちは。Azure Data Catalogというサービスはご存知ですか?Azure Data Catalogは、組織で持つデータをカタログ化することにより、みんなでデータを有効利用することを進めるサービスです。今回はAzure Data Catalogを触ってみましたので紹介します。
1. カタログの設定
カタログを初めて使う場合は、カタログの設定から始まります。まず、下記のURLにアクセスしてください。組織アカウントでログインします。(マイクロソフトアカウントではカタログ利用できませんでした)
http://www.azuredatacatalog.com/
まず、カタログ名、サブスクリプション、ロケーションを設定します。
エディションを選択して、組織アカウントでユーザと管理者を追加します。その後、カタログの作成をクリック。
2. データのパブリッシュ
カタログが作成されたら、右上にあるパブリッシュをクリックして、データをパブリッシュします。アプリケーションを使用してデータを追加するか、マニュアルで追加するか選びます。
今回はアプリケーションを使用したデータ追加を試します。クリックするとアプリケーションのインストールが開始されます。
アプリケーションが起動した後、同じ組織アカウントでサインインします。
2-1. SQLデータをパブリッシュ
サインするとデータソースを選択する画面になります。初めはSQLのデータを追加してみます。
Connection Test Failedのメッセージが出たら、SQLサーバのファイアウォール設定を確認します。クライアントからの接続を許可します。
SQLサーバに接続できると、テーブルを選択する画面になります。右下のプレビューを含めるにチェックを入れるとAzure Data CatalogのDiscover画面でデータをプレビューできるようになります。選択したら登録ボタンをクリック
2-2. Storage Blobオブジェクトをパブリッシュ
次は、Storage Blobのデータをパブリッシュします。Storage Blobのアカウントとアクセスキーを入力します。
オブジェクトを選択します。Storage Blobはプレビューが無いみたいですね。
3. Discoverでデータを探す
パブリッシュされたデータは、Discoverで探すことや確認することができます。検索は左側の検索ボックスや、フィルターのチェックボックスrを使用します。また、このDiscoverでは、どのようなデータが入っているかわかりやすくるために、説明やタグを設定することができます。これらのプロパティ情報は左側の検索ボックスやフィルターで利用されます。
複数のデータソースが登録されていても検索で探すことができます。
3-1. どのようなデータか確認してみる
データソースを追加する際に利用したプレビューチェックにより、どのようなデータが入っているか、テーブルのレコードを確認することができます。
カラム内容も確認することができます。カラムの説明も入力することができます。
3-2. データのアクセス方法の提示
データカタログは、組織が持つデータを組織内のユーザに提供するためのカタログを提供しますが、データソースへのアクセス方法も提示することが可能です。アクセスを管理している担当者のメールアドレスであったり、データ利用のためのプロセスの手順書などを、データプロパティ内Request Accessに記載します。
4. さいごに
いつでもデータを引き出せるように、みんなでデータソースのカタログを作ると便利になりますね。地味なサービスですが、組織内で持つデータの有効活用には必要なサービスですね。