チュートリアル: Transact-SQL を使用して SQL Server のデータプールにデータを取り込む

2019-08-21

適用対象: SQL Server 2019 (15.x)

Important

Microsoft SQL Server 2019 ビッグデータクラスターは廃止されました。 SQL Server 2019 ビッグデータクラスターのサポートは、2025 年 2 月 28 日の時点で終了しました。詳細については、Microsoft SQL Server プラットフォームの発表ブログ投稿とビッグデータオプションを参照してください。

このチュートリアルでは、Transact-SQL を使用して SQL Server 2019 ビッグデータクラスターのデータプールにデータを取り込む方法について説明します。 SQL Server ビッグデータクラスターを使用すると、さまざまなソースからデータを取り込み、それをデータプールのインスタンス間で分散することができます。

このチュートリアルでは、以下の内容を学習します。

データプールに外部テーブルを作成する
サンプルの Web クリックストリームデータをデータプールテーブルに挿入する。
データプールテーブルのデータをローカルテーブルと結合する。

Tip

必要に応じて、このチュートリアルのコマンド用のスクリプトをダウンロードして実行できます。手順については、GitHub のデータプールのサンプルを参照してください。

Prerequisites

ビッグデータツール
- kubectl
- Azure Data Studio
- SQL Server 2019 の拡張機能
ビッグデータクラスターにサンプルデータを読み込む

データプールに外部テーブルを作成する

次の手順では、web_clickstream_clicks_data_pool という名前のデータプールに外部テーブルを作成します。このテーブルは、ビッグデータクラスターにデータを取り込むための場所として使用できます。

Azure Data Studio で、ビッグデータクラスターの SQL Server マスターインスタンスに接続します。詳細については、「SQL Server マスターインスタンスに接続する」を参照してください。
[サーバー] ウィンドウで接続をダブルクリックして、SQL Server マスターインスタンスのサーバーダッシュボードを表示します。 [New Query] を選択します。
次の Transact-SQL コマンドを実行し、マスターインスタンスの Sales データベースにコンテキストを変更します。
```
USE Sales
GO
```

まだ存在しない場合は、データプールへの外部データソースを作成します。

IF NOT EXISTS(SELECT * FROM sys.external_data_sources WHERE name = 'SqlDataPool')
  CREATE EXTERNAL DATA SOURCE SqlDataPool
  WITH (LOCATION = 'sqldatapool://controller-svc/default');

データプールで、web_clickstream_clicks_data_pool という名前の外部テーブルを作成します。

IF NOT EXISTS(SELECT * FROM sys.external_tables WHERE name = 'web_clickstream_clicks_data_pool')
   CREATE EXTERNAL TABLE [web_clickstream_clicks_data_pool]
   ("wcs_user_sk" BIGINT , "i_category_id" BIGINT , "clicks" BIGINT)
   WITH
   (
      DATA_SOURCE = SqlDataPool,
      DISTRIBUTION = ROUND_ROBIN
   );

データプールの外部テーブルの作成は、ブロッキング操作です。指定したテーブルがすべてのバックエンドデータプールノードで作成されると、制御が戻ります。作成操作中にエラーが発生した場合、エラーメッセージが呼び出し元に返されます。

Load data

次の手順では、前の手順で作成した外部テーブルを使用して、サンプルの Web クリックストリームデータをデータプールに取り込みます。

INSERT INTO ステートメントを使用して、クエリの結果をデータプール (web_clickstream_clicks_data_pool 外部テーブル) に挿入します。

INSERT INTO web_clickstream_clicks_data_pool
SELECT wcs_user_sk, i_category_id, COUNT_BIG(*) as clicks
  FROM sales.dbo.web_clickstreams_hdfs
INNER JOIN sales.dbo.item it ON (wcs_item_sk = i_item_sk
                        AND wcs_user_sk IS NOT NULL)
GROUP BY wcs_user_sk, i_category_id
HAVING COUNT_BIG(*) > 100;

2 つの SELECT クエリを使用して、挿入されたデータを検査します。

SELECT count(*) FROM [dbo].[web_clickstream_clicks_data_pool]
SELECT TOP 10 * FROM [dbo].[web_clickstream_clicks_data_pool]

データにクエリを実行する

データプールのクエリから格納された結果を、Sales テーブルのローカルデータと結合します。

SELECT TOP (100)
   w.wcs_user_sk,
   SUM( CASE WHEN i.i_category = 'Books' THEN 1 ELSE 0 END) AS book_category_clicks,
   SUM( CASE WHEN w.i_category_id = 1 THEN 1 ELSE 0 END) AS [Home & Kitchen],
   SUM( CASE WHEN w.i_category_id = 2 THEN 1 ELSE 0 END) AS [Music],
   SUM( CASE WHEN w.i_category_id = 3 THEN 1 ELSE 0 END) AS [Books],
   SUM( CASE WHEN w.i_category_id = 4 THEN 1 ELSE 0 END) AS [Clothing & Accessories],
   SUM( CASE WHEN w.i_category_id = 5 THEN 1 ELSE 0 END) AS [Electronics],
   SUM( CASE WHEN w.i_category_id = 6 THEN 1 ELSE 0 END) AS [Tools & Home Improvement],
   SUM( CASE WHEN w.i_category_id = 7 THEN 1 ELSE 0 END) AS [Toys & Games],
   SUM( CASE WHEN w.i_category_id = 8 THEN 1 ELSE 0 END) AS [Movies & TV],
   SUM( CASE WHEN w.i_category_id = 9 THEN 1 ELSE 0 END) AS [Sports & Outdoors]
FROM [dbo].[web_clickstream_clicks_data_pool] as w
INNER JOIN (SELECT DISTINCT i_category_id, i_category FROM item) as i
   ON i.i_category_id = w.i_category_id
GROUP BY w.wcs_user_sk;

Clean up

このチュートリアルで作成されたデータベースオブジェクトを削除するには、次のコマンドを使用します。

DROP EXTERNAL TABLE [dbo].[web_clickstream_clicks_data_pool];

Next steps

Spark ジョブを使用してデータプールにデータを取り込む方法について説明します。

Spark ジョブを使用してデータを取り込む

次の方法で共有

チュートリアル: Transact-SQL を使用して SQL Server のデータ プールにデータを取り込む