ニュース&ブログ
【Microsoft Fabric】データを加工して可視化してみた
この記事は最終更新から1年以上経過しています。内容が古くなっている可能性があります。
投稿日:2023/12/5
本記事の概要
Microsoft Fabric(以下 Fabric)はデータ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンスまでのすべてをカバーする企業向けのオールインワン分析ソリューションです。
具体的にどのようなサービスなのかは、Microsoftの公式サイトや、こちらの記事をご参照ください。
過去の記事ではデータソースからLakehouse内にデータを取り込む手順や、ショートカットを作成する手順をご紹介しておりました。
本記事ではFabricのData Factoryの機能であるデータパイプラインを使用し、Lakehouse内のcsvファイルをDWHに取り込み、変換処理を行い、DWH内の別テーブルにデータを書き出した後に可視化するまでのプロセスを検証したいと思います。
検証内容と構成図
アクティビティで個別に管理することなく、抽出、変換、書き出し (ETL)として管理できます。今回は下記手順の①と②まではパイプランで行い、最終的には③でPower BIを使用して可視化してみたいと思います。
※データパイプラインの詳細は別記事でご紹介いたします。
①Lakehouse内のFilesに存在するcsvファイルをSynapse Data Warehouse(以下 DWH)のテーブルとして取り込む
②DWHに取り込んだテーブルに対して変換処理を行い、別テーブルにデータをINSERTする
③変換処理後のデータをPower BIで可視化する

DWHと変換処理後のデータを格納するテーブルの作成
Fabricの画面左下のアイコンから[Data Warehouse]をクリックします。
下記画面に遷移しますので、[ウェハウス]をクリックし新しいDWHを作成しましょう。
今回は【test_dwh01】という名前のDWHを作成します。

DWHはすぐに作成できます。作成後は下記の画面に遷移するはずです。

次に変換処理したデータを格納するテーブルをDWH内に作成します。
[新規SQLクエリ]をクリックしましょう。

下記CREATE TABLE文を実行してテーブルを作成します。
CREATE TABLE [dbo].[number_of_customers_in_each_city]
(
[City] [varchar](30) NOT NULL,
[cn] [int] NOT NULL
)
GO

データパイプラインの作成と実行
次にデータパイプラインの作成に移ります。[データを取得]から[新しいデータパイプライン]をクリックします。
名前は【lakehouse_to_dwh】とします。

[パイプラインアクティビティの追加]から[データのコピー]をクリックしてデータパイプラインを作成していきましょう。

データパイプラインは下記のように作成しました。
※パイプラインの詳細は別の記事にてご紹介する予定です。
①LakehouseのDimCustomer.csvをDWHのテーブルとしてコピー
②LakehouseのDimGeography.csvをDWHのテーブルとしてコピー
③上記2テーブルに対しての変換処理用SQLを実行し、number_of_customers_in_each_cityに格納

作成したデータパイプラインの検証を行います。
[Validate]をクリックし、[パイプラインの検証の出力]にてエラーが見つかりませんでしたと表示されることを確認します。

それでは実際に実行しましょう。[Run]をクリックします。

サマリーからは全ての処理が成功しているようにみえます。
DWH内に期待通りのテーブルやデータが作成されているのでしょうか。実際に確認してみましょう。

データパイプラインの実行結果の確認
作成したDWHを確認すると、DimCustomer/DimGeographyが作成されていることを確認できました。
number_of_customers_in_each_city内のデータも格納されているようです。

PowerBIで可視化する
number_of_customers_in_each_cityに格納されているデータをすぐに可視化することもできます。[新しいレポート]をクリックすると、PowerBIの画面が開きます。
そこで任意のデータを指定し、簡単にグラフ化することが可能です。

検証結果
今回はLakehouseに格納されているCSVファイルをFabricのData Factoryの機能であるデータパイプラインを使って簡単なETL処理を行い、データを可視化するまでの手順をご紹介しました。
Fabricにはデータを分析するために必要な機能が揃っていることをあらためて感じました。
次回は本記事で作成したデータパイプラインの詳細についてご紹介しようと思います。
中川 智文(2022年入社)
株式会社システムサポート フューチャーイノベーション事業本部 ソリューションサービス事業部所属
Oracle Database, SQL Serverを中心とした案件に従事