Tableauを複数のデータと組み合わせて見るには「リレーションシップ」「結合」「データブレンド」の3つの方法があります。
特に「リレーションシップ」と「結合」は事前に組み合わせたデータを作っておくので一見似ているようですが、返ってくる結果は異なるものになります。
本コラムでは、「リレーションシップ」「結合」「データブレンド」について解説し、サンプルデータでどのような結果になるか確認しようと思います。
3つのデータ組み合わせ方法について理解できていない方、使い方がわからない方はぜひご参照ください。
今回のコラムの内容は、アユダンテのYoutubeでも解説しています。
動画では実際にTableauを操作したデモがありますので、よければこちらもご覧ください。
リレーションシップ・結合・データブレンドについて
リレーションシップ
リレーションシップはTableauのヘルプページでは「関連」と表現されておりますが、その名の通り複数データを関連付けることをいいます。
事前に複数データを関連付けて一致するフィールドを選択して関係を定義するだけで、結合タイプを選ばなくてもTableauが自動で調整しながら組み合わせてくれます。
粒度が違うデータでもTableau側でそれぞれのデータで集計してから組み合わせてくれるため、重複や欠損があるデータを扱う場合調整する必要がありません。
リレーションシップデータの作り方
追加したいデータをダブルクリックもしくは真ん中のフィールドにドラッグでセットし、もう1つのデータも同じくダブルクリックもしくは真ん中のフィールドにドラッグでセットします。リレーションシップデータはとてもシンプルに作ることができます。
結合
Tableauでの「結合」とは、事前に結合キーや結合タイプを決めて複数のデータを組み合わせる方法です。
Tableauのヘルプで“データを静的に組み合わせる方法”と表現されている通り、「結合」したテーブルは単一テーブルのように扱われます。ここが「リレーションシップ」とは異なる部分です。
また、結合タイプによってデータに不一致の値があると欠落し、重複があった場合他の値が重複することがあります。
結合データの作り方
データをダブルクリックもしくは真ん中のフィールドにドラッグでセットし、データの右側の▼マークから「開く」を選択すると、結合のキャンバスに移動します。
すでにセットしたデータに結合したいデータを、ダブルクリックもしくはドラッグしてキャンバスにセットすると、結合データが作成できます。
円が2つ重なったベン図アイコンをクリックすると、結合タイプと結合キーを選択できます。
このベン図のアイコンが「結合」データの目印になります。
結合タイプについて
「内部結合」や「左外部結合」など、結合タイプの違いがわからないかたは弊社片岡コラム「Looker Studio 統合の結合はどれを使うのが正解かを解説」が参考になります。
Looker Studioのコラムですが、考え方はTableauでも同じですので、ぜひご参照ください。
データブレンド
「データブレンド」とは、組み合わせたデータを事前に作成するのではなく、Tableauのワークシート上で2つ以上のデータを組み合わせる方法です。
シート上で完結するため、分析しながら手軽にデータを組み合わせることができるのがメリットです。
データブレンドの使い方
はじめにデータをシートに設定しておき、別のデータに切り替えてシートにデータを追加します。最初に追加したデータが「プライマリデータ」、次に追加したデータが「セカンダリデータ」と呼ばれます。
このとき、プライマリデータに対してセカンダリデータは左結合と同じ扱いになります。
シート左上のデータ一覧に青いチェックマークがついていればプライマリデータ、オレンジのチェックマークがついていればセカンダリデータという目印になります。
また、セカンダリデータはシェルフ部分でデータと同じくオレンジのチェックが入るので、ビューに配置したデータがブレンドしているかすぐに認識することができます。
データブレンドは2つのデータに同じディメンション名があるときに、ブレンドキーに設定することができ、セカンダリデータに画像のような鎖マークが付きます。
鎖マークをクリックするとマークに斜線がつき、ブレンドキーから外すことができます。
重複しているデータでの表示結果
サンプルデータ
今回は、受注テーブルと会員リストテーブルのサンプルデータをご用意しました。※画像参照
会員リストから会員IDをキーにして受注テーブルに氏名と住所を紐づけようと思います。
ただ、会員リストテーブルの会員ID14605の鈴木さんが住所違いで2行登録されています。
この場合、それぞれの組み合わせ方法ではどのように表示されるか見てみましょう。
リレーションシップ
リレーションシップのデータでは、重複した住所部分は2行に表示されています。
注目したいのは総計です。重複した2行分がダブルカウントではなく、元の受注テーブルの総計数になっています。
前述の通り、リレーションシップはそれぞれのデータで集計してから組み合わせを行うため、重複を回避する必要がありません。
左外部結合
左外部結合をした場合も、重複した住所は2行になって表示されます。
リレーションシップでは総計部分は重複したデータではありませんでしたが、「結合」では総計が重複してカウントされるので注意が必要です。
データブレンド
データブレンドでは、重複した部分は「*」で表示されます。
指標は元の受注データのままで2行になって表示はされず、総計に重複はありません。
欠損しているデータでの表示結果
サンプルデータ
続いて、先ほどと同じ受注テーブルと、会員リストに欠損があるデータを用意しました。
会員ID「16015」のユーザーが会員リストにありません。
このように欠損があるデータでは、それぞれの組み合わせ方法でどのように表示されるか見てみましょう。
リレーションシップ
一致しない氏名・住所部分はNULLが入ります。
結合 ー 左外部結合
リレーションシップと同様、一致しない氏名・住所部分はNULLが入ります。
結合 ー 内部結合
「内部結合」は、条件に一致したデータのみ表示されるので、受注テーブルの会員ID16015の行自体が表示されません。
総計部分にもご注目ください。表示されなかった行の売上・数量は総計に含まれません。
データブレンド
データブレンドは左結合と同じ扱いのため、プライマリデータに該当しないセカンダリデータはNULLになります。
まとめ
データの結合タイプを選ぶ必要がなく、重複・欠損データも加味しなくてよい「リレーションシップ」を選べば基本的には問題ありません。Tableauのヘルプでも結合と比較してリレーションシップを使うことを推奨しています。
「内部結合で条件に一致したデータだけを見たい」など、結合タイプを選択してデータを見たい場合は「結合」を選択するようにしましょう。ただし、「結合」はデータが重複・欠損している場合、実際のデータとは異なって表示される場合があるため注意が必要です。結合タイプを理解できていて、回避策を知っている中級者向きのものとなっています。
分析しながらアドホックにデータを組み合わせるときは、シート上で柔軟にデータを組み合わせられる「データブレンド」が便利です。また、“ワークシートごとに組み合わせのキーを変えたい”、“それぞれ単体のデータを持っておきたいけれど組み合わせて見たい”というときもデータブレンドを使いましょう。