この記事は 3 分で読めます

【ビジネス向け】決定木分析とは|活用例や意識すべきポイントを紹介

URLをコピーする

決定木分析(ディシジョン・ツリー)は、無秩序なデータに特定の意味を持たせて扱いやすくしたり、データ同士の相関を発見したりする際に役立ちます。
今回は、決定木分析について、ビジネスの視点からメリットや活用例、意識すべきポイントを紹介します。

決定木分析(ディシジョン・ツリー)とは、データから特定の意味を持つグループに分類し、目的変数と説明変数の影響度を分析する手法

決定木分析(Decision Tree Analytics)とは、枝分かれの質問に対するYesかNoかの答えによって、データから特定の意味を持つグループに分類するとともに、目的変数と説明変数の相関を見る回帰を行う分析手法です。例えば、商品Aを購入する顧客層がどのような特徴を持つかを特定したいとき、下図のように質問を繰り返してツリー構造を作ります。

この決定木分析では男性か、年齢が20歳から29歳の間か、都市部在住かの3つの質問を投げています。この結果により、商品Aの購入者は都市部に住む大学生や若手社会人である男性層が購入する傾向にあると分かります。

決定木分析では、枝分かれの質問を自身で決めたり、分類後のグループの純粋さ(エントロピーの低さ)が最もよくなるよう機械学習的に決定したりする方法が挙げられます。

決定木分析で重要な用語

  • ルートノード
    決定木分析における最初のグループです。決定木分析では必ずこのノードから始まるため、ルート(根)から名前が由来しています。図で可視化する際は四角形が用いられます。
  • チャンスノード
    各ノードに対して質問した後のグループです。ルートノードから最末端のリーフノードまでの過程における全グループを指します。図では円形が用いられます。
  • リーフノード
    それ以上質問を用意しない最末端のグループです。木の末端にあるリーフ(葉)から名前が由来しており、図で可視化する場合は三角形を用います。
  • ブランチ
    各ノードを繋ぐ線のことです。

決定木分析のメリット

結果を見やすく可視化できる

決定木分析では、各グループ(ノード)に元データのうちどの程度の量が含まれているか、またそのうちの分類結果が示されます。例えば、商品Aを購入する顧客層について分類した際、男女で分けると全体の内それぞれ何人ずつ含まれていたのか、男性の中では何%が、女性の中では何%が購入しているのかというそれぞれの割合が可視化されます。

分類結果と同時にそれぞれの分岐質問も記載されるため、どの質問が購入に対して最も影響を与えたのかという、説明変数と目的変数の関係性も容易に分かります。そのため、目的に対してどのグループにどういうアプローチをすべきか、明確なマーケティング施策を立案できることが特徴です。

多様な質問形式でも簡単に分析できる

年齢層や家族形態、商品を知ったきっかけなど多様な質問形式が混ざった調査に対しても容易に分析できます。そのため、決定木分析は顧客の生の声を反映したアンケート結果をそのまま利用することが可能であり、非常に汎用性の高い分析手法です。

また、機械学習的に質問を決める方法では、多数の質問を用意してその中から最適な質問を選択するため、データ量が膨大な場合でも低い計算コストで実行できる点もメリットと言えます。

ビジネスにおける決定木分析の活用例

ターゲットの絞り込み

商品やサービスを販売する際、どの層にアプローチすれば低コストで大きな売上を得られるのかという、ターゲットの絞り込みを実行できます。過去のデータから、購入してくれた割合の高いグループを決定木によって分類し、そこを主力のターゲットとして施策を実行することで、受注確度の高いターゲットにアプローチ可能です。

有効なマーケティング施策の決定

決定木分析における枝分かれの質問は、回帰における説明変数に当たります。例えば、メルマガのリンクを開いた人のうち60%が購入していれば、メルマガのリンクを開いてもらえるような施策を練ることで、商品の売り上げ向上を見込めます。

このように、目的変数への影響度が大きい説明変数を操作するようなマーケティング施策を打てば、顧客満足度を高めることができ、ファンの獲得や解約率の低下による売上向上も期待できます。

決定木分析を行うときに意識すべきポイント

枝分かれの質問は適切なものを選択する

枝分かれの質問が分類結果に大きな影響を与えない場合、適切なサイズのグループができるまでより沢山の質問を重ねる必要があります。その場合、決定木分析の図が肥大化して視認性が低くなり、どの要素が重要であるのか見極めが難しくなります。

そのため、分類結果が大きく分かれるような質問から順にノードを作成していくことを心掛けましょう。例えば男性用化粧品を販売する場合、若者の30代以下かそれ以上かで購入割合が大きく変わることが予想されます。

また、変数同士の組み合わせを考慮することも重要です。例えばダイエット商品を販売する場合、身長と体重に分けてそれぞれの質問をするのではなく、肥満度を表すBMIを新たな指標として作成することで、ターゲットを大きく分類できます。

リーフノードを増やしすぎない

リーフノードを増やしすぎると、それぞれのグループに所属するデータ数が非常に少なくなります。例えば商品を売るためのターゲットを絞り込みたい場合、狙う人数が少なくなり、たとえ全員に商品が売れたとしても費用対効果が低くなってしまいます。ある程度の量のデータが各グループに所属するよう、深堀質問の回数やリーフノードの個数を制限することが重要です。

決定木分析を発展させたものに、ランダムフォレストと勾配ブースティング決定木がある

決定木分析を発展させたものに、ランダムフォレストと勾配ブースティング決定木という分析手法があります。ランダムフォレストとは、複数のパターンによる決定木をいくつか作り、各決定木の結果から多数決したり平均化したりすることで最終的な結果を決める手法です。一つの決定木だけでは都合の良い解釈をしてしまう可能性がありますが、ランダムフォレストでは複数の視点から解釈できるためそれを防げます。

勾配ブースティング決定木とは、決定木で予測された結果と正解の誤差を反映させて新たな決定木を作成する手法です。機械学習では、過去のデータを学習させる「訓練データ」とその妥当性(正答率)を確かめる「テストデータ」に二分します。訓練データによって作成した決定木モデルにテストデータを通し、正解との誤差を反映して新たな決定木を作成します。

ダウンロード ダウンロード
ダウンロード

改善の打ち手が見つかる営業の分析手法8選

無料でダウンロードするために
以下のフォーム項目にご入力くださいませ。

ビジネススキル・知識おすすめの記事

2023年9月4日

【厳選】請求書電子化サービス6選|メリットや確認すべきポイントも解説

2020年9月17日

【新人必見!】効率のよい仕事の進め方とは?手順に沿って紹介します

2020年3月24日

ビジネスにおける定量分析とは?定性分析との違いも解説