データサイエンティスト養成講座 第2回受講レポート

      2016/07/07    - 勉強会・セミナー   執筆者:多根悦子

5月25日、第2回目のデータサイエンティスト養成講座が開催されました。夜7時、前回よりは少し打ち解けた雰囲気で受講者が次々と集まりました。

第2回目の講義は「決定木によるクラス分類」。今回の目標は下記の3つです!
1.クラス分類へのアプローチとして決定木を理解する
2.先週扱ったデータを用いて、プロモーションに反応する顧客を予測するモデルを構築する
3.DeepAnalyticsに予測値を投稿する

IMG_9033

決定木を構築するアルゴリズムを理解するために、優良化しそうな顧客を抽出するケースを用いました。優良顧客を判別するために、顧客がキャンペーンに「反応する」「反応しない」の2つのクラスに分類して予測します。データを、年齢やスマホを持っているかどうかなどの説明変数と閾値の組み合わせで探索し、スコアの最もよいもので分割していきます。分割の精度はAUC(Area Under the Curve)で評価し、分割点をずらしながらAUCが最大となるものを探します。特徴量抽出のプロセスではモデルの特徴を知っておくことが重要!だそうです。

IMG_9040

決定木のモデル形状を調整するためのパラメータが3つ紹介されました。
1.深さ(maxdepth):値を大きくするとセグメントがより細かくなる
2.最小ノードサイズ(minbucket):セグメントに含まれるデータ数の下限を指定する
3.枝刈りの強さ(cp):決定木ではセグメント間に少しでも差があれば分割が行われるが、統計的に有意でない分割を取り消す(枝刈り)ための閾値を設定する

パラメータを変えるとアウトプットが変わってきます。これらのパラメータを調整しながら精度を高めていきます。

後半は演習が行われました。今回はrpart関数を使って決定木でモデルを構築して予測値を出力し、DeepAnalytics(運営:株式会社オプトホールディングDataScienceLab)に投稿するというものでしたが、受講生のみなさんは同じチームの人や講師に相談しながら真剣に取り組んでいました。ただし、rpartには限界があるため、余裕のある人はrandom forestにも挑戦してみて欲しいとのことでした。

第3回の受講レポートはこちら