2016.09.14

データサイエンティスト養成講座　第８回受講レポート（最終回）　

第８回目を迎えたデータサイエンティスト養成講座も今回がとうとう最終回！DeepAnalyticsのコンテスト「Jリーグ観客動員数を予測せよ！」でスコアを争っていた各チームですが、はたしてどのチームが１位を獲得したのでしょうか！？
結果をお伝えする前に、各チームからの最後の発表をご覧ください。

・ニシキアナゴチーム
データを色々と作ってみた。収容人数と天候、休日、ステージ、ホームとその平均観客動員数を選択し、ランダムフォレストを行った。少しずつパラメータを調整し、さらに以前作ったモデルをアンサンブルしたりしながら改善することによって、最終的のスコアは3590になった。

・スナメリチーム
工夫としてはホームとアウェイの観客動員数の相性があるかと仮定し、それらを掛け合わせてみた。チームメンバーにサッカーファンがいるので、応援しているチームの初戦と最終戦は必ず観に行くという意見をもらい、第何節という連続変数とカテゴリ変数を作ってみたところ、確かにその挙動が確認できた。GLMの変数の選び方はもっと研究したいと思った。

・クマノミチーム
ほとんどの変数をダミー変数化してGLMを回した後に残差をランダムフォレストでモデリングし、結果を出した。その後、講師が共有していたXGBoostを試したところ、Lasso回帰やランダムフォレスト、GLMを使ったものよりもスコアが上がったので、結局はXGBoostがモデルに依存するところがあるのかな、と思う。

・マンボウチーム
勝ち続けいているチームの試合は盛り上がっているのではないかと仮説を立て、連勝中のフラグを作った。試合開始時の順位を付けたが、モデルにする前に時間切れになっていまい、悔しかったので講座が終わった後に投稿したいと思う。

・ホウボウチーム
まず、どのような変数の加工が有効なのかを見極めて、データ加工→実行を繰り返して、有効なものを残していった。データ加工に目途が付いたところで、XGboost・GBM・GLMをXGBoostを重めにし、5:4:1の割合で平均を取った。主な加工処理は土・日・平日・祝日の4種類の変数を作ったり、ターゲット変数として収容率のルートを使ったりしたこと。また、前回の銀行マーケティングの時に使ったスプライン補完を今回も使ったところ最も効果があった。

・ハコフグチーム
RではなくSASを使って分析を行った。SAS言語を使って、スタジアムの名前を整理したり、無観客試合を削除したりと様々な変数を作っていった。分析を進めていくうちにスタジアムのキャパシティの関係性が強そうだと思ったので、収容人数に対する動員数の比率の変数を作った。このように変数をたくさん作ってエンタープライズガイドが持つモデルを作る機能（RPN）に変数を入れ、簡単にモデルを作ることができた。

・ゴンズイチーム
①モデルの作成方法、②特徴選択、③特徴抽出、④予測値の補正の４つの観点から進めていった。今回のデータはカテゴリ変数が多く、ダミー変数化していくと変数の数に対してサンプルが2000くらいと、そのまま線形回帰すると過学習するだろうと思い、Lasso回帰を使った。また、特徴抽出の大まかな方針として入場者数を決めそうな要素が何かを決め、それに対応する変数を選んだり作ったりする進め方をした。要素としては、見に行きたい試合か、見に行ける試合かどうかを考えた。補正は残差を観察した。観客数の実績値と残差（実績値－予測値）のグラフを作って傾向を見極め、補正を行った。
以上が、「Jリーグ観客動員数を予測せよ！」に対して行ったモデル作りの各チームの過程です。そして、結果最もよい結果を叩き出したのは．．．

１位　ゴンズイチーム　　　2,858.95443

でした！おめでとうございます！直前まで首位を独走していたホウボウチームのスコアは2,876.00977となり、僅差で２位となりました。3000を切るチームが2チームも出てくるとは、講師陣も驚きです。他のチームもメンバー同士で協力し合いながら健闘し、着実にスコアを伸ばしていました。

中林三平氏（金融エンジニアリング・グループ）

中林塾長より講評
お疲れ様でした。このような機会を作らせてもらったのは、とにかくコンペに参加して初めから最後までストーリーとして考えて投稿し、自分の力がどれくらいなのか、頭を働かすとどれくらい順位が上がるのかを実感してもらいたかったのが一番大きな目的。実際にやってみないと分からないことはかなりあると思う。手を動かして分析せずに、本を読んで勉強するというのは、すぐ忘れてしまうし、データを見る感覚が育たない。（中略）使うメソッドは新しいものがいいし、メソッドにどういうデータを仕込むかのギリギリのところの勝負をしているのがデータサイエンティストのデータサイエンス力だと思う。今回はその一部でも経験していただければよかったかなと思っている。コツコツとパラメータを注入しながら精度を高める努力を継続する。次にこのような機会があった際には、今回の講義では出て来なかったディープラーニングやそれを使った画像分析、テキストマイニング等にも範囲を広げていきたいと思っている。皆さん本当によくやりました。ご苦労様でした。