データサイエンティストに求められるデータリテラシーとモデルリテラシー~森正弥氏インタビュー~

       - インタビュー   執筆者:スキル委員 原茂

コンサルティング企業、インターネット企業で、先端技術の研究開発をリードしてきた森正弥氏に、ご自身のこれまでのキャリアや、データサイエンティストに求められるスキルやマインドについてお伺いしました。

Rakuten_Mori2

森正弥氏(略歴)
慶應義塾大学経済学部卒業。アクセンチュア株式会社を経て、楽天株式会社の執行役員。(取材日:2018年6月29日時点)

Q1.データ活用に携わるようになったきっかけ、そこから棟梁データサイエンティストに至るまでの歴史をお聞かせください。

高校時代、微分積分が大好きでした。大学では経済で数学的アプローチをしたいと思い、計量経済学や国際金融において、数学でモデル化していました。それが今のデータサイエンスの基礎になっています。

楽天技術研究所を立ち上げるために楽天に入った2006年当時、Web2.0が終わった後で、データを収集してそれに基づき改善していくことが重要だとか、コミュニティのデータなどを今後どのように活かしていくかという話がありました。先端のベンダーはCGMなどのアナリティクスをやっていて、例えばみん就(みんなの就職活動日記)はその走りですね。クチコミデータを分析して、マーケティングやコンサルティングするということに着手していました。

伊藤将雄さん(現ユーザーローカル代表でみん就の創設者)と議論した時に、「データを活かしてサービスを高度化していくことが大事」、「ポストWeb2.0はデータが重要だ」という話になりました。楽天は多様な事業展開をし始めていて、様々なデータが集まっているというのは強みだと思っていました。後々ビッグデータが始まってきたので、非常に先見の明があるビジョンだったな、と思います。

また、楽天の研究所を立ち上げるとき、研究所や大学の先生にヒアリングをしたのですが、ビジネスデータが手に入らないと言われました。先端の研究をしているが、実際のビジネスデータがないから机上の空論にならざるを得ないと。そのときデータを中心とした研究所が非常に重要だと考えていました。

Q2.データサイエンティスト(棟梁)としてデータ活用に携わるには、どのようなスキルが必要だと考えますか?

データリテラシーは当然必要ですが、モデルリテラシーも重要だと思います。例えば、理想気体の状態方程式であるPV=nRTは細かく見ると成立しません。モデルは観測される粒度などによって影響されるので。他にも、限界を突破するとどうモデルが壊れてしまうかなど、授業では教えてくれませんが、そういう知識を身に付ける必要はあると思います。

高校3年生のころに『破滅予測の限界―人類を脅かす八つの危機シナリオ』(ウォルター カープラス, 経済界, 1993)という本を読んで、根本的に「できない事は何だ?」と興味をもちました。「パラメータを極限まで振るとモデルが壊れる」とか「モデルを使って限界を予測することは難しい」とか。例えば、サブプライムローンの予測は、パラメータの関係性がぶっ壊れた状態なので難しい。そういうモデルリテラシーは必要ですね。

Rakuten_Mori1

Q3.データサイエンティスト(棟梁)のスキルを習得するに際して、どのようなことを行われましたか?工夫したことや苦慮したことなど、何かエピソードやアドバイスがございましたらお聞かせください。

棟梁レベルになってくると、システム開発の視点も必要になっていきます。どのようなシステム構成にして、どのようなログが取れて、このデータを取るためにはどのくらいの時間がかかるか、といったことなど。他にもどんなプレゼンするか、意思決定者が納得してくれるような分析の見せ方になるかなど、広範囲に及ぶので忙しくなっていきます。そう考えると、どこかでジョブローテーションの経験も必要かもしれません。コンサルタントの仕事をやってみるとか、システム開発に入ってみるとか。

マネジメント職はまた違いますね。マネジメント職になるとデータ分析を行う時間が減るので、データは真実を語ると考えている人が現場から遠ざかると、真実から遠ざかっていると思い、葛藤してしまう方もいるようです。ですが、データサイエンティストが求めているのはディスカッションパートナーです。これはどんな意味をもつのか、この手法はどうなのか、もっと良い方法はないか、といったことを議論して見つけ、磨き上げていくところが日々の充実感や、仕事のやりがいにつながっています。マネージャーはそういったディスカッションに付き合える立場です。単純に現場から遠ざかっているのではなく、データサイエンティストの実力を引き出している重要なポジションだと認識することが大事ですね。

(データサイエンティストになりたい方に向けて)始めにつけるスキルは、数学が得意かどうかで分かれると思います。
数学が得意でなければ、統計や初等物理から始めるとよいと思います。物理をやってみないと、現象からモデルに繋がらないので、統計をやっても「有意です」と言って終わりになってしまいます。初等物理はそれほど難しくないので、ちょっとやってみませんか、というアドバイスはあった方が良いかもしれませんね。また、統計学は一生ものです。たとえ途中で挫折したとしても、挫折したところまでは有効に使えます。
数学が得意であれば、『Pattern Recognition and Machine Learning』(Christopher M. Bishop, Springer; 1st ed. 2006. Corr. 2nd printing 2011)を読破する、という王道にすぐ入れると思います。

Q4.ご自身の活動の今後の発展性/方向性/新たなチャレンジなどがございましたらお聞かせください。

ディープラーニングがベースになってきました。ディープラーニングを使っていろんなことをやって行こう、と。
ディープラーニングになると、マシンラーニングとは一味違ったところがあるじゃないですか。大量のファクターを使ったブラックボックス化が進むので、それが業務プロセスにも影響を与えていると思います。
仮説を立てるところを、そうではなくて、「500くらいのファクターだったらやってみようよ」など。また、“全部わかっていないとできない/やりたくない”から、“いろいろぶつけてみれば良い”という考え方に変わっていくと思います。

世の中油断できないな、と思うのですが、GAN(Genera tive Adversarial Networks:敵対的生成ネットワーク)、VAE(Variational auto-encoder:変分オートエンコーダ)などいろいろなプラクティスがでてきていますよね。大胆なアプリケーションや考えで。サンプルデータが少なくても、VAEなどで水増ししてやる。今までディープラーニングが適用できなかったところに適用可能になるところが見えてきました。その中で、従来の教科書に則った統計や機械学習の手法をきっちりやる、というところから、これがあったらゲームはどう変わるのだろう、ということを考えるセンスが必要だと感じています。

Q5.最後に、棟梁データサイエンティストを目指す方(見習いや独り立ち)に高めて欲しいスキルやマインド、その他メッセージがございましたらお願いします。

データサイエンスのタスクはロジカルに整理できるので役割分担、タスク分解、共同作業もしやすいですよね。よって早いタイミングでリーダーとしての経験を積める良い職種だと思います。ですから、積極的にリーダーにチャレンジしてほしいですね。

ただ、早くからリーダーになれてしまうため、他の業界だと身に着くリーダーの素養が身に付きにくい部分もあると思います。例えば、データサイエンティストは「手に職」なところがあり、自分のノウハウを共有しなかったり、コアな部分は教えずにToDoだけをメンバーに伝えたりするリーダーも中にはいる。そうするとメンバーは一体何のためにやっている作業なのかわからないし、どのように活かされているのかもわからないまま分析をやっている、ということがある。

そうではなく、“ここでこういう事をやると後々よい”といった自分のノウハウを共有していき、皆を育成していく。そのようにしてより多くのメンバーを集め、多くのプロジェクトを回せるデータサイエンティストになっていければよいと思います。そこから更に育成を視野に入れたチーム運営が出来たらよいですね。 (取材日:2018年6月)

■編集後記■

モデルリテラシーの話は、非常に興味深く、共感しながら聞かせて頂きました。リーダー経験の話も面白く、データサイエンティストをマネージメントしている層が知っておくべき内容だと思いました。(スキル委員:孝忠)

モデルの成立条件を意識しておく「モデルリテラシー」という発想は、今後ビッグデータが、よりロングテールを見ていく上でとても重要な視点でした。また、「システム全体の俯瞰」や「マネジメント・リーダーのコミュニケーション力」は、まさにスキルチェックでも重要視している視点であり、最前線で活躍される森様から伺えたことはとても有意義でした。(スキル委員:高橋)