自らの仕事をどうやれば機械に置き換えられるかを考える - DataRobot, Inc. シバタアキラ氏インタビュー

      2016/10/24    - インタビュー, スキルチェック   執筆者:スキル委員菅由紀子

現在、世界でも有数のデータサイエンティストを集めるDataRobot, Inc.の日本担当としてご活躍のシバタアキラ氏に、データサイエンティストとしてのスキル獲得について伺って来ました。

シバタアキラ氏
ロンドン大学で実験素粒子物理学を学び博士号を修める。2007年よりニューヨーク大学で博士研究員としてCERNの素粒子加速器の実験における ビッグデータ統計解析に携わる。その後ボストン・コンサルティング・グループにて活躍。情報収集の新しい形を作りたいとの思いから2013年5月白ヤギコーポレーションを設立し、同社CEOに就任。2015年10月まで人工知能を使った情報サービス「カメリオ」「カメリオAPI」の開発・提供と自然言語処理や統計解析を使ったビッグデータコンサルティング事業を手がける。2015年12月より世界でも有数のデータサイエンティストを集めるDataRobot, Inc.の日本担当データサイエンティストとして参画。

Q.  主な研究内容をお聞かせください。

以前は、白ヤギコーポレーションというスタートアップを立ち上げ、自然言語処理を用いたニュースやコンテンツのキュレーションサービスを事業化し、アルゴリズム構築や言語処理、API化などを進めていました。その後、Pythonのエキスパートコミュニティー「PyDATA」の日本支部「PyData.Tokyo」をオーガナイズしていたことがきっかけで、DataRobot社を知り、現在はDataRobot社に勤めています。DataRobotは、入力データをもとにたくさんのモデルを自動的に組合せ、短時間で予測精度の高いモデルを作り出せる仕組みを提供しています。

 

Datarobot シバタ氏

 

Q.  データ活用に携わるようになったきっかけをお聞かせください。

高校までは文系で、特に数学には興味もなく過ごしていたのですが、大学でイギリスに留学し、物理学を専攻して、素粒子分野の高エネルギー物理学でPh.D.を取りました。大学に入った初期に学んだプログラミングの授業で、データ分析やシミュレーションをやったのが非常に面白く、すぐにのめり込んでいきました。

素粒子の分野は、サイエンスの中でも特にデータが多い研究分野で、加速器を使ってデータを大量に生成して分析していました。そして、大量データから統計学を使って何かを発見をするのに、当時の最新技術である「グリッドコンピューティング」を利用して分析していました。

その後アメリカに渡ったのですが、ニューヨークのロングアイランドにあるブルックヘブン研究所で、世界最大級Tier1クラスのグリッドコンピューティングのクラスターの出会いました。そこに入った時に耳にしたCPUのファンの音がまるでジェット機のよう轟音で、自分の分析でこれを回すと思うと非常に興奮したのを覚えています。

研究の世界に10年在籍した後、実際にこれらの研究テーマがビジネスでどのように活用されているのかを知りたくなり、戦略系コンサルティング会社に入ることにしました。コンサルティング会社でも実際は分析系の仕事が多く、例えばEコマースの収益改善のための分析などを行いました。

Q.  専門領域のご研究や、データ活用に携わるに際して、どのようなスキルが必要でしたでしょうか?

大学での得意分野はモデリングでした。モデリングでいうと、例えば物理学の中では理論そのものが“モデル”と呼ばれます。“モデル”は、アイデアを抽出しその中から概念を取り出すことで完成するので、「世の中で起きている事象・現象を一歩離れたメタレベルから眺め、他にも適用できそうなパターンを見出す」スキルが求められます。

もう一つ、ビジュアライゼーションについても論文を描いたり、ダッシュボードを作ったりしてきました。ビジュアライゼーションについては、「データの形を捉える」ことと「分析結果を伝える」ことの2つがあると考えています。1つ目の「データの形を捉える」ためには、データ構造や分布などを把握するスキルが必要になります。例えば自然言語解析の領域で考えてみると、文章というデータの中にも様々な構造が組み込まれていることがわかります。定量データも同様で、そのデータの構造を把握することで、モデル化につなげていき、アウトプットしていくことになります。

もう1つの「分析結果を伝える」時に求められるのが、「分析の結果を正確に伝えられる」スキルと「相手に効果的に伝えられる」スキルです。一般的には、正確さを追求すると複雑になる傾向があり、複雑なものを見ると人は本来考えなくてもよいことまで考え出してしまうため、伝わりにくくなりがちです。そこで、この2つのスキルをどちらかに偏ることなく、両方をバランスよく組み合わせられることが大事です。

自分のこれまでの経験上、理系出身の人は一般的に「正確に伝えられる」スキルを使うことが多いものの、どのように伝えると効果的に伝わるか、もしくは伝えないほうがいいところはどこかという「効果的に伝えられる」スキルについては、苦手な人が多いように感じます。もしデータサイエンティストを目指すのであれば、やはりビジネスで結果を出さなければならないので、「正確」かつ「効果的」に伝えられるようにスキルを伸ばしていったほうがいいでしょう。

インタビュー風景

Q.  スキルを習得されるに際して、どのようなことを行われたか、 工夫したことや苦慮したことなど、何かエピソードがございましたらお聞かせください。

私が学生だった当時は、データサイエンスという言葉もなく、大学にはプログラミングのコースはあったものの、プログラミングをデータ分析に応用していくような体系的な考え方はなかったので、とにかくいろんな書籍や論文を手探りで探し当てるという試行錯誤の連続でした。ですので、正直、スキルを習得しようという考えよりは、研究や業務において求められていたのでやらざるを得なかったというのが正直なところです。

 

例えば、自然言語解析のスキルは、前職の白ヤギコーポレーションを立ち上げるまではほとんど知らない領域で、会社を立ち上げてから習得したスキルです。ただし、自然言語処理スキルを身につける際には、大学時代に数値計算のモデリング技術を身に着けていたのが役に立ちました。もちろん、自然言語処理の分野は、通常の数値計算と比べると、次元数が非常に大きく、スパースモデリングのような手法もあり、全く同じというわけにはいかなかったものの、基本的な考え方は活用できました。

 

Q . ご専門領域の今後の発展性/方向性/新たな活用の領域に関するアイデアなどがございましたらお聞かせください。

現在、データサイエンスの一部の分野では、分析手法が確立されてきています。例えば、コンバージョンの予測やリコメンデーションなどの領域では、手法が確立されており、すでにツール化されています。ビジュアライゼーションで言えばTableauのようなツールがあり、機械学習であればDataRobotがあるので、すでに、エンジニアが容易にデータサイエンスを利用できるようになってきているといえます。

 

データサイエンティストという仕事は世の中に現れてきて間もない職業で、「セクシーな職業」とまで言われていたにも関わらず、既にツールに置き換えられつつあり、危うい立場になっているという状況にあるともいえます。しかし、実際には、どの企業のデータサイエンティストと話しても、現時点ではデータサイエンティストよりも分析すべきデータのほうが多く、データに対する理解も現場ではまだまだ深まっていないのが実態であり、まだまだデータサイエンティストがやるべき仕事は多く、当面なくなることはないだろうと答えます。

 

ただし、今後は身につけたスキルがどんどん陳腐化し、ツールに置き換えられていく可能性があるということを認識しておく必要があります。DataRobotのような機械学習の自動化ツールをみたデータサイエンティストは、大きく2種類の反応をする人に分かれます。1つは、DataRobotのできることを見て、自分が今後やらなくてもすむ領域を見つけるタイプです。そして、もう1つは、DataRobotに何ができないかを見つけ、自分の存在意義を訴えるタイプです。後者のような考え方では、今後生き残っていくのが厳しくなるでしょう。なぜなら、スキルをツールがどんどん置き換えていくことこそが機械学習や人工知能に求められているものであり、どうやったら自分の仕事をなくせるかという観点で仕事をやっていく必要があるからです。これからのデータサイエンティストは、自らの仕事が、どのようにすれば置き換えられるかという姿勢で取り組んでいって欲しいです。

 

一方で、データサイエンティストがつくるモデルは自動化されていっても、モデル構築の前後のプロセスについては、まだまだ自動化が難しい状況です。モデルを作って予測をした後に、その予測の精度が良いかどうか、倫理的に間違っていないかどうか、また、どうやれば成果が出るかという解釈は人間しかできません。これは今後、データサイエンティストの重要なスキルになっていくでしょう。

 

さらに、データの収集・加工などもまだまだ自動化できない領域です。Hadoopなどの大規模データを処理する基盤もでてきたので、データをどんどん収集する方向に舵が切られていますが、実際にビジュアライズしてみると「このデータは取ってなかった」とか「このデータはこのように加工したほうが良かった」というような、データの加工・収集について試行錯誤することになります。逆に言うと、これらの領域は今後発展を遂げる可能性があるとも言えるでしょう。

インタビュー風景2

Q.   データプロフェッショナル・データサイエンティストを目指す方に高めて欲しいスキルやマインド、その他メッセージがございましたらお願いいたします。

 

これからのデータプロフェッショナル・データサイエンティストには、ビジネスの分野であったとしても、既出の領域ではなく、新しい分野での発見が求められるようになるでしょう。一つ一つスキルを身に着けたとしても、そのようなスキルは陳腐化し、すぐにツールで代用できるようになってきてしまいます。

 

新たな発見や答えを導き出すには、一度専門分野を深く掘り下げるのがいいでしょう。データを使って誰も知らない領域に対して知的な貢献をすることができれば、その後ビジネスのような答えが曖昧な分野においても、データサイエンスを有効に活用できるようになるはずです。

 

■編集後記■

とても真摯に答えていただいた柴田さん。これまで第一線で戦ってこられただけに、ひとこと一言に重みがありました。

「その後ビジネスのような答えが曖昧な分野においても、データサイエンスを有効に活用できるようになるはずです。」というメッセージには深く共感しました。スキル委員:大江ooe_san

 

データ分析において高いスキルを持たれているだけでなく、ビジネスを立ち上げるという経営者としての顔を持っておられる為、いずれも理論と実践が伴ったお話でとても説得力があり、有意義なインタビューになったのではと思います。スキル委員:山之下yamanoshita

 

「データサイエンティストは自らの仕事をツールで置き換えていくことでデータの力を解き放てるようになる」。まさにDataRobot社が目指している方向性であり、ビジネスに携わるデータサイエンティストが意識すべきことだと納得させられる言葉でした。 スキル委員:高橋高橋さん3