2016.08.12

「分野跳躍力」でこれからのデータサイエンスを生きよ(前編) ~統計数理研究所樋口知之所長インタビュー~

「分野跳躍力」でこれからのデータサイエンスを生きよ(前編) ~統計数理研究所樋口知之所長インタビュー~

データサイエンティスト協会顧問でもあり、統計数理研究所の所長を務められる樋口知之先生に、お話を伺って参りました。先生ご自身の半生を振り返って頂きながら、データサイエンスへの興味の原点やこれからのデータサイエンスへの展望を前篇と後編の全2回でお届けします。

統計数理研究所 所長
樋口 知之先生

1984年 東京大学理学部地球物理学科卒業
1989年 同大学院理学系研究科博士課程修了後、統計数理研究所に入所。2011年4月より同研究所 所長。
情報・システム研究機構 理事
総合研究大学院大学統計科学専攻 教授

【データ活用の楽しさを知った原点・・・高校生のクラブ活動】

— 先生がデータサイエンスに興味を持った時のお話しをお聞かせ下さい

樋口: 
今年55歳になりますが、高校生の時、1970年代です。これはきっとみなさまにお話しするのは初めてかも知れません。
高校生の時、電卓クラブというのに入っていて、キヤノン製のプログラム電卓を使っていました。今の薄い電卓ではなく、簡単なプログラム機能がついたミニコンピュータみたいなものです。その電卓を使って校内模試の偏差値を出していたのです。
指導する数学の先生と私とほぼ2人だけの活動で、偏差値を計算したり、各科目のヒストグラムを作っていました。だから、ガウス分布を学校で習う遥か前から、ヒストグラムが示す分布の多様性や、平均値のみで集団の特性を語ることの難しさを実感していました。


 なるほど。統計云々の学問を勉強する前に、データを触る面白さを体感したんですね

樋口: 
そうです。それが私の原点です。データを自分で触り、色々なことを知る楽しさ、が先にあったのです。
最近の学問や研究で少し思うことは、そういうデータを解析する楽しさから入らずに手段から入ってしまうことです。楽しい方から実体験することがきっと良いのだと思います。

ちなみに文科省に勤める親友の1人も同じクラブだったんで先日話してみたら、そういうことは覚えていない、と言ってました。そりゃそうですよね。彼はクラブに出てきていませんでしたから(笑)

あと、ご利益としては、大した話じゃないですが、発表の前に自分の順位がわかること、くらいでした(笑)

【自分のやりたいことはあったのに、それに合う学科がなかった大学時代。模索の日々】

 ではその偏差値分布を出しながら理系・文系の違いやご自身の得意分野についてもデータサイエンス的に理解されたんですね。

樋口: そうですね。分布で見ると理系と文系の違いは手に取るようにわかったものでした。私自身は数学が得意だったから理系に行ったんです。でも本当は根っからの数学ファンではなく、社会が大好きで大得意でした。特に地理は勉強しなくても得意で、地図帳の最後のほうにある円グラフとか表を眺めるのが大好きでした。きっと「人の営みがつくる社会や産業」が好きなんでしょうね。データから照らし合わせて、その社会そのものを量的に理解することが好きなんです。


 じゃあ大学進学は経済や哲学なども検討されたのですか?

樋口: 大学進学にあたり、数学+社会ができることが望みでしたが、当時は行くところがなかったんです。最初は東大駒場キャンパスにある地理学科に行こうかと思いましたが、正直、東大なら本郷の方が良かったですし、不遜ですが20年後に取り組んでも十分な学問のように思えまして、やはり理系に行きました。

データサイエンスが好きな人は社会が好きな方が絶対良い、というのが私の持論です。
そういう人は、データを見て、営みや産業を想像して、ビジネスに携わる、ということを自然にできると思うのです。産業をデータの力でぐっと見直すことで「ビジネスをぶ厚く見る」ことがこれからのヒントになると思います。

もちろん、製造業のセンサー技術や、暗号化技術、IoT産業の一部はそれだけではないと考えています。これは後でお話ししましょう。

大学は東大の地球物理学に行ってみたんです。で、地理が好きだったらから、フィールドワークが好きだろうと思っていたのですが、すいません、間違いでした。ワイルドな環境での宿泊は苦手ですし、船酔いは極端にひどいですし・・・

4年生になって、音の時系列データ解析や人工衛星のデータ解析に出会いました。それらは当時ではビックデータだったので、データ圧縮がカギだったんです。東大の大型計算機センターにデータをいれて解析していましたが、3日間しかデータは保存されず、さらに最大格納量は200MBでしたね。当時はそこに重い磁気テープを持参して、テープリーダーと呼ばれる機械で物理的にデータを読み込ませていましたから、その時に、他の分野でデータ分析している横の学生と話すことも楽しみの一つでしたね。

 

【偶然的な赤池先生との出会い。無限に広がる可能性を感じたベイズとの出会い】

 樋口先生はベイズの研究を多くされていますが、その頃が始まりだったんですね?

 樋口: はい。データ解析のことを勉強していましたが、まだ出始めの研究だったので文献もあまりなかったのです。

模索しているうちに赤池先生のベイズの論文があるらしい、ということがわかり、なんとかそのハードコピーを手に入れました。コピーは人から人に渡ったものらしく、字がところどころつぶれて良く見えませんでした。

なんとか解読しているうち、論文に間違いを見つけたんです。自分でもプログラムを書いて、確認して、やっぱり違うと。それで当時は全然ツテのない先生ではあったのですが、思いきって赤池先生に電話しアポをとって、「先生、これ間違ってますよ」とご指摘をしました。結局、単なる誤植に近いものでしたが。それが赤池先生とのご縁の始まりです。

今考えても大胆すぎますよね。でもとにかくそれがきっかけでベイズを本格的に勉強し始めました。そして、「これは凄い」と思ったんです。私はベイズの「表現能力の豊かさ」に魅せられました。少数の統計モデルの真偽を判定するような検定に代表される枠組みは完成された学問ですが、人間の知識の限界と実際の不確実性を前にすると許容度が狭いとも言えます。社会ってもっと曖昧模糊としていますよね。私はベイズモデルでの尤度関数を駆使した柔軟でリッチなデータ表現の提供と、解が安定しない/精度解析できないことを制御する事前分布の存在による、多層で複雑な構造を許容できる仕組みが凄いと思いました。統計でいう事前分布は平滑化分布かスパース分布かという話ですが、実際にはビジネスにおける現場の豊かなドメインナレッジを入れたりもできます。

その組み合わせによって表現力を担保し、ビジネスでの経験や知識を反映できる、ということが凄いのです。しかもその表現をどんどんPDCAによって改善することもできます。それは今の機械学習やディープラーニングにも通じる世界です。ベイズを知ることによって、そのプラットフォームができるな、と感じたのです。

ですので、その道を追求することにしたのです。

 

(後編に続く)

カテゴリ
アーカイブ
記事アクセスランキング
タグ