委員会便り 第16号 「忘れられないプロジェクト#1 ~KKKKDでデータ前処理の壁を乗り越える~」

      2019/06/20    - DS関連News, インタビュー ,   執筆者:スキル委員 於保 真一朗

こんにちは。データサイエンティスト協会スキル定義委員会の於保です。本日は、忘れられないプロジェクトと題して、現役先輩データサイエンティストの体験談の記事をご紹介します。どのようなキャリアステップを踏んできたのか、立ちはだかる困難をどう乗り越えたのか、PoCの案件をどうやってローンチまで推進させるかなど、特に、データ活用業務を取り組み始めた方やこれからデータサイエンティストを目指す方にとって参考になる内容となっているかと思います。

Q. 自己紹介をお願い致します。

データ解析設計事務所の森谷と申します。略歴についてですが、大学院では、理論系の経済学を専攻していました。その両方を活かせる環境として、株式会社富士通金融システムズ(現在は富士通株式会社)に新卒入社しました。金融系と公共系のクライアントに対して、DWH環境構築や分析業務を行っておりました。当時は、”おむつとビールの相関性”のような分析業務ですが、データサイエンスという言葉は普及しておらず、データマイニングと呼ばれていた頃ですね。

新卒から5年後には、金融分野に特化したデータ分析会社に転職しました。当時AIとは呼ばれていない頃ですが、自動審査等の機械学習モデル構築をしたパッケージソフトウェアを開発し、提供していました。

現在は、フリーランスとなり、技術顧問や講師、プロジェクトマネジャー、機械学習モデル構築をするデータサイエンティストなどの役割でコンサルティング業務支援に携わっています。

moriya1-650×350

Q. 印象に残っているプロジェクトのエピソードを教えてください。

統計や機械学習を専門に業務を行っていたので、新しい分野に挑戦するものが多く、どれも印象に残っているものばかりというのが正直なところです。

特筆するとすれば、「特許取得をした金融分析のパッケージソフトウェア開発業務」となるのですが、具体的には、企業の取引履歴の明細データをもとに、商流ネットワークの把握や取引予測を実現するためのモデル開発プロジェクトに関わった体験です。

従来、銀行が持っているデータというのは、企業の決算書となるので、どこにでもあるという意味で、公平性の高いものでした。そのため、差別化が図りづらいサービスにならざるを得ないという背景がありました。また、年間に一度のデータなので、定点観測がしづらいという課題もあります。

そこで、企業の今と取り巻く環境がわかるように、取引明細データを用いて、足元のキャッシュフロー(今)と商流(取り巻く環境)を把握するための動態モニタリングモデルを開発しました。このソリューションパッケージは、複数の銀行に導入を頂くことができました。

その後、グループ会社とともに、経済指標を創るような大きな取り組みにつながるソフトウェアを開発するに至りましたが、非常にやりがいのあるプロジェクトの技術責任者という立場で関わることができました。

Q. 困難なこと、ぶつかった壁などがあれば教えてください。

新しい挑戦をするときには、価値に至るための環境が、はじめから整っていないことがほとんどです。特に苦労したのは、(分析およびモデル構築をするための)データの前処理部分です。複数データを結合する際に、企業名の名寄せ作業をしなければならないのですが、データの記載ルールが決まっているわけではありませんので、ひとつひとつ自力でデータを読み解き、判別させていく地道な作業が待っています。

当時、銀行のデータは、紙ベースで処理されることを前提にしていることが多かったのですが、申込番号と企業名が組み合わさって管理をされている書類もあれば企業名のみの場合があるなど異なる管理がなされていました。企業情報と取引明細を結合したいにも関わらず、振り込みのためのキーとなる番号がないので、一発で紐づけができないなど複雑なデータ構成となっていました。

特に、初回のプロジェクトでは、答えがない状態から、手探りで探求しなければなりません。自動判別などは先の話です。これをデータ整備に関わるエンジニアが、SQLやSAS、Rなどの言語を用いて、処理を進めていきました。

Q.技術責任者という立場ですと、教育という観点もありますが、どのように取り組まれたのでしょうか。

新人教育としては、肌で覚えさせるしかありません。前職では、前処理段階において、クライアント先に常駐し、実践で手を動かして、業務を進めていました。ベテランと組み合わせて、現場で“谷に叩き落す“ではないですが、問題の乗り越え方を自ら学んでもらうことが得策だと考えていました。自分自身もそうやって学んできました(笑)

実践経験を繰り返して、スキルを積み重ねていくと、ゆくゆくは職人的に磨かれていくものです。(森谷氏の趣味でもある)渓流釣りをたとえにすると、同じ川で同じ道具を持っていても、ベテランと素人では魚の釣り方に差があります。素人は、魚がどこに潜んでいのかみえていないのですが、ベテランであれば、川の流れのなかや石に隠れた魚を見つけることができます。

データの処理も同じようなもので、同じデータをみているにも関わらず、ベテランは、熟練の経験を活かして、瞬時に問題を解決するための気づきが得られるようになっていくものだと考えています。

Q.その壁を乗り越えるために行った工夫(成功要因)はありますか。

工夫というものではないのですが、「最後までくじけない」、「情熱を持つ」といった取り組み姿勢は、成功に大きく要因するものだと考えています。データサイエンティストには、いわゆるKKD(勘:Kと経験:Kと度胸:D)が必要と思うのですが、あと2つKが足りないくらいです。気合:Kと根性:Kですね(笑)

また、課題全体に対して、ソリューションを持っているかどうかという視点が大切だと考えています。最後のゴールがイメージできていれば、やり続ければうまくいくと確信できるものです。

最近は、なんとなくAIを使ってみたいという風潮があるように思うのですが、手法が目的になると、途中で困難があるとくじけてしまいやすいのではないかと思います。成果や果実、付加価値といったゴールを見据えて、そこから逆算してスタートしていければ、あきらめずに登っていけるのではないでしょうか。

moriya3-650x350

Q.PoCやアジャイルなど実験的に進める手法も最近の風潮ですが、これまでのプロジェクトの経験から学ばれたことがあれば教えてください。

AI的に使うのは、ごく一部だと思います。データを蓄積、整備するのはあたりまえの業務になります。9割は基礎的な業務で、残りの1割がPoCの業務範囲ということであれば、9割成果がでていれば、ローンチにつなげることができます。プロジェクトの進行状況を見計らって、PoC部分を推進し続けるのか、次の課題として切り離すのかは意思決定すればよいことだと思います。

Q.ローンチ後もきちんと使われるための運用方針を考えておく必要があると思います。そこで、ローンチをした後の進め方のノウハウがあれば教えてください。

大まかに、プロダクト自体の特性に合わせて、固定型と変動型に分けて考えるのがよいのではないかと考えられるようになりました。

まずは、固定型ですが、「ウェブサイトの検索結果で表示優遇をする広告商品」におけるアルゴリズムを開発した場合として、途中で大幅に仕様変更をするチューニングをコロコロ変えてしまうのはいかがなものかと思います。もし変更する場合は、きちんとした段取りで、広告営業担当者やクライアントなどを含めた、多くのステークホルダーを巻き込んで了承を得て進めるべきです。

次に、変動型ですが、ECサイトのリコメンドエンジンのアルゴリズムについては、売上結果を出すことが大きな目的になるため、最適化のためにチューニングを積み重ねて改善していくべきものだと考えられます。

プロジェクトの運用方針を、特性を見極めて判断し、周囲の理解を得ながら推進していくことが大切だと思います。

Q.市場の潮流は激しく変わっていると思いますが、これまでデータ活用に関わられているなかで、特に意識が変わってきたことがあれば教えてください。

幾つかの経験を経て、「AIも含めてデータ活用について、ビジネスの目的に合わせて、システム全体のなかでどのような扱い方をするべきか」を考えることの大切さを、より一層強く感じるようになってきていることだと思います。

AIやデータ活用をすること自体が目的になってはいけないと思います。つまり、それは「All of them」ではなく、「One of them」であるという認識を持つことが大切だと思います。

プロジェクトの進め方についても変化があると感じています。従来は、システム開発というと、要件定義に即して、バグ処理をして納品をするところに意識が偏った進め方が主流だったと思います。しかし、それでは、ローンチするまでコストが掛かるばかりでビジネス収益につながりませんし、そもそも市場に出してみないと反応がわからないため、要件定義の精度が低い状態で労力を掛けてしまうことになりかねません。

そこで、段階的に精度を高めていくことを前提として、閾値をある程度緩めに設定しておき、まずローンチをするという進め方をとるようになってきています。

リスクマネジメントのためなのか、マーケティングのためなのかによっても判断は異なりますが、例えばマーケティングのためであれば、完成度が6割の段階でも、A/Bテストをする前提でローンチして、その結果をもとに、精度を高める判断をするのが得策なのではないかと考えています。

そのシステム全体の目的に合わせて、アルゴリズムの精度をどのくらいの閾値でローンチしてよいのかを決められる能力というものが問われていると考えています。

Q.今後取り組みたいことがあれば教えてください。

昨年に個人事業主として独立しましたので、ひとつやりたいことはできました。さらに取り組みたいことは、老舗の零細企業のIT推進を支援することです。日本の行く末を考えると、老舗の零細企業をITによって活性化することが求められているのではないかと考えています。例えば、商店街の効率化のために、在庫管理をネットワーク化して、システムを運用する。さらにそれらをAPIとして提供し、オープンエコノミーを実現させるといったことに興味が向いています。
moriya2-650x350

Q.これからデータサイエンティストとして活躍したいと考えている読者へのメッセージをお願いします。

データサイエンティストといっても、いくつかの方向性があると思いますので、今後のなりたい姿をご自身の意向に合わせて決められるとよいと思います。

その際に、野球選手でたとえると、ピッチャー、キャッチャー、ファーストなどのポジションがありますが、それと同じようにデータ活用を行う人材には、様々な役割があります。アルゴリズムを構築する専門家としてデータサイエンティストの技術を高めるのか、ビジネス目的に適合させるためにプロジェクトをマネジメントするゼネラリストとしてのデータサイエンティストを目指すのか、など目標を決められるとよいと思います。