日本型データサイエンティスト
【手法】
① 現場との密接なコミュニケーションにより
② 課題をもとにアクションを仮設し
③ 社内外のデータ分析に基づく検証と実証を行ってアクションを具体化させ
④ 事業部門にアクションの採用を働きかける
ポイント・・・社内外データを複数の視点から組合せてビジネス課題の全体像を把握することが重要。
【データサイエンティスト 7つのプロセス】
①業務理解(Business Understanding)
人・お金・時間を無駄にしないよう、レコメンデーション実装や業務支援などの最終的なアウトプットを意識して集計や分析作業に着手する事。
方法:プロジェクトにコミットしている事業責任者へのヒアリングや協労を行い業務内容とプロジェクトの目的を理解にする。
②データ理解(Data Understanding)
データベースはいくつあり、どのように業務と接続しているのか?データ型は?データ連携は?などをヒアリング、理解する。
③データ抽出、加工(Data Preparation)
データを処理可能な状態にする。(インスタンス化という)
選択 : どのデータが有効と思われるか、データを選択する。
整理 : 欠損値、不正値、極端な値を整理。(あまのじゃくな値の中には、それ自体が重要な意味を持つものもある)
構成 : 分析に必要な形式にデータを再構成。
書式設定 : フィールド値の異なる型を統一し関連フィールドを変換。
統合 : 異なるシステムのデータを統合。
④モデリング(Modeling)
教師ありモデル、教師なしモデルに区分される。
教師ありモデル:1つ以上のフィールドに基づいて対象フィールドの予測をモデル化し結果が未知である将来のケースを予測する。
ニューラルネットワーク、決定木、線形回帰、ロジスティク回帰など
教師なしモデル:予測されるフィールドはなく、データ内の関係性を探索して全体的な構造を発見したいときに用いる。
Kohonen、TwoStep、k-meansなど
⑤効果検証(Evaluation)
データサイエンスの結果から得られた施策案が目的をどの程度達成できるのかを評価する。
対象となるビジネスの一部分またはシミュレーション用データに対してA/Bテストを行ない全体への展開に値するものかを検証する。
⑥サービス実施(Deployment)
施策案に対し、環境に応じた適用選択を行なう。
適用モデルの現状に対しての有効性と予測及び進捗の確認やKPIモニタリングを行う。
【データサイエンスが成功する条件】
①熟練卓越した人のKKD(勘と経験と度胸)はデータにより導かれた結果よりも優れた結果を得るポテンシャルがある。
このことを意識しておくこと。
②データサイエンスの品質評価においては統計的な正しさよりもビジネスの成功を念頭に置いて実施すること。
最終評価はROIや収益率などによるため。
③切り戻し条件を決めておく。推定コストを事前に確認し切り戻す判断基準に置いておく。コストが算出できない場合は、他の評価基準でもよい。
④業務理解の段階で施策を実務に実装できる余地を確認しておく。
【データサイエンス失敗の本質】
①組織の構造的負荷を軽視して施策を実務に実装しようとしてはいけない。
もし組織から反発をうけた場合は、その施策による潜在的利益を説明したり組織の一部分から実施するようにする。
②ヒアリング時点でアンケートを行った際に一方の意見が他方に影響(因果関係を持つ)するようなことが無いようにする。
因果関係を持った状態ではモデリング時の予測を誤る。
③対象となる事業に直面している担当者に直接疑問や課題を提示して意見交換しないと、施策はそれほど重要でないものになる。
【扱うデータベース】
RDBMS/NoSQL/Hadoop/Dynamo/Casandra/MongoDB/VoltDB/Voldemont
【分析ツール】
RStudio
ドラッガーの言葉
重要なことは、正しい答えを見つけることではない。正しい問いを見つけることである。