Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ncdc_Data analysis_20210226

6e51a472cea0c9d058d830eca153cb0f?s=47 NCDC
February 26, 2021

ncdc_Data analysis_20210226

大量のデータを高速で処理できる技術が普及し、「ビッグデータ」というキーワードが流行したここ数年の間に、蓄積されたデータから課題解決のタネや新しいビジネスのヒントを見出す試みが数多く生まれてきました。

しかし、「AIにデータを読ませたらビジネスに役立つ分析結果が生み出される」というのは幻想に過ぎません。
データ分析をビジネスに活用するためには、まず人の手で検証目的を定め、有意な結果を得るための地道な準備を経て分析にかける必要があります。

本セミナーではデータ分析の基礎知識から、分析に適したデータの準備、多様な分析手法、思うような結果が得られない場合の対処方法といった実践へのアドバイスまで、経験豊富なデータアナリストが解説します。

これからデータ分析の検討をはじめる方にも、すでにデータ分析に取り組んでいて改善策を知りたい方にも、広く参考にしていただける内容です。ぜひご参加ください。

6e51a472cea0c9d058d830eca153cb0f?s=128

NCDC

February 26, 2021
Tweet

Transcript

  1. データ分析の基礎と上手な活用 方法を学ぶ NCDC Onlineセミナー 2021年2月26日 NCDC株式会社

  2. 島田 将人 ITコンサルタント 前職にてシステムエンジニアとしてキャリ アをスタートしつつ、在籍終盤にデータ分 析案件にも従事。データサイエンティスト の社内資格を取得。 NCDCに入社後もデータ分析案件を中心と してビジネスコンサルティングやシステム 開発マネジメント等、多岐にわたる業務に

    従事。 2
  3. NCDCのご紹介

  4. 私たちにできること① l デジタルビジネスに必要な要素にフォーカスし、⼀元的に提供しています。 l スモールスタートでの検証から、本開発・継続的な改善までサポートします。 4 ワークショップを中⼼とし た合理的なプロセスで、ビ ジネスモデルの検討からUX デザインまで、迅速に⾏い

    ます。 関係者が多数いる場合の組 織横断、会社横断のファシ リテーションも得意です。 新規性の⾼いプロジェクト ではMVP(Minimum Viable Product)を⽤いた検証を⾏ うなど、⽬的に応じて段階 的な開発を企画します。 早い段階でモックやプロト タイプを⽤意してユーザの 評価を確認します。 ユーザとのタッチポイントとなる各種デバ イスのフロントエンドデザインから、クラ ウドサービスを駆使したバックエンドの開 発まで。多様なテクノロジーをインテグ レーションします。 l AI / IoT / AR l モバイル・ウェブ アプリ開発 l クラウドインテグレーション l システムアーキテクチャコンサルティング など ビジネスモデルのデザイン スモールスタート・PoC システム・インテグレーション ユーザ視点を⼤切にした 課題抽出・企画 モックやプロトタイプ の開発・検証 開発 継続的な改善
  5. 私たちにできること② l 社内に最適な組織がない場合の組織づくりや⼈材育成から、⾼度な技術をもったエンジニ アによる技術移管まで、幅広くお客様をサポートします。 5 ビジネスモデルのデザイン スモールスタート・PoC システム・インテグレーション ユーザ視点を⼤切にした 課題抽出・企画

    モックやプロトタイプ の開発・検証 開発 継続的な改善 企業のDXやデジタルビジネスの創出に必要なこうしたプロセスを多⾯的にサポート DX戦略⽴案 ⼈材育成 技術移管 リファレンス実装 DX組織構築⽀援 アジャイル導⼊⽀援 ⼿法や技術の選定 ブランディング
  6. Business 事業領域の推進 Design ユーザ視点での設計 Technology 技術による課題解決 Innovation • コンサルティング •

    新規サービス企画 • PoC⽀援 • デザイン思考 • UX/UIデザイン • モバイル・Web先端技術 • IoT / AI / AR • クラウドインテグレーション 6 NCDCのサービス体系
  7. 前提 l 本セミナーが対象とするのは… l 以下のような悩みをお持ちの方 l これからデータ分析プロジェクトをマネジメントするが、相談相手がいな い l 手元にデータはあり何かしら分析したいと思っているけれど、何をすれば

    良いか分からない l テクニカルな話は、あまりしません。 l 用語の解説 l 説明変数 l 求めるものを説明する変数。y=ax+bのx。 l 目的変数 l 求めたい変数。y=ax+bのy。 7
  8. 本日の内容 1. はじめに 1. 「データドリブン」 2. 分析を担う「データサイエンティスト」について 2. データ分析の進め方 1.

    こんなこと、ありませんか? 2. 標準プロセス「CRISP-DM」 1. Business Understanding(ビジネスの理解) 2. Data Understanding(データの理解) 3. Data Preparation (データの準備) 4. Modeling(モデリング) 5. Evaluation(評価) 6. Deployment(展開) 3. 知っていて損のないデータ分析のツール「KNIME(ナイム)」 3. まとめ 1. もう一度「データドリブン」 2. 今日言いたいこと 3. NCDCの分析案件事例ご紹介 8
  9. はじめに

  10. 「データドリブン」 l もはや説明不要のトレンドワード。 l 技術の進歩で多様なデータが分析の対象となったことで、ビジネスの ありとあらゆるレベル・領域でデータに基づく意思決定の重要性が説 かれています。 l データドリブンな経営・データドリブンなマーケティング…何をする にもデータを分析することは必須です。

    しかし!!! l 「データを分析すること = データドリブン」ではありません。 l 「AIを使うこと = データドリブン」でもありません。 10
  11. 分析を担う「データサイエンティスト」について l データサイエンティストは、定義が曖 昧な職種。 l 「Business」「Analytics」「Engineering」 の三要素が必要。 l しかし、「どこを強みとするか」に よって、タイプは人それぞれ。

    l 世の中の目は先端技術に向きがちだが、 DX推進で重要なのは「Business」に軸足 を置いたデータサイエンティスト。 l 即ち、分析過程の理解、結果の評価と業 務への適用(事業創出・業務プロセス変 革・システム実装)をリードできる人材。 11 Business Engineering Analytics 出典: 一般社団法人データサイエンティスト協会 2014年12月10日のプ レスリリースより抜粋・一部変更 https://prtimes.jp/main/html/rd/p/000000005.000007312.html
  12. データ分析の進め方

  13. こんなこと、ありませんか? l 「データが溜まっているから何か分析してみよう」 l 「AIを使って何かやってみたい」 〜〜ちょっと待って!!!〜〜 l 「問い」のない分析は、意味がありません。 l 「AIにデータ入れたら何か出てくる」は幻想です。

    l 大事なのは「データを使うこと」「ツールを使うこと」ではなく て、「解き明かすべき問いを基にして、適切な問題設定とデータ の加工、ツールの使用を行うこと」です。 13
  14. 標準プロセス「CRISP-DM」 l 「CRoss-Industry Standard Proccess for Data Mining」の略語で、業種 業界に捉われない、データ分析を行う際に採るべき標準的なプロ セスを体系化したものです。

    l 6個のプロセスから構成されます。 14
  15. 1.Business Understanding(ビジネスの理解) l 業務課題や分析の目的を明確化します。ビジネスの現状やプロ ジェクトに求められている役割から分析で突き詰めるべき課題を 明確にする、非常に重要なプロセスです。 l 何を知りたい/解決したいのか?どんな仮説を検証したいのか? 十分に検討することが大切です。 15

  16. 1.Business Understanding(ビジネスの理解) l あなたは小売店の販売戦略立案担当として、以下のようなデータを使用 して、売上予測分析を計画しています。 l 自社の売上データ l 外部機関から購入した市場データ(都道府県別/店舗タイプ別) l

    気象庁の天気のデータ・人口統計データ等の無償オープンデータ l このデータを分析して何をしたいのでしょうか?やりたいことや課題 は? l 具体的な売上額を予測して経営状況をシミュレーションしたい? l 売上が落ちるタイミングを把握して、プッシュ戦略のタイミングを最適化 したい? l 問いの立て方によって分析手法の選択が大きく異なります。 l 検討段階によって知りたい内容も異なるため、現状に応じた問いの設定 が必要です。 16
  17. 2.Data Understanding(データの理解) l 目的を明確化したら、次に必要なのが分析対象となるデータの理解です。 データの分布や不足を確認します。 l 分布は偏っていないか l 必要な項目は揃っているか l

    欠損値はどの項目に何個くらいあるか l 先ほどのデータで見てみると・・・ l 自社の売上データ・外部機関から購入した市場データ(都道府県別/店舗 タイプ別) l 時期がある特定の季節に偏っていないか? l 地域の偏りがないか? l 店舗タイプの偏りがないか? l 気象庁の天気のデータ・人口統計データ等の無償オープンデータ l 取得すべき項目が取得できている?「最高気温」を使いたいのに取得していな い、などということはないか? 17
  18. 3.Data Preparation (データの準備) l データを加工する作業を実施します。データの準備には主に 「データクレンジング」と「特徴量の生成」があります。 l データクレンジング l データを「人間にとって」見やすくする作業

    l 特徴量生成 l データを「機械にとって」見やすくする作業 l データ分析作業の大部分を占めます。 18
  19. 3.Data Preparation (データの準備) –処理の実例 l 欠損の除去・補完 l 「欠損」とは、「あるべきはずのデータが欠けていること」 l 0で埋める/平均値で埋める/中央値で埋める/レコード自体を除去する等、

    とりうる手法が複数あるので、各々の項目に対して最適な方法を検討し、 処理します。 l 外れ値の除去 l 何を以て外れ値とするか?外れ値は除去する必要があるか?を検討し、必 要な処理を実施します。 l カテゴリー型変数のダミー化 l 機械が判読しづらいカテゴリーデータをフラグ変換します。 19 製品 カテゴリ にんじん 野菜 ねぎ 野菜 コーヒー 飲料 歯ブラシ 日用品 名前 野菜 飲料 日用品 にんじん 1 0 0 ねぎ 1 0 0 コーヒー 0 1 0 歯ブラシ 0 0 1
  20. l データの準備が整ったところで、統計的な分析手法や機械学習、 深層学習等を用いたモデリングを実施します。 l モデリングの手法(例) l 回帰分析 l クラスター分析 l

    予測モデル・判定モデルの生成(AIを活用) l 「1.Business Understanding(ビジネスの理解)」プロセスで明らかに した課題や、問題の設定(次ページで解説)によって最適な手法を選 択します。 4.Modeling(モデリング) 20
  21. 4.Modeling(モデリング) –回帰問題と分類問題 l 問題設定は、「回帰問題」と「分類問題」に大別されます。 l 回帰問題 l 具体的な数値を予測する l 株価の予測や気温の予測

    l 分類問題 l 真偽を予測する(二項分類)、どのカテゴリーに属するかを予測・判定する(多項 分類) l 生産ラインの不具合予測(不具合が生じる/生じないを予測) l 感染症や疾患の陽性/陰性判定 l 知りたいこと、やりたいことによって問題の設定方法が変わります。 l 具体的な売上額を予測して経営状況をシミュレーションしたいなら、回帰 問題に。 l 売上が落ちるタイミングを把握して、プッシュ戦略のタイミングを最適化 したいなら、分類問題に。 21
  22. 4.Modeling(モデリング) –データ分割手法 l モデリングでは、学習用のデータと検証用のデータを分割するの が一般的な手法です。 l 検証データの中に学習データが混在しているとリーク(カンニング)に なり、適切な評価結果が出ないため。 l 「交差検証」を採用するのが一般的。

    22 https://www.jmtech.co.jp/rapid より抜粋
  23. 5.Evaluation(評価) l 評価の観点 l 生成した予測モデルの精度に問題がないか l 過学習(特定の学習データの傾向だけを偏って学習すること)していないか l 交差検証によって、モデリングと同時に検証できます。 l

    問題設定や展開の方法によって、求められる精度のレベルは異なります。 l AIを活用する場合、精度だけではなく、「当たり前をしっかり表現でき ているか?」「新しい業務知見が見出せるか?」という観点での評価も 重要です。 l 「気温が高ければ清涼飲料が売れる」という結果は、当たり前の結果。 l →きちんと導き出せていればAIの信憑性を担保できます。 l 「清涼飲料と歯ブラシが同時に売れる傾向があるぞ?なぜ?」 l →このような発見が新たなビジネス戦略の立案につながります。 23
  24. 5.Evaluation(評価) l 主な精度評価指標をご紹介します。 l 回帰モデル l RMSE(平方平均二乗誤差) l 「予測値と実測値がどの程度乖離したか」を評価する指標。 l

    決定係数 l 「モデルが予測結果をどの程度説明できるか」を評価する 指標。 l 分類モデルの評価 l 混同行列 l 予測結果と実際の判定結果の関係性から「真陽性」「真陰 性」「偽陽性」「偽陰性」の数を算出して結果分析する手 法。 l ROC曲線・AUC l 予測結果に基づいて曲線(ROC曲線)を描画し、曲線の下部の 面積(AUC)で精度を評価。 24
  25. 5.Evaluation(評価) –評価結果が良くない時に見直したいこと l 仮説の立て方や問題設定は適切か? l 「ビジネスの理解」「データの理解」に立ち返って検討します。 l データ量は少なすぎないか? l 変数に過不足はないか?

    l 変数が少なすぎたり、本当に必要な変数が欠けていたりすると適切な モデリングはできません。 l 逆に、変数が多すぎても精度向上を阻害する場合があります。予測結 果の説明に寄与していない変数は、説明変数から外します。 25
  26. 5.Evaluation(評価) –評価結果が良くない時に見直したいこと l データの加工方法は適切か? l 外れ値の定義 l 台風の時の売上動向を予測したいのに台風の時のデータを除去してしまってい ませんか? l

    カテゴリー変数粒度 l 細かすぎると変数が煩雑になり精度低下の一因となるため、カテゴリーの粒度 を大きくすることがオススメです。 例 「牛乳」「低脂肪乳」「無脂肪乳」→「牛乳」で一括りにする l 他の項目との関係性 例 東京の最低気温が0℃を下回ることは珍しくはないが、それが8月のデータだっ たら不正なデータ。 l 学習データと検証データの分け方は適切か? l 冬の売上データだけ学習させた予測モデルでは、夏の売上予測はできませ ん。 26
  27. 5.Evaluation(評価) –評価結果が良くない時に見直したいこと l モデリングの手法選択は適切か? l 目的変数がロングテールな分布の場合、回帰問題としての予測は不向 きです。 例 世帯調査の結果から世帯貯蓄額を予測するモデル l

    4,000万円以上の世帯は全体に対する比率が低すぎてアルゴリズムが十分に学習で きないため、予測精度が向上しません。 27
  28. 6.Deployment(展開) l CRISP-DMの最後のプロセスです。 l 生成した予測モデルや、分析結果に基づく新たな手順を業務に適 用していきます。 l 知見を現場と共有して業務的なアクションに反映してもらう、と いう軽いものから、予測モデルをアプリ化して業務フローを刷新 するといった大掛かりなものまで、多様な展開方法があります。

    目的や予算に応じて最適なものを選択します。 l 経営幹部が売上状況シミュレーションをしたいのであれば、回帰分析 結果に基づいてレポートを作成することが求められるでしょう。 l 現場のアクションを最適化したいのであれば、売上低下が予測された 時点で通知を出し、アクションを要求する仕組みを構築する必要があ あるかもしれません。 28
  29. 知っていて損のないデータ分析のツール「KNIME(ナイム)」 l 公式ページ l クレンジングや特徴量生成、データの可視化、AIによるモデリング等、下図のような フローを組むことで実施できます。 l 上記のような基本的な機能は無料で利用できます。 l データベース接続等をしなければ、スタンドアロンのPCでも動作します。特殊な環境

    は不要です。ExcelやCSV、テキストファイルの読み書きにも対応しています。 l 日本語に対応していない点がネックですが、「プロジェクト本格開始前にまずは自分 でお試ししてみたい」という場合にオススメです。 29 https://knime-infocom.jp/service/knime-analytics-platform/ より抜粋
  30. まとめ

  31. もう一度「データドリブン」 31 l もはや説明不要のトレンドワード。 l 技術の進歩で多様なデータが分析の対象となったことで、ビジネスの ありとあらゆるレベル・領域でデータに基づく意思決定の重要性が説 かれています。 l データドリブンな経営・データドリブンなマーケティング…何をする

    にもデータを分析することは必須です。 しかし!!! l 「データを分析すること = データドリブン」ではありません。 l 「AIを使うこと = データドリブン」でもありません。
  32. l もはや説明不要のトレンドワード。 l 技術の進歩で多様なデータが分析の対象となったことで、ビジネスの ありとあらゆるレベル・領域でデータに基づく意思決定の重要性が説 かれています。 l データドリブンな経営・データドリブンなマーケティング…何をする にもデータを分析することは必須です。 しかし!!!

    l 「データを分析すること = データドリブン」ではありません。 l 「AIを使うこと = データドリブン」でもありません。 もう一度「データドリブン」 32 l 本当の「データドリブン」は、 l 課題を明確にして、 l その課題をデータ分析によって検証したうえで、 l 検証結果に基づいたアクションを起こすこと。 l 大切なのは「その分析、何のための分析ですか?」をしっかりと 説明できることです。
  33. 今日言いたいこと l 分析に着手する前に、課題をしっかりと立てましょう。 l 「ぼんやりと課題感はあるけれど、何を突き詰めれば良いか分からな い」という方は、課題の掘り起こしから支援できるパートナーを探し ましょう。 l 外注の前に、現場等他部門と議論の場を設けるのも一手です。 l

    課題に基づいた分析プランを立てましょう。 l 課題が明確でなければ手法選択を誤ります。 l 課題には何度も立ち戻り、時として練り直すことも可能です。最初に 課題が明確でなければ立ち戻る場所もありません。 l 「データドリブン」は「課題ありき」!! 33
  34. 事例|データ・ドリブン経営への変革支援 34 Client|製造業(食品) Keyword| データ分析 , サービス企画 データ分析からはじめる DX施策の検討。 お客さまの課題

    | 商品市場動向がどんなことに関 係して変動するか、⻑年のノウハウは蓄積されて いる。しかし、実証はされていなかったため、過 去データの分析を⾏い論理的に新規サービス⽴案 や業務改⾰につなげる⽅法を模索していた。その ため、データ分析から具体的なDX施策の⽴案まで ⽀援できるパートナーを求めていた。 ソリューション | お客さまの担当部⾨と定例会を 持ち、毎週テーマを決めてNCDC側で膨⼤なデー タを分析を実施。翌週には分析結果や得られた⽰ 唆をレポートするサイクルを継続して、スピー ディーなDX施策の検討を⽀援。 NCDCの役割 | 定例会にはNCDCのビジネスコン サルタントとデータ分析エンジニアが参加。デー タ分析のみならず、新たなデータの活⽤⽅法や具 体的なサービス企画まで幅広い提案を⾏い、多⾯ 的なコンサルティングを⾏いました。
  35. None