Upgrade to Pro — share decks privately, control downloads, hide ads and more …

190821 データ前処理は簡単ではない!陥りがちなワナを事例を交えてご紹介 大西さん

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.

190821 データ前処理は簡単ではない!陥りがちなワナを事例を交えてご紹介 大西さん

Avatar for RPACommunity

RPACommunity

August 21, 2019
Tweet

More Decks by RPACommunity

Other Decks in Technology

Transcript

  1. 4 © 2019 Realize Corporation 自己紹介 【略歴】 ◆1994年4月 NTTデータ通信株式会社に新卒入社。 資材・調達部門に配属、ソフト調達・サービス購買にかかわる契約・交渉・オペレーション業務等に従事。

    ◆1997年10月 自ら発案したデータマネジメント事業が社内ベンチャー制度に最年少で合格、独立採算プロジェクトとして始動。 ◆2001年10月 社内ベンチャーを母体として、大日本印刷、SAPジャパン、i2テクノロジーズ等を株主としたジョイントベンチャー会社 を設立。 以降、NTTグループ主要各社をはじめ、国内大手のエレクトロニクス、自動車/自動車部品、鉄鋼、公共インフラ、 素材/食品/製薬/化学、文具・家具、小売・流通業、EC/通販事業者、金融、官公庁、教育など幅広い領 域において、お客様とともにデータマネジメントの取り組みを実践。 講演・セミナー、標準化活動などにも多数招聘され、データマネジメントの重要性について精力的な普及・啓発活動 を行う。 日本データマネジメント・コンソーシアム[JDMC]の発起人であり、現在、理事および事務局長を務める。 DAMA(Data Management Association)日本支部の企画担当理事。 株式会社リアライズ 代表取締役社長 大西 浩史[おおにし こうし]
  2. 5 © 2019 Realize Corporation 会社概要紹介 株式会社リアライズ (英文名:Realize Corporation) 社名

    代表取締役社長 大西 浩史 代表者 2001年(創業:1997年) 設立 1億円 資本金 東京都江東区木場5-5-2 CN-1ビル6F 所在地 約100名(協業者含む) 従業員数 http://www.realize-corp.jp HP URL 『Make IT Real Business』を企業理念 に掲げ、システムの“血液”-データを、 そのライフサイクル全体を通して最適化 するデータマネジメント・ソリューションを ご提供します 事業概要 ‣ 株式会社NTTデータ ‣ アステリア株式会社 ‣ NTTコムウェア株式会社 ‣ SAPジャパン株式会社 株主構成 リアライズは、 データマネジメントを通じて、 お客様の情報活用を実現する プロフェッショナル集団です コーポレート メッセージ 創業者がユーザー部門で体験した問題意識からNTTデータの社内ベンチャーとして1997年に創業以来、 データマネ ジメント事業を一貫して手掛け、企業・組織の情報活用力の強化を支援しております。
  3. 8 © 2019 Realize Corporation 2,100万件の顧客(個人)データのクレンジング名寄せ 弊社では、通常法人顧客のクレンジング・名寄せが中心ですが、お客様のご要望により、個人顧客の名寄せを実施 することになったプロジェクトがあります。 本来は、個人顧客の名寄せはお受けしないのですが、それは以下の様な理由からです。 1:作業場所が限定される

    個人情報保護の観点からも、非常に厳しいセキュリティ要件を課せられる為、お客様社内での作業を必須とさ れ、要員が固定される。 2:ツールの動作環境を整えるのが難しい クレンジングには、様々な辞書(住所、郵便番号、電話帳、姓名等)を利用するため、1件あたりの処理プロセ スが重く、時間がかかる。 3:膨大な個人顧客データを名寄せしても使えない データ分析の為に利用するのであれば、特にクレンジング・名寄せなどしなくても使えることが多く、本人確認が必 須の貸金業の様な場合を除けば、重複・転居・婚姻などのデータを精緻に追いかけることが困難 ですので、個人顧客はお客様自身に名寄せして頂く方法を考えます
  4. 9 © 2019 Realize Corporation それでも、ご要望なのでやってみました 業務目標 ・管轄内ユーザ数(≠ユーザ台数) の把握 ・法人内/間の重複客数把握

    ・顧客の移動状況の把握 ・統合ID付与に向けた課題整理 IT目標 ▪トライアル作業 ・転居客候補等のデータ抽出、実現性を検証し、 抽出手法を明確にする ・これまでに実施した名寄せルールを活用した名寄せを行う ・恒久環境構築に向けた処理時間・負荷等を明確にする ▪日次分析環境の実現性・方針決め ・日次で分析するためのシステム間I/F・抽出の仕様検討 ・他アプリが追加できる拡張性検討 ・分析結果・履歴の管理方法検討 ・処理時間・負荷を考慮したインフラのサイジング ・ユーザI/Fの検討・セキュリティ(アクセス権・ログ取得方法)の 検討 個人顧客を名寄せする目的:よりお客様のニーズにあった商品の提案をするための行動分析マスタの構築
  5. 10 © 2019 Realize Corporation そして、192時間(8日間)に及ぶ前処理が出来上がりました お客様 弊社 事前加工処理 名寄せツール

    処理 時間 192.6 ツール 185.5 ー ー 約108.5 時間 約55時間 約22時間 ー その他 7.1 約3時間 ー ー ー ー 約4.1時間 クレンジング HOST 2,137万 CSV・SJIS 事前加工 処理 調査用 (MySQL) 凡例 …RDBMS …名寄せツール内DB ・・・ツールの基本機能 ・・・オプションカスタマイズ対応 2,137万 CSV・SJIS 名寄せ テキスト 出力 データ ロード 2,137万 CSV・SJIS 全件処理実行時間
  6. 11 © 2019 Realize Corporation やってみてわかったこと 後々わかったお話ではありますが、仮想環境で処理実行したのですが、マシンスペックが4分割されていた模様で、 ちょっとした家庭用のPC程度のスペックしかありませんでした。 1:実行結果が出てこないので、手の打ちようがない 8日間もの時間がかかるので、待つしかなく、データの傾向が分析しづらい

    2:お客様に状況をご報告出来ないので、イライラする 進捗報告したくても結果が出てこないので、報告が出来ず、結果お客様も我々も、途方にくれます 3:重複データが判明したものの、統合に莫大な費用がかかる データの統合には、重複データの確認が必要になるのですが、あまりにも膨大な確認作業が必要になることが判 明し、とても確認依頼をすることが出来ない状態 低スペックでの大量データ処理は危険だとトラウマになりました 4:結局なにがしたかったのか判らなくなってしまった 統合顧客マスタを作りたかったのだが、それが困難だと判明した瞬間に、目的を見失った。 「ラーメンを注文したのに、カレーが出てきた」と揶揄されるはめになった
  7. 13 © 2019 Realize Corporation AI が 人間の仕事を奪う?! 機械に奪われそうな仕事 ランキング1~50位!

    会計士も危ない!激変 する職業と教育の現場 (出典:週刊ダイヤモンド8/22号) 本当にそうか?
  8. 16 © 2019 Realize Corporation 目的に合わせて『AI(手段)』 を どう使うかが大事 ⚫ AIも計算機、つまり、コンピューターに過ぎない

    ⚫ 善悪の判断も意志を持って何かを良くしようともしてくれない ⚫ あくまで手段であって、大切なのはそれをどう使うか ⚫ 膨大なデータの中から特徴を抽出したり、高速に画像の類似性 をレーティングすることは人間よりもずっと得意(ここは人間 がAIと競う領域ではない) ⚫ 適切にAIを駆動させるためには、正しいデータを与え、間違っ た答えを出さないように学習させること、つまり『データマネ ジメント』がこれからの時代、さらに重要性を高める AIを活用する目的をまず明確化すること、 そのためにどのような正解データを与え続ければその目的 が達成できるかを見極めることが本質であり、最重要
  9. 18 © 2019 Realize Corporation データを活用できるか否かが組織の競争力に直結する Data Data Data Data

    Data Data Data Data Data Data Data Data Data 個人情報保護 クラウド コンプライアンス M&A/事業統合 オープンデータ ソーシャルデータ IoTデータ ガバナンス 国際的なデータ規制強化 モバイル AI データ流通 内外のデータを駆使して自社のビジネスの付加価値を向上させるため、 一刻も早くデータマネジメントに取り組みましょう! IT導入の目的が変わった ➢ 『個別組織の業務処理効率化のため』から ➢ 『顧客を基点として、既存の組織を超えてビジネスを駆動させるため』へ ➡ それをつなぐのがデータ ITはさらに進化していく ➢ スマホやIoTの普及により、顧客やモノからのデータが爆発的に増えていく ➢ クラウドやネットワークの進化により、大量なデータを扱うアプリやインフラは取り替えが効く ➡ でも、Conflict Dataでは活用できない=データは代替えが効かない経営資源