Upgrade to Pro — share decks privately, control downloads, hide ads and more …

190821 データ前処理は簡単ではない!陥りがちなワナを事例を交えてご紹介 大西さん

190821 データ前処理は簡単ではない!陥りがちなワナを事例を交えてご紹介 大西さん

RPACommunity

August 21, 2019
Tweet

More Decks by RPACommunity

Other Decks in Technology

Transcript

  1. 4 © 2019 Realize Corporation 自己紹介 【略歴】 ◆1994年4月 NTTデータ通信株式会社に新卒入社。 資材・調達部門に配属、ソフト調達・サービス購買にかかわる契約・交渉・オペレーション業務等に従事。

    ◆1997年10月 自ら発案したデータマネジメント事業が社内ベンチャー制度に最年少で合格、独立採算プロジェクトとして始動。 ◆2001年10月 社内ベンチャーを母体として、大日本印刷、SAPジャパン、i2テクノロジーズ等を株主としたジョイントベンチャー会社 を設立。 以降、NTTグループ主要各社をはじめ、国内大手のエレクトロニクス、自動車/自動車部品、鉄鋼、公共インフラ、 素材/食品/製薬/化学、文具・家具、小売・流通業、EC/通販事業者、金融、官公庁、教育など幅広い領 域において、お客様とともにデータマネジメントの取り組みを実践。 講演・セミナー、標準化活動などにも多数招聘され、データマネジメントの重要性について精力的な普及・啓発活動 を行う。 日本データマネジメント・コンソーシアム[JDMC]の発起人であり、現在、理事および事務局長を務める。 DAMA(Data Management Association)日本支部の企画担当理事。 株式会社リアライズ 代表取締役社長 大西 浩史[おおにし こうし]
  2. 5 © 2019 Realize Corporation 会社概要紹介 株式会社リアライズ (英文名:Realize Corporation) 社名

    代表取締役社長 大西 浩史 代表者 2001年(創業:1997年) 設立 1億円 資本金 東京都江東区木場5-5-2 CN-1ビル6F 所在地 約100名(協業者含む) 従業員数 http://www.realize-corp.jp HP URL 『Make IT Real Business』を企業理念 に掲げ、システムの“血液”-データを、 そのライフサイクル全体を通して最適化 するデータマネジメント・ソリューションを ご提供します 事業概要 ‣ 株式会社NTTデータ ‣ アステリア株式会社 ‣ NTTコムウェア株式会社 ‣ SAPジャパン株式会社 株主構成 リアライズは、 データマネジメントを通じて、 お客様の情報活用を実現する プロフェッショナル集団です コーポレート メッセージ 創業者がユーザー部門で体験した問題意識からNTTデータの社内ベンチャーとして1997年に創業以来、 データマネ ジメント事業を一貫して手掛け、企業・組織の情報活用力の強化を支援しております。
  3. 8 © 2019 Realize Corporation 2,100万件の顧客(個人)データのクレンジング名寄せ 弊社では、通常法人顧客のクレンジング・名寄せが中心ですが、お客様のご要望により、個人顧客の名寄せを実施 することになったプロジェクトがあります。 本来は、個人顧客の名寄せはお受けしないのですが、それは以下の様な理由からです。 1:作業場所が限定される

    個人情報保護の観点からも、非常に厳しいセキュリティ要件を課せられる為、お客様社内での作業を必須とさ れ、要員が固定される。 2:ツールの動作環境を整えるのが難しい クレンジングには、様々な辞書(住所、郵便番号、電話帳、姓名等)を利用するため、1件あたりの処理プロセ スが重く、時間がかかる。 3:膨大な個人顧客データを名寄せしても使えない データ分析の為に利用するのであれば、特にクレンジング・名寄せなどしなくても使えることが多く、本人確認が必 須の貸金業の様な場合を除けば、重複・転居・婚姻などのデータを精緻に追いかけることが困難 ですので、個人顧客はお客様自身に名寄せして頂く方法を考えます
  4. 9 © 2019 Realize Corporation それでも、ご要望なのでやってみました 業務目標 ・管轄内ユーザ数(≠ユーザ台数) の把握 ・法人内/間の重複客数把握

    ・顧客の移動状況の把握 ・統合ID付与に向けた課題整理 IT目標 ▪トライアル作業 ・転居客候補等のデータ抽出、実現性を検証し、 抽出手法を明確にする ・これまでに実施した名寄せルールを活用した名寄せを行う ・恒久環境構築に向けた処理時間・負荷等を明確にする ▪日次分析環境の実現性・方針決め ・日次で分析するためのシステム間I/F・抽出の仕様検討 ・他アプリが追加できる拡張性検討 ・分析結果・履歴の管理方法検討 ・処理時間・負荷を考慮したインフラのサイジング ・ユーザI/Fの検討・セキュリティ(アクセス権・ログ取得方法)の 検討 個人顧客を名寄せする目的:よりお客様のニーズにあった商品の提案をするための行動分析マスタの構築
  5. 10 © 2019 Realize Corporation そして、192時間(8日間)に及ぶ前処理が出来上がりました お客様 弊社 事前加工処理 名寄せツール

    処理 時間 192.6 ツール 185.5 ー ー 約108.5 時間 約55時間 約22時間 ー その他 7.1 約3時間 ー ー ー ー 約4.1時間 クレンジング HOST 2,137万 CSV・SJIS 事前加工 処理 調査用 (MySQL) 凡例 …RDBMS …名寄せツール内DB ・・・ツールの基本機能 ・・・オプションカスタマイズ対応 2,137万 CSV・SJIS 名寄せ テキスト 出力 データ ロード 2,137万 CSV・SJIS 全件処理実行時間
  6. 11 © 2019 Realize Corporation やってみてわかったこと 後々わかったお話ではありますが、仮想環境で処理実行したのですが、マシンスペックが4分割されていた模様で、 ちょっとした家庭用のPC程度のスペックしかありませんでした。 1:実行結果が出てこないので、手の打ちようがない 8日間もの時間がかかるので、待つしかなく、データの傾向が分析しづらい

    2:お客様に状況をご報告出来ないので、イライラする 進捗報告したくても結果が出てこないので、報告が出来ず、結果お客様も我々も、途方にくれます 3:重複データが判明したものの、統合に莫大な費用がかかる データの統合には、重複データの確認が必要になるのですが、あまりにも膨大な確認作業が必要になることが判 明し、とても確認依頼をすることが出来ない状態 低スペックでの大量データ処理は危険だとトラウマになりました 4:結局なにがしたかったのか判らなくなってしまった 統合顧客マスタを作りたかったのだが、それが困難だと判明した瞬間に、目的を見失った。 「ラーメンを注文したのに、カレーが出てきた」と揶揄されるはめになった
  7. 13 © 2019 Realize Corporation AI が 人間の仕事を奪う?! 機械に奪われそうな仕事 ランキング1~50位!

    会計士も危ない!激変 する職業と教育の現場 (出典:週刊ダイヤモンド8/22号) 本当にそうか?
  8. 16 © 2019 Realize Corporation 目的に合わせて『AI(手段)』 を どう使うかが大事 ⚫ AIも計算機、つまり、コンピューターに過ぎない

    ⚫ 善悪の判断も意志を持って何かを良くしようともしてくれない ⚫ あくまで手段であって、大切なのはそれをどう使うか ⚫ 膨大なデータの中から特徴を抽出したり、高速に画像の類似性 をレーティングすることは人間よりもずっと得意(ここは人間 がAIと競う領域ではない) ⚫ 適切にAIを駆動させるためには、正しいデータを与え、間違っ た答えを出さないように学習させること、つまり『データマネ ジメント』がこれからの時代、さらに重要性を高める AIを活用する目的をまず明確化すること、 そのためにどのような正解データを与え続ければその目的 が達成できるかを見極めることが本質であり、最重要
  9. 18 © 2019 Realize Corporation データを活用できるか否かが組織の競争力に直結する Data Data Data Data

    Data Data Data Data Data Data Data Data Data 個人情報保護 クラウド コンプライアンス M&A/事業統合 オープンデータ ソーシャルデータ IoTデータ ガバナンス 国際的なデータ規制強化 モバイル AI データ流通 内外のデータを駆使して自社のビジネスの付加価値を向上させるため、 一刻も早くデータマネジメントに取り組みましょう! IT導入の目的が変わった ➢ 『個別組織の業務処理効率化のため』から ➢ 『顧客を基点として、既存の組織を超えてビジネスを駆動させるため』へ ➡ それをつなぐのがデータ ITはさらに進化していく ➢ スマホやIoTの普及により、顧客やモノからのデータが爆発的に増えていく ➢ クラウドやネットワークの進化により、大量なデータを扱うアプリやインフラは取り替えが効く ➡ でも、Conflict Dataでは活用できない=データは代替えが効かない経営資源