Slide 1

Slide 1 text

© 2019 Realize Corporation データ前処理は簡単ではない! 陥りがちなワナを事例を交えてご紹介 2019年8月21日 株式会社リアライズ 代表取締役社長 (社)日本データマネジメント・コンソーシアム 発起人 大 西 浩 史 投影限定資料は、 本DL版資料には含まれておりません。

Slide 2

Slide 2 text

2 © 2019 Realize Corporation 本日のアジェンダ 1. 自己紹介&リアライズの会社紹介 2. データ活用には前処理が重要 3. 陥りがちなワナに注意せよ!

Slide 3

Slide 3 text

3 © 2019 Realize Corporation 1. 自己紹介&リアライズの会社紹介

Slide 4

Slide 4 text

4 © 2019 Realize Corporation 自己紹介 【略歴】 ◆1994年4月 NTTデータ通信株式会社に新卒入社。 資材・調達部門に配属、ソフト調達・サービス購買にかかわる契約・交渉・オペレーション業務等に従事。 ◆1997年10月 自ら発案したデータマネジメント事業が社内ベンチャー制度に最年少で合格、独立採算プロジェクトとして始動。 ◆2001年10月 社内ベンチャーを母体として、大日本印刷、SAPジャパン、i2テクノロジーズ等を株主としたジョイントベンチャー会社 を設立。 以降、NTTグループ主要各社をはじめ、国内大手のエレクトロニクス、自動車/自動車部品、鉄鋼、公共インフラ、 素材/食品/製薬/化学、文具・家具、小売・流通業、EC/通販事業者、金融、官公庁、教育など幅広い領 域において、お客様とともにデータマネジメントの取り組みを実践。 講演・セミナー、標準化活動などにも多数招聘され、データマネジメントの重要性について精力的な普及・啓発活動 を行う。 日本データマネジメント・コンソーシアム[JDMC]の発起人であり、現在、理事および事務局長を務める。 DAMA(Data Management Association)日本支部の企画担当理事。 株式会社リアライズ 代表取締役社長 大西 浩史[おおにし こうし]

Slide 5

Slide 5 text

5 © 2019 Realize Corporation 会社概要紹介 株式会社リアライズ (英文名:Realize Corporation) 社名 代表取締役社長 大西 浩史 代表者 2001年(創業:1997年) 設立 1億円 資本金 東京都江東区木場5-5-2 CN-1ビル6F 所在地 約100名(協業者含む) 従業員数 http://www.realize-corp.jp HP URL 『Make IT Real Business』を企業理念 に掲げ、システムの“血液”-データを、 そのライフサイクル全体を通して最適化 するデータマネジメント・ソリューションを ご提供します 事業概要 ‣ 株式会社NTTデータ ‣ アステリア株式会社 ‣ NTTコムウェア株式会社 ‣ SAPジャパン株式会社 株主構成 リアライズは、 データマネジメントを通じて、 お客様の情報活用を実現する プロフェッショナル集団です コーポレート メッセージ 創業者がユーザー部門で体験した問題意識からNTTデータの社内ベンチャーとして1997年に創業以来、 データマネ ジメント事業を一貫して手掛け、企業・組織の情報活用力の強化を支援しております。

Slide 6

Slide 6 text

6 © 2019 Realize Corporation サービス全体像 お客様のデータの「健康状態」を診断し、どう改善すれば良いかの処方箋をご提示します。机上の空論ではなく、実 データを健康な状態に治療し、その良好な状態を維持し続けていくところまでトータルにサポートします。

Slide 7

Slide 7 text

7 © 2019 Realize Corporation 2. データ活用には前処理が重要 ~時間がかかりすぎる前処理の弊害~

Slide 8

Slide 8 text

8 © 2019 Realize Corporation 2,100万件の顧客(個人)データのクレンジング名寄せ 弊社では、通常法人顧客のクレンジング・名寄せが中心ですが、お客様のご要望により、個人顧客の名寄せを実施 することになったプロジェクトがあります。 本来は、個人顧客の名寄せはお受けしないのですが、それは以下の様な理由からです。 1:作業場所が限定される 個人情報保護の観点からも、非常に厳しいセキュリティ要件を課せられる為、お客様社内での作業を必須とさ れ、要員が固定される。 2:ツールの動作環境を整えるのが難しい クレンジングには、様々な辞書(住所、郵便番号、電話帳、姓名等)を利用するため、1件あたりの処理プロセ スが重く、時間がかかる。 3:膨大な個人顧客データを名寄せしても使えない データ分析の為に利用するのであれば、特にクレンジング・名寄せなどしなくても使えることが多く、本人確認が必 須の貸金業の様な場合を除けば、重複・転居・婚姻などのデータを精緻に追いかけることが困難 ですので、個人顧客はお客様自身に名寄せして頂く方法を考えます

Slide 9

Slide 9 text

9 © 2019 Realize Corporation それでも、ご要望なのでやってみました 業務目標 ・管轄内ユーザ数(≠ユーザ台数) の把握 ・法人内/間の重複客数把握 ・顧客の移動状況の把握 ・統合ID付与に向けた課題整理 IT目標 ■トライアル作業 ・転居客候補等のデータ抽出、実現性を検証し、 抽出手法を明確にする ・これまでに実施した名寄せルールを活用した名寄せを行う ・恒久環境構築に向けた処理時間・負荷等を明確にする ■日次分析環境の実現性・方針決め ・日次で分析するためのシステム間I/F・抽出の仕様検討 ・他アプリが追加できる拡張性検討 ・分析結果・履歴の管理方法検討 ・処理時間・負荷を考慮したインフラのサイジング ・ユーザI/Fの検討・セキュリティ(アクセス権・ログ取得方法)の 検討 個人顧客を名寄せする目的:よりお客様のニーズにあった商品の提案をするための行動分析マスタの構築

Slide 10

Slide 10 text

10 © 2019 Realize Corporation そして、192時間(8日間)に及ぶ前処理が出来上がりました お客様 弊社 事前加工処理 名寄せツール 処理 時間 192.6 ツール 185.5 ー ー 約108.5 時間 約55時間 約22時間 ー その他 7.1 約3時間 ー ー ー ー 約4.1時間 クレンジング HOST 2,137万 CSV・SJIS 事前加工 処理 調査用 (MySQL) 凡例 …RDBMS …名寄せツール内DB ・・・ツールの基本機能 ・・・オプションカスタマイズ対応 2,137万 CSV・SJIS 名寄せ テキスト 出力 データ ロード 2,137万 CSV・SJIS 全件処理実行時間

Slide 11

Slide 11 text

11 © 2019 Realize Corporation やってみてわかったこと 後々わかったお話ではありますが、仮想環境で処理実行したのですが、マシンスペックが4分割されていた模様で、 ちょっとした家庭用のPC程度のスペックしかありませんでした。 1:実行結果が出てこないので、手の打ちようがない 8日間もの時間がかかるので、待つしかなく、データの傾向が分析しづらい 2:お客様に状況をご報告出来ないので、イライラする 進捗報告したくても結果が出てこないので、報告が出来ず、結果お客様も我々も、途方にくれます 3:重複データが判明したものの、統合に莫大な費用がかかる データの統合には、重複データの確認が必要になるのですが、あまりにも膨大な確認作業が必要になることが判 明し、とても確認依頼をすることが出来ない状態 低スペックでの大量データ処理は危険だとトラウマになりました 4:結局なにがしたかったのか判らなくなってしまった 統合顧客マスタを作りたかったのだが、それが困難だと判明した瞬間に、目的を見失った。 「ラーメンを注文したのに、カレーが出てきた」と揶揄されるはめになった

Slide 12

Slide 12 text

12 © 2019 Realize Corporation 3. 陥りがちなワナに注意せよ!

Slide 13

Slide 13 text

13 © 2019 Realize Corporation AI が 人間の仕事を奪う?! 機械に奪われそうな仕事 ランキング1~50位! 会計士も危ない!激変 する職業と教育の現場 (出典:週刊ダイヤモンド8/22号) 本当にそうか?

Slide 14

Slide 14 text

14 © 2019 Realize Corporation 目的をはっきりさせずに、流行り物(手段)を買ってしまうと・・・ Slide Only 申し訳ございません 投影限定資料となります。

Slide 15

Slide 15 text

15 © 2019 Realize Corporation 『AI(手段)』 もまったく同じ Slide Only 申し訳ございません 投影限定資料となります。

Slide 16

Slide 16 text

16 © 2019 Realize Corporation 目的に合わせて『AI(手段)』 を どう使うかが大事 ⚫ AIも計算機、つまり、コンピューターに過ぎない ⚫ 善悪の判断も意志を持って何かを良くしようともしてくれない ⚫ あくまで手段であって、大切なのはそれをどう使うか ⚫ 膨大なデータの中から特徴を抽出したり、高速に画像の類似性 をレーティングすることは人間よりもずっと得意(ここは人間 がAIと競う領域ではない) ⚫ 適切にAIを駆動させるためには、正しいデータを与え、間違っ た答えを出さないように学習させること、つまり『データマネ ジメント』がこれからの時代、さらに重要性を高める AIを活用する目的をまず明確化すること、 そのためにどのような正解データを与え続ければその目的 が達成できるかを見極めることが本質であり、最重要

Slide 17

Slide 17 text

17 © 2019 Realize Corporation “IoT”も手段でしかない Slide Only 申し訳ございません 投影限定資料となります。

Slide 18

Slide 18 text

18 © 2019 Realize Corporation データを活用できるか否かが組織の競争力に直結する Data Data Data Data Data Data Data Data Data Data Data Data Data 個人情報保護 クラウド コンプライアンス M&A/事業統合 オープンデータ ソーシャルデータ IoTデータ ガバナンス 国際的なデータ規制強化 モバイル AI データ流通 内外のデータを駆使して自社のビジネスの付加価値を向上させるため、 一刻も早くデータマネジメントに取り組みましょう! IT導入の目的が変わった ➢ 『個別組織の業務処理効率化のため』から ➢ 『顧客を基点として、既存の組織を超えてビジネスを駆動させるため』へ ➡ それをつなぐのがデータ ITはさらに進化していく ➢ スマホやIoTの普及により、顧客やモノからのデータが爆発的に増えていく ➢ クラウドやネットワークの進化により、大量なデータを扱うアプリやインフラは取り替えが効く ➡ でも、Conflict Dataでは活用できない=データは代替えが効かない経営資源

Slide 19

Slide 19 text

© 2019 Realize Corporation ご清聴いただき、誠にありがとうございました。 何かご質問などがございましたら、お気軽にご連絡ください。 株式会社 リアライズ マーケティング営業部 E-Mail:[email protected] Tel:03-6734-9888