Lock in $30 Savings on PRO—Offer Ends Soon! ⏳

「外付け」のITを「自分ごと」のDXにする方法

yasushihara
August 15, 2020

 「外付け」のITを「自分ごと」のDXにする方法

「外付け」のITを「自分ごと」のDXにする方法 -
ビジネススクール生のための実践的データ分析
@早稲田ビジネススクール DX-Club

2020.08.15
一橋大学大学院経済学研究科
原泰史
[email protected]

yasushihara

August 15, 2020
Tweet

More Decks by yasushihara

Other Decks in Education

Transcript

  1. 自己紹介(CV) • 1998-2004 • TOYOTA NATIONAL COLLEGE OF TECHNOLOGY •

    2000 • Exchange Student in Malaysia • 2002-2009 • CLARAONLINE, INC. • ICT Hosting Company, nowadays called Cloud system supplier • 2009-2015 • Institute of Innovation Research, HITOTSUBASHI UNIVERSITY • 2015-2017 • Science for RE-Designing Science, Technology and Innovation Policy Center, National Graduate Institute for Policy Studies (GRIPS) / NISTEP / Hitotsubashi UNIVERSITY/MANAGEMENT INNOVATION CENTER • 2018-2019 • EHESS Paris – CEAFJP/Michelin Research Fellow • OECD Expert Advisory Group: Digital Science and Innovation Policy and Governance (DSIP) and STI Policy Monitoring and Analysis (REITER) project • 2019- • TDB Center for Advanced Empirical Research on Enterprise and Economy, Faculty of Economics, Hitotsubashi University
  2. “IT スタートアップ” とは言っても… • 働き出したころ(2002年) は従業員7名 • 辞めるころ (2009年) でも従業員70名

    • “レンタルサーバ”と呼ばれていた時代で、クラウドコンピュー ティングがまだまだ普及する前 (AWS の黎明期) • 仮想化 (virtualization) という、サーバのハードウェアレイヤー とOSレイヤーをカーネルレベルで独立させる技術が一般化しつ つ会った時代 (VMware や Parallels Container など) • Web で注文を掛けて、FAXで受注するような時代 • 購買システムと受注システムと会計システムがバラバラだった 時代
  3. VPS(バーチャルプライベートサーバ) • サーバサービスは当時価格競争に 突入しており、3000円弱の新サー ビス(Demi)を投入することに • ところが、最低価格のプロダクト (Demi)ではなく、中価格帯(Solo) が最も売れるようになる •

    でも、なぜ一番安いモデルが売れない のか説明できない • 「相対価格」で説明して、なんと なく上司が納得する(腹落ちする) • Demi をベースにすると, 1.67 -> 2.34 -> 3.35 • その後最安価モデルは廃止 https://web.archive.org/web/20050208123052/http://clara.jp/service/vps/
  4. エビデンスに基づく 科学技術イノベーション政策と「ポンチ絵」 • いままでのキャリアで、ベンチャー(スタートアップ)とアカデミア をやったことに気づき、数年だけならばと、政策大学大学院大学の 文部科学省の科学技術イノベーション政策のセンター (SciREX セン ター) で働くことに

    • どうやら、研究内容やどういうジャーナルに載ったかとか、それが どういうインパクトファクター(IF)だったかよりも、政策立案のプ ロセス内で使われるポンチ絵の一部になっていることが重要らしい。 • ポンチ絵の要件 • 数十秒で読んで理解できること • しかも、内容が過不足なく明記されていること • 色がいっぱい使われていること • 何よりも予算が取れること
  5. ここまでのまとめ • (個人的には、)ITスタートアップも中央官庁も「データ分析」 に対するアティチュードはそんなに違いはなかった • 「直感でわからないことや、うまくいかなくなったことを分析した い」ことへの高いニーズはあるし、それぞれにデータもある • しかし、部署ごとにデータがバラバラになっており、繋がっていない •

    解析を行うための方法論や理論もあまりない • 誘導系でも構造系でも、統計的な分析モデルを構築するというよりは、 棒グラフや線グラフで経過を見るだけで必要十分だった(意思決定プロ セスの上位過程にまわるタイミングで、説明が出来るレベルに留める ことが肝要)
  6. Q. データを使えばビジネスはわかるか? もしくは、政策評価はできるか? • ちょっと昔に言われたこと • 「データはあくまで数をみているだけ。経営者の心の機微や組織体制の細やかな変容や経 営者の意思決定の変化を、細かくデータで追うことは出来ない。」 • ここ数年、実際の世の中で起きたこと

    • テキスト解析手法の進化 • 因果推論の推定手法の開発と普及 • 機械学習のあっという間の普及 • データベースの普及と重要性が認識されるようになった • データ解析に係る導入コストの低下 • as 統計ソフトを買わなくても良くなった • A. 2020年8月段階の(個人的な)答え • データがあれば、かなり色々なことがわかる。データ分析の技法は取得したほうが良い。 • データで説明しきれない特殊性や特筆性については、まだ定性分析に出来ることはある
  7. 企業活動に関連するデータベース 研究開発 調達 生産 販売 マーケ ティング 科学技術基本 調査(総務省) 企業活動基本調査

    (経済産業省) 経済センサス (総務省) 政府系 データベース 商用 データベース 帝国 データバンク 特許 データ ベース 論文 データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) 商用と政府系のデータベー スを組み合わせれば、企業 行動をデータで「辿る」こ とは可能になる
  8. 帝国データバンクデータベース (Commercial) • 一橋CAREE センターで利用可能なデータセット • パネルデータ化が可能. • アーカイブデータも利用可能(政策フォーラム午前中の岡室先生の発表) •

    ご関心のある先生方は、是非ともお問い合わせください 企業信用調査報告書に関するデータ 取引データ,出資データ,銀行取引データ 企業財務データベースに関するデータ 決算書データ 企業概要ファイルに関するデータ 取引データ,企業情報データ,銀行取引データ その他企業に関するデータ 合併データ,倒産データ
  9. 企業活動に関連するデータベース(extended) 研究開発 調達 生産 販売 マーケ ティング 研究開発に関 わる作業ログ /ノート/機器

    の稼働状況 調達や部品の調達 に関するログ/メー ル/電話のやり取り 販売価格決定 に関わる意思 決定に関わる エビデンス 企業内のログ 商用 データベース 帝国 データバンク 特許 データ ベース 論文 データベース (WoS, Scopus, Lends) INITIAL (Entrepedia) POSデータ (ex. インテージ) SNS (Twitter, Facebook, TikTok) さらに、企業内に介在する ログを組み合わせることで、 企業の意思決定をエビデン スベースに基づき実行する ことが可能になる
  10. データを「データベース化」する • 不定形データをデータ化する • JSON やXML をCSV にして、人間が読めるようにする • もしくはその逆

    • データをデータベース化する • Machine Readable • SQL, NoSQL etc… • データを管理し保持する (データマネジメント) • 大昔; 紙 • 昔; Excel • 一昔前; スタンドアロンのサーバ • ちょっと昔; パブリッククラウド (AWS, Microsoft Azure, GCP etc…) • 現代; サーバーレス/DataLake
  11. Data Lake • “データレイクは、規模にかかわ らず、すべての構造化データと 非構造化データを保存できる一 元化されたリポジトリです。 データをそのままの形で保存で きるため、データを構造化して おく必要がありません。また、

    ダッシュボードや可視化、ビッ グデータ処理、リアルタイム分 析、機械学習など、さまざまな タイプの分析を実行し、的確な 意思決定に役立てることができ ます。” https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/
  12. データベースの種類 • RDB(OLTP; Online Transaction Processing) • DocDB • グラフDB

    • Hadoop • RDB(DWH) Hadoop (HDFS+MapReduce) • Apache Hadoop • CloudEra • MapR • Hortonworks RDB(DWH) • Oracle Exadata • Teradata • Netezza • RedShift KVS/DocDB KVS • Cassandra • Redis DocDB • MongoDB • CouchBase RDB(OLTP) • Oracle • SQL Server • MySQL • PostgreSQL GraphDB • Neo4j • Datadog • OrientDB 引用: RDB技術者のためのNoSQLガイド スケールアウトできる スケールアウトできない スループット重視 オペレーション用途
  13. 構造データと半構造データ データの分類 説明 データの例 非リレーショ ナルデータ 非構造データ バイナリや テキスト形 式など,

    データの構 造化が行わ れていない 半構造データ (ex. XML/JSON) 構造はある がスキーマ がない。頻 繁に構造が 変わる。 リレーショナ ルデータ 構造化データ (ex. RDBMS) スキーマが あり, 構造 が変わらな い。 電子 メール テキス ト・音声 データ システ ムログ オフィ ス文章 経理・財 務・人事 商品・ 在庫 営業・ CRM 決済・ 残高 センサ リング 情報 口コミ SNS 健康・ 医療 データ 統計 データ 行政 データ 他社保 有デー タ 引用: RDB技術者のためのNoSQLガイド
  14. PATSTAT のモデル図 5/14/2015 37 • テーブルとテーブルをつなぎ合わせ るIDがあり • IDを介して複数のテーブルの関係性 (リレーショナル)

    が構築されている • これらのテーブルをつなぎ合わせる ことで、複雑なデータの解析を行う ことができる
  15. グラフDBのデータ構造 :ラベル ノード 属性 {キー: バリュー, キー:バリュー} :ラベル ノード 属性

    {キー: バリュー, キー:バリュー} :タイプ 属性 {キー: バリュー, キー:バリュー} 関係性 ラベル; 同じ種類のノードを識別するためのドメインの定義 ノード; RDB におけるレコードに相当。複数の属性を{キー:バリュー}で保持出来る 関係性; ノードとノードの間に存在, ノード間のつながりを表現する. 属性; RDB におけるカラム.
  16. Ex2.) Singapore COVID-19 Dashboard • https://co.vid1 9.sg/singapore/ dashboard • Total

    Cases • Active Cases • Deceased • Discharged などが掲載され ている
  17. Data Lake(cont.) 特徴 データウェアハウス データレイク データ トランザクションシステム、業務 データベース、基幹業務アプリ ケーションからのリレーショナル データ

    IoT デバイス、ウェブサイト、モ バイルアプリケーション、ソー シャルメディア、企業アプリケー ションからの非リレーショナル データとリレーショナルデータ スキーマ DW の実装前に設計 (スキーマオ ンライト) 分析時に書き込み (スキーマオン リード) 料金/パフォーマンス 高コストのストレージを使用、ク エリ結果の取得は最速 低コストのストレージを使用して クエリ結果をより速く取得 データ品質 高度にキュレートされたデータで、 事実の情報源として機能 任意のデータで、キュレートでき るかどうかは不明 (raw データ) ユーザー ビジネスアナリスト (キュレートされたデータを使用す る) データサイエンティスト、 データ開発者、ビジネスアナリス ト 分析 バッチレポート、BI、可視化 機械学習、予測分析、データ検出、 プロファイリング https://aws.amazon.com/jp/big-data/datalakes-and-analytics/what-is-a-data-lake/
  18. 分析手法 • Step1; グラフにする • 「まずは散布図を書いてみる」 • Step2; 統計的処理を行う (平均値,

    中央値, 最大値, 最小値 etc..) • このあたりから、内生性や見せかけの回帰との戦いがはじまる • Step3; 回帰分析など, 入力と出力間の関係性を見る • 重回帰分析 • スパース推定 • 決定木分析, SVM (教師あり/教師なしの機械学習) • Step4; 因果効果を識別する • 因果関係と相関関係を識別する(次のページ)
  19. 因果識別の手法(1) 実験対象 Treated Group Control Group y x Cut-off Point

    • ランダム化比較試験 (RCT) • 対象者と非対象者を無 作為抽出して比較実験 • 回帰不連続(RD) デザイン – 回帰直線シフト 43 実験対象 Treated Group Control Group • 傾向スコアマッチン グ(PSM): – 各政策対象企業と同じ「政 策対象傾向」を持つ企業を 対照群から抽出 引用:岡室博之 (2019) 産業クラスターと地方創生:地域イノベーション政策の展開と分析方法, 一橋大学公開講座
  20. 因果識別の手法(2) • 差の差の分析(DID) • 処置群と対照群の比較 と政策前後比較の二重 差 y t Control

    Group Treated Group t+u t-s ▲t • パネル固定効果分析 • パネルデータを用いて、 各企業の固有の属性の 影響を除去 y x t+i t • 操作変数法(IV): – 内生変数を外生変数 (操作変数)に置き換 える2段階推定 Z X Y U β α 引用:岡室博之 (2019) 産業クラスターと地方創生:地域イノベーション政策の展開と分析方法, 一橋大学公開講座
  21. 分析ツール • オープンソース • R • Python • Julia •

    有償ツール • Stata • SAS • SPSS Source: http://lindeloev.net/spss-is-dying/ 有償の分析ソフトから, OSS への流れが
  22. Data Analytics Job Market The number of data science jobs

    for the more popular software (those with 250 jobs or more, 2/2017). Jobs trends for R (blue & lower) and Python (orange & upper). http://r4stats.com/articles/popularity/
  23. データサイエンスをタピオカミルクティー にしない方法 1. データを公開する. Linked Open Data を活用する. 2. データの知的財産権を明確化する.

    3. 神エクセルをなくす. (as DX の推進) 4. オープンソースソフトウェアを使う, あるいは教育する. 2020年初頭の最適解はR もしくは Python (3.x系). 5. AI という言葉に踊らされない. 使い倒す.
  24. 傾向スコアマッチング • 作成した equation_df3 から foot と reputation を取り出 す

    • 重回帰分析で行ったように、 null 値を除去する • 傾向スコアを求めるために, 被説明変数をfoot, 説明変数を その他のパラメータにして, ロジットモデルを回す
  25. 傾向スコアマッチング • Result.predict の値をps に放 り込む • Foot と Reputation

    と傾向ス コアの値を table に放り込み、 ラベルをつける
  26. 傾向スコアマッチング • 左足と右足グループを比較すると、 • レピュテーションは -1.3パーセント左足グループのほうが低 く • 給料は 4.0%

    左足グループのほうが高い • 左足のフットボールプレイヤーは希少性が高いので、同 じような能力を持ってても高いサラリーになりやすい?
  27. Word2vec モデルに基づく Similarity Words の抽出 (from Wikipedia の 経営学者リスト) イノベーション

    マーケティング論 技術経営 コーポレート・ガバナンス 医療 0.92人的資源 0.92MOT 0.98 神戸大学大学院経 営学研究科 0.93 静岡 0.91評価 0.92開発 0.92第一人者 0.92 地域 0.91ほか 0.91システム 0.92人 0.91 経営情報学 部 0.9勲 0.91知識 0.91組織論 0.91 県立大学 0.88技術 0.9マネジメント 0.9および 0.9 センター 0.88流通 0.9監事 0.88消費者 0.89 研究科 0.87分析 0.9課題 0.85にて 0.89 経営情報 0.87委員会 0.9Certified 0.85問題 0.88 研究所 0.84課題 0.9客員研究員 0.84受章 0.88 所長 0.83人 0.89技術 0.82期 0.87 長 0.82監事 0.89関係 0.82現代 0.87 准教授 0.81および 0.89プロジェクト 0.82勲 0.87 国際企業 0.8多摩大学 0.89 マーケティング 論 0.81アドバイザー 0.87 経済 0.8地域経済 0.88領域 0.81及び 0.87 研究員 0.79サービス 0.88ホスピタリティ 0.8社会学 0.86
  28. (いくつかの)ギャップ • 願望投影型政策 (森田 2015) とEBPM • データが、推進したい施策に基づき構築される可能性 • ナラティブなストーリーとデータ解析

    • 統計的な素養を政策立案者や企業戦略の決定者すべてが有しているわけでは ない。データに基づく解析結果を広く共有するためには、ストーリーに落と し込むことが必要 • データのオープン化と、ITセキュリティ対策 • RESAS や Notebook や Linked Open Data を利用しようとしても, 自治体や 中央政府、企業のITセキュリティ上制限が掛けられており(ex. 自治体のネッ トワーク分離), 業務用PC などでこれらのツールを利用することが出来ない。
  29. Source: OECD (2017[3]), Core Skills for Public Sector Innovation, https://www.oecd.org/media/oecdorg/satellite

    sites/opsi/contents/files/OECD_OPSI-core_skills_for_public_sector_innovation-201704.pdf OECD が定義するデジタルスキル
  30. Conclusion • データサイエンスと呼ばれているものは、プログラミングスキ ルと数学とエンジニアリングスキルと因果関係を特定するため のスキルが混ざりあったもの • 政府のみなさんへ • とりあえずデータを、Machine-Readable な形で公開してください

    • PDF でも Excel でもなくて、JSON やRDF 形式だとかなりベター • 企業のみなさんへ • 組織内のデータと、外部データを組み合わせることで新たな知見を得 られる可能性が • 経済学や(実証的な規範に基づく)経営学は思ったよりも「役に立 つ」と思います
  31. 2020年4月にやってたこと 1. 一橋大の講義開始が5月になり時間が出来る 2. プロスピで坂本と吉田を育てきったので若干暇になる 3. テレビを観ていると安倍ちゃんが緊急事態宣言って言ってる 4. どうやら、世の中はテレワークや在宅勤務をしないといけなく なったらしい

    5. せっかくなので、組織学会の研究チームで企業にサーベイして データを集めることに 6. あとは、パチンコホールが凄い社会の敵になってたので Web スク レイピングしてデータを集めることに • https://speakerdeck.com/yasushihara/4-ver-dot • 経済学者のチームで論文に仕立てているところであります
  32. Q13. 在宅勤務/テレワークの導入に関する具 体的な状況についてお伺いします。当てはま るものをすべてお選びください。 0 50 100 150 200 250

    300 350 すべての正社員について在宅勤務/テレワークの実施を許可している 一部の正社員について在宅勤務/テレワークの実施を許可している 在宅勤務/テレワークの導入に当たって必要な機器・ソフトウェアの購入 に際し金銭的な補助を行っている 在宅勤務/テレワークの導入に当たっては、IT システム部門等による導入 支援を実施している 在宅勤務/テレワークの導入に際して雇用契約条件の見直しを行った その他 はい いいえ
  33. 社内でコミュニケーション、情報共有、ファイル共有などを円滑化するた めの「情報活用ツール」についてお聞きします。 貴社の主要事業では、新 型コロナウイルス感染症による在宅勤務/テレワークにあたり、次のような 情報活用ツールを利用していますか。利用の有無をお答えください。 • 「情報活用ツー ル」とは、Slack、 Microsoft Teams、

    サイボウズなどの 社内のコミュニ ケーションを円滑 化させるための ツール、 また Zoom や WebEX などのオンライン 会議ツールなどを 指します。 0 10 20 30 40 50 60 70 80 使用していない 使用するのは月に数日以下 週に数日使用する ほぼ毎日使用するが、一日一回確認する程度 毎日使用するが一日数回程度 毎日頻繁に使用しており、朝会やオンラインランチなどに参加し、社員同士で近況 報告を共有している
  34. 貴社の「ICTシステム」についてお聞きします。 (労務管 理・経理などの)社内のICT システムについて、 以下のう ち当てはまるものをお選びください。 0 20 40 60

    80 100 120 独自システムを構築・運用している SaaS (Software as a Service) 形式のシステムを調達・運用している オープンソースソフトウェア(OSS) を活用したシステムを構築・運用している その他 わからない
  35. テレワーク導入時期の企業規模差 ・在宅勤務/テレワークの導入に関して、企業の体力が影響している可能性がある。 ・1,000名以上の大企業79社のうち、58.20%にあたる46社が2019年12月以前から在宅勤務/テレワークを導入 他の2カテゴリに比して、かなり大きな割合である。 ・コロナ禍後の導入のピークが、101~1,000名と1,000名以上では2020年3月であるのに対し、100名以下の 企業は緊急事態宣言以降(32.30%)。 ・101~1,000名と1,000名以上の企業はそれぞれ導入率が9割を超えているが、100名以下の企業では、 23.70%が未導入。 2019年 12月以前

    2020年1月 2020年2月 2020年3月 緊急事態 宣言以前 緊急事態 宣言以降 未導入 合計 度数 18 0 3 14 6 30 22 93 行の% 19.40% 0.00% 3.20% 15.10% 6.50% 32.30% 23.70% 100% 度数 26 0 7 33 17 27 10 120 行の% 21.70% 0.00% 5.80% 27.50% 14.20% 22.50% 8.30% 100% 度数 46 1 5 10 5 9 3 79 行の% 58.20% 1.30% 6.30% 12.70% 6.30% 11.40% 3.80% 100% 度数 90 1 15 57 28 66 35 292 行の% 30.80% 0.30% 5.10% 19.50% 9.60% 22.60% 12.00% 100% p=.00 (χ2=65.95) 100名 以下 101~ 1,000名 1,000名 以上 合計
  36. ここまでのまとめ • (大学や大学教員がそうであるように、) IT っていうのは外部のそ れっぽいSIer にぶん投げて中間マージンが持っていかれたとしても、 決して自社で抱え込むもんじゃないっぽい。少なくともこの20年間 は。 •

    もしかして: 20年前にIT, 10年前にクラウド, 5年前にIoT っていって た人たちが今日DX 化って言い出している、のかも。 • 同じ「DX 」というタームでも、機械学習系のソリューションを売りたい人 たちと、SIer と、データサイエンス系と、METI で微妙に言っていることが 違う感じ。 • See (土肥・根来 2019) https://www.waseda.jp/prj-riim/wp- content/uploads/2019/04/2019_RIIM-WP-60_Appendix_2019-04-16.pdf • 少なくとも日本企業に対するサーベイでは、まだまだITは外部から「持って くる」もののように見える
  37. ディスカッションのやり方 • ブレイクアウトルームを設定します • たぶん3グループくらい • 10-15分くらい相互に話す時間を用意します • 先程上げた、ふたつのポイントについて議論して頂けると助かります。 •

    誰か、代表して話すひとを決めてください • 最後に、グループごとに発表してもらうことにしたいと思います (引 用: COVID-19セミナーシリーズの入山先生方式)
  38. ひとつめ • 一橋ビジネスレビュー(https://str.toyokeizai.net/magazine/hitotsubashi/)という学術雑 誌の「働き方改革」特集に寄稿することに。12月締切、来年3月に発刊予定。 • タイトル; 「『デジタル』に成りきれない企業のかたち、働き方のかたち -新型コロナウ イルス感染症に関連する緊急組織調査より」 •

    Skeleton; 新型コロナウイルス感染症 (COVID-19) は企業経営にも多大なる影響をもたらした。感 染拡大の抑止を目的とした在宅勤務およびテレワークの導入は企業内あるいは企業間で の協業の形に多大なる影響を与え続けている。 • 本稿では、こうした企業における働き方の変化について、組織学会の有志チームが2020 年4月に実施した「緊急組織調査」および、2020年9月に実施した「組織調査2020」に基 づき、日本企業がテレワークを導入するにあたり、どのような課題に直面してきたかを サーベイ調査に基づき明らかにする。また、デジタルトランスフォーメーション (DX) と も呼称される、企業のデジタル化がこうしたテレワークの導入や業務プロセスの変化に 果たした役割を観察するため、帝国データバンクが提供する企業ビッグデータを活用す る。
  39. 最後に宣伝 • 今後出る本や論文 [※. 確定済み] の予定 • 2020/10 『感染症時代の経営学』(Book Chapter)

    • 2020/12 『Python によるデータ分析入門』 • 2021/03 『一橋ビジネスレビュー』の「働き方改革」特集 • 講義資料 • https://speakerdeck.com/yasushihara