Upgrade to Pro — share decks privately, control downloads, hide ads and more …

スモールデータ回帰分析ダッシュボード [xica adelie]

XICA
August 30, 2013

スモールデータ回帰分析ダッシュボード [xica adelie]

2013年8月22日に日本創生ビレッジ東京21cクラブで開催された「BIGDATAダッシュボード勉強会」にて、「ビッグデータを活用するために、まずデータの可視化(ビジュアライゼーション)について考える」をテーマに講演した際に使用したスライド。

弊社の提供する統計分析アプリケーション xica adelie ( https://adelie.xica.net/ )について説明しています。

株式会社サイカ
http://www.xica-inc.com/

XICA

August 30, 2013
Tweet

More Decks by XICA

Other Decks in Technology

Transcript

  1. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. アジェンダ

    p 自己紹介   p 会社紹介    ビジョン    事業内容   p adelieによる分析作業の可視化    デモ    adelieとは    機能紹介    市場/ターゲット   p 技術情報    バックエンド/クライアント    “c3.js”    インフラ/開発運用   p “adelie”の今後   2
  2. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. 自己紹介

    p 海老原 智    hAp://twiAer.com/succhiello    hAp://succhiello.net   p 経歴   p サイカでの役割   ü プロダクト/サービスディレクション   ü インフラ   ü バックエンド   ü 運用、開発体制構築   ü その他…プロダクト/サービスに関する、   クライアントサイド実装以外の全て 3 2002~2009   3DCG/VR開発 2010~2012   SNS/スマートフォン   アプリ開発 2012~   株式会社サイカ
  3. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. 会社紹介

    p 株式会社サイカ(XICA)    hAp://www.xica-­‐inc.com/aboutus/company/    2012年2月設立   p ビジョン:「才能開華」    さい-­‐か〔-­‐クワ〕【才華】   「はなやかに外に現れた才能。また、すぐれた才能。」    計量経済学の技法と情報技術を用いて人・組織・社会の意思決定/行動最適化 を支援し、そのポテンシャルをより創造的な部分に集中させることで世界中で   「才能開華」を起こしていく    最後に決定するのは人間の持つ直感知や経験知   ü その前段階の数理的な情報に基づいて検討が可能な余地が多く有る   ü その部分についてサービスやコンサルティングを提供していく   4
  4. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. スモールデータ回帰分析ダッシュボード

      “adelie” p 2013年7月17日オープンβ開始   p hAp://adelie.xica.net   5 回帰分析による多変量間の   相関関係の計算 自動計算による最適   分析モデルの提案   ユーザー観察による   分析作業UXの向上  
  5. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. adelieによる「才能開華」支援

    6 「えいや」以外で どう決めればいい のか分からない… データはあるけどど う分析すればいい のか分からない… 分析はしてるけど現 場の人間ではない のでいまいち問題意 識が共有できない… 分析はしてるけど毎 回の作業が煩雑過ぎ てやってられない… 導入支援   使いやすい UI/UX   統計専門性の 払拭   「回帰分析」手法 の提供  
  6. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. adelieの事業展開

    7 データ保有企業との   共同事業   業務現場   コンサルティング   導入支援 機能特化版 分析UI/手法   提供   adelie 現場ノウハウ   ユーザーシナリオ   問題領域の知見   フィードバック  
  7. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. スモールデータ分析作業の

      コモディティ化 p 企業の持つ数百M~G程度のデータ    「ビッグデータ」というほどの規模ではない   p 分析需要の高まり   p コンサルタント/データサイエンティストと現場の隔たり   p 問題意識の当事者自身による分析手段の必要性    adelieによる「回帰分析」の提供    データサイエンティストには、より困難で挑戦的な領域への注力を   8
  8. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. adelieによる分析作業の可視化

    p adelieが可視化するもの    データについて分析を行う工程    試行錯誤の過程    分析モデル間の差異   p 分析作業そのもの    過程の可視化   ü 透明性の提供   ü 恣意性の排除 9
  9. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. スモールデータ回帰分析ダッシュボード

      adelieとは 11 回帰分析による多変量間の   相関関係の計算 自動計算による最適   分析モデルの提案   ユーザー観察による   分析作業UXの向上  
  10. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. (重)回帰分析

    p 「結果(y)」と「要因(x1,x2…)」のデータから、要因毎の係数を   推計し、   y  =  ax1  +  bx2  +  …   として表現可能にする    x1はyに対してa、    x2はyに対してbの分だけ影響すると考えることができる   p 結果に対して、要因ごとにどの程度の度合いをもって相関し ているのかを提示する    強くポジティブに相関する要因    弱くネガティブに相関する要因    そもそも相関があまり無い要因   p 手法にはOLS(最小二乗法)を用いる   12
  11. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. 開発の経緯

    p 元々はコンサル業務支援用社内ツールとして   プロトタイピング   p 社内コンサル業務についてヒアリング、ユーザー観察    業務において最も典型的なユースケースのサポートに注力    既存の分析ツールの使いにくい仕様を参考に改善    回帰分析に特化   p 2013年3月までは、マクロ経済指標推計を業務の中核として 事業展開   →SaaSとして公開し業務の中核に据える方向にピボット 13
  12. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. サイカにおける分析作業の実際

    p 工程    結果と要因について簡単に回帰分析    仮説を立て、データを整形   ü 特異な値の調整   ü 要因の取捨選択   ü 時間差の考慮    回帰分析し直し、各種検定値を確認    「統計的に有意」になるまで調整を繰り返し、各モデルを比較   p 「試行錯誤のためのデータ整形まで戻っての反復試行」が   非常に煩雑   14
  13. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. 分析作業の実際

      特異値の調整 p 典型的なシナリオ    元のデータで一度分析にかける    実測値と推計値が明らかにかけ離れている部分に補正をかける   ü 補正をかけるような変数(=ダミー)を追加する    もう一度分析にかける    他の部分で同じことが起きないか確かめて以降繰り返し   p adelieによる支援    実測値/推計値の乖離の提案    ダミーのリアルタイム追加   15
  14. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. 分析作業の実際

      要因の取捨選択 p 典型的なシナリオ    元のデータで一度分析にかける    要因毎の検定値を確認し、パフォーマンスが低い要因を省く   ü データから除去する    もう一度分析にかける   p adelieによる支援    要因毎のパフォーマンス表示    変数のリアルタイム選択    自動提案 16
  15. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. 分析作業の実際

      各モデルの比較 p 典型的なシナリオ    仮説を立てて有望なものを保存    それらについて統計値や検定結果を個別に見ていく   p adelieによる支援    特に見るべき統計値の端的な表示    相関している確率、相関の強さの直感的な表示   17
  16. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. 既存プロダクトとの比較、

      ターゲット p 手法を思い切って限定    回帰分析=多変量間の   相関関係を必要とする   問題解決を対象とする   p 統計の知識を前提としない   p 広告費用対効果   p SFA   p ソーシャルメディアKPI    などについて、「現場」が   分析する手段を提供する 18
  17. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. バックエンド

    p フルPython    numpy/scipy   ü pandasは利用していない    内製「パイプ」処理フレームワーク   ü FromCSV(…)  >>  SelectX(…)  >>  AddDummy(…)  >>  SetLag(…)  >>  OLS()   のような記述で、データ整形/統計処理を構造化、合成   ü 将来的な並列分散処理を意図   p Nginx/uWSGI/Pyramid   p 分析対象データストレージ    HBase…の予定から生csvへ    あるいはTD 20
  18. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. クライアント

    p pure  old-­‐fashioned  JS     p AltJS   p 自動ビルド/TDD等モダンなワークフロー   p MVCのようなソフトウェアアーキテクチャ    全て無し    大きな技術的負債になっているため、Yeoman導入、Haxe化など   進めていく   21
  19. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. クライアント

      チャートビジュアライゼーション p c3.js    hAp://c3js.org/    hAps://github.com/masayuki0812/c3/wiki   p “Completely  Controllable  Charts”    対話的なチャートの制御、情報の取得    CSSベースのスタイル管理、コードとスタイルの分離    D3.jsベースの実装、自由に拡張が可能   22
  20. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. インフラ/DevOps

    p 完全にAWSに依存    開発環境から全てEC2    アプリケーションデータは全てDynamoDB   p 構成管理ツールとして全面的にAnsibleを利用    hAp://www.ansibleworks.com/   ü Python製の”IT  orchestraion  engine”    サーバ構築    デプロイ   p fluentdによるログ収集    …は現在着手中   p CIが今後の課題 23
  21. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. 開発運用

    p Atlassian  OnDemandを全面的に利用    プロジェクト管理/BTS:Jira    アジャイル開発:Greenhopper    ドキュメント管理:Confluence   p DVCS    Git/Bitbucket   p コミュニケーション    HipChat 24
  22. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. “adelie”の今後

    p チュートリアルの提供   p 統計学習コンテンツの拡充(コーポレートサイト)との連携   p 分析プロジェクト共有/共同編集など、   「”adelie”でなければならない機能」の追求   p 問題領域毎の特化版の展開    シンプルさ    問題領域に最も適合するUI/UX 25
  23. Copyright  ©  All  rights  reserved  by  XICA,  Co  LTD. ご清聴ありがとうございました

    p 自己紹介   p 会社紹介    ビジョン    事業内容   p adelieによる分析作業の可視化    デモ    adelieとは    機能紹介    市場/ターゲット   p 技術情報    バックエンド/クライアント    “c3.js”    インフラ/開発運用   p “adelie”の今後   26